当Google的Gemini性能超越GPT-4，对创业者意味着什么？-钛媒体官方网站

图片来源@视觉中国

文 | 阿尔法公社

真正能与GPT-4正面比拼性能的AI基础模型终于出现了。

北京时间12月7日凌晨，Google DeepMind发布了Gemini系列AI基础模型，它分为Gemini Ultra，Gemini Pro，Gemini Nano三个版本，其中Gemini Ultra在32个测试中的30个超越了之前的SOTA模型，Gemini Pro会成为Bard背后的模型，Gemini Nano则将搭载于Pixel 8 Pro，是一个定位在端侧的模型。

Gemini是一个原生多模态的模型，直接和GPT-4和GPT-4V对标，而且Google在安全性上经过了加强，它经过最全面安全评估，包括偏见和有害内容方面，还能防护包括网络攻击、“越狱”在内的潜在风险。

Google为开发者和企业客户推出了Google AI Studio和Vertex AI，Google AI Studio是一个免费的基于网络的开发者工具，开发者们可以利用API快速搭建AI应用，Vertex AI则允许企业用户定制Gemini，并完全控制数据。

Gemini是原生多模态大模型，大部分性能超越GPT-4

今年3月中旬，OpenAI的GPT-4发布，其性能对其他AI基础大模型呈现碾压之势，这让Google感到深刻的威胁。4月21日，Google将Google Brain和DeepMind两个最强大的AI实验室合并，集中精锐的研究力量，并让DeepMind的创始人Demis Hassabis来领导公司。

与OpenAI一样，Hassabis一直以来的愿景也是打造AGI，他在发布会中表示：“我始终相信，如果我们能够构建更智能的机器，就能利用它们以难以置信的方式造福人类。长期以来，我们一直希望构建新一代的人工智能模型，这些模型的灵感来自于人类理解和与世界互动的方式。这样的人工智能，感觉上不像是一款智能软件，更像是一种有用且直观的东西——一个专家助手或助理。”

高性能的原生多模态模型系列

Gemini系列AI基础模型分为Gemini Ultra，Gemini Pro，Gemini Nano三个版本。

其中Gemini Ultra适用于高度复杂的任务；Gemini Pro是性能和尺寸最平衡的版本，适用于多种任务的扩展；Gemini Nano则适用于端侧，可以直接搭载于移动设备。

不过Gemini Ultra还需要完成更严格的信任和安全检测，以及红队测试和RLHF，才能推向市场，它的上线时间会是2024年初，主要面对开发者和企业客户。

在性能方面，从自然图像、音频和视频理解到数学推理，GeminiUltra在32个广泛使用的学术基准测试中的30个上超越了当前的最先进结果。

其中Gemini Ultra以90.0%的成绩成为首个在MMLU（大规模多任务语言理解）上超越人类专家的模型，该测试结合了数学、物理、历史、法律、医学和伦理等57个科目，用于测试世界知识和解决问题的能力。

此外，值得注意的是，在与推理、数学和编码等几个评判大模型真正能力的测试中，Gemini Ultra几乎是全面领先GPT-4的。

以下是Gemini的技术资料里更详细的对比，能够了解到Gemini Ultra和Gemini Pro与主流模型的性能差异。

在多模态能力的对比中，无论是图片，视频还是音频，Gemini Ultra也在大多数测试中超越了GPT-4V，这些测试凸显了Gemini的原生多模态特性，并表明了Gemini更复杂推理能力的早期迹象。

另外，在更复杂的MMMU基准测试中Gemini Ultra取得了领先的59.4%的得分，该基准测试包含了跨不同领域、需要深思熟虑的推理的多模态任务。

此前，创建多模态模型的标准方法涉及分别训练不同模态的组件，然后将它们拼接在一起以大致模仿这些功能。这些模型有时在执行某些任务（如描述图像）方面表现良好，但在更概念性和复杂的推理上则有所挣扎。

Gemini则是原生的多模态模型，它一开始就在不同的模态上进行预训练，然后Google再用额外的多模态数据对其进行了微调，以进一步提高其效果。这有助于Gemini从根本上无缝理解和推理各种输入。

这也使Gemini能够很好的理解文本、图像、音频等内容，能够适应更多的复杂应用需求。

对于生成式AI非常重要的程序编码需求，Google使用一个专有版本的Gemini，创建了一个更高级的代码生成系统AlphaCode 2，它擅长解决超出编码范畴、涉及复杂数学和理论计算机科学的竞赛编程问题。

AlphaCode 2相比此前的AlphaCode显示出巨大的进步，据估计它的表现优于85%的人类参赛者，而AlphaCode的数据是超越近50%参赛者。

负责任的大厂，强大的安全性

除了性能提升外，作为一个科技大厂，Google一直在人工智能的安全性上十分重视。具体到Gemini，Google做了以下措施：

1.对模型进行全面安全评估的，包括偏见和有害内容方面。

2.利用对抗测试技术，帮助提前识别Gemini部署中的关键安全问题。

3.与多元化的外部专家和合作伙伴合作，对Gemini在一系列问题上进行压力测试。

4.为了限制伤害，Google构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象的内容。

5.与行业和更广泛的生态系统合作，例如MLCommons、前沿模型论坛及其AI安全基金。

Gemini Pro加持的Bard，针对开发者和企业用户的Google AI Studio和Vertex AI

在产品方面，Google会将Gemini模型的能力扩展到各种服务中，例如搜索、广告、Chrome和Duet AI（企业级效率应用）。

直接对标ChatGPT的Bard，将会把背后的模型从PaLM2，换成经过精细调整的Gemini Pro版本，以实现更高级的推理、规划、理解等功能。不过虽然Bard已经在170多个国家和地区提供服务，未来Google会开放更多的模态，并支持新的语言和地区。

明年初，Google将推出Bard Advanced，它背后的模型将是Gemini Ultra，而不是Gemini Pro。

Gemini Nano这个面向端侧的小参数模型将搭载在Google的Pixel 8 Pro手机上，提供例如录音摘要，Gboard的智能回复等功能，未来还有更多可能性。

此外，从12月13日开始，Google会为开发者和企业客户提供Gemini API以访问Gemini Pro模型。

Google AI Studio是一个免费的基于网络的开发者工具，开发者可以使用API快速搭建产品原型并验证产品功能。

Vertex AI让企业用户可以自定义Gemini，并完全控制数据，它还提供完全托管的服务，并为模型的安全、隐私以及数据治理和合规性负责。

更强大的基础模型，让创业者有更多更便宜的选择

尽管仍然需要到实际场景中检验，但是Gemini Ultra是第一款真正意义能力与GPT-4持平或超越的AI模型，此前的Claude2和Inflection2只是在部分细分测试上追上了GPT-4的分数。

在技术上，Gemini模型原生多模态的范式代表了大模型的发展方向，在未来2-3年内，新推出的大模型都应该是多模态大模型。而只有大模型具有了多模态能力，它才有可能完整的“理解”世界，才有可能在未来诞生AGI的雏形。

此外，部署在移动端的Gemini Nano模型也代表了另一个趋势，相比联网使用云端的大模型，端侧模型虽然通用能力上欠缺，但是更灵活，更安全，经过微调后在特定任务上也具有高可用性。随着端侧AI算力的不断增强，它应该具有不小的开发潜力。

在生态建设上，Google提供为开发者提供了API和应用搭建工具Google AI Studio，让开发者可以使用先进的AI模型搭建自己的原生AI应用。它也为企业用户提供模型定制和模型部署的服务。

这些做法，与Meta，Amazon，百度，阿里等科技巨头较为类似，它们都想通过生成式AI重塑自己的业务，并建立新的生态，从而打开第二增长曲线。

其中Meta和阿里更激进些，不但有云平台，而且开源了自己的基础模型（llama2，通义千问）；Amazon的力度也不小，不但提供自己的闭源模型，还接入了Claude等第三方的先进模型。

当然，在产品和生态打造上，目前最成功的仍然是OpenAI的ChatGPT、助手API和GPTS。而他成功的基础，又是基于能力强大的GPT-4。

所以，当Gemini Ultra的能力赶超GPT-4后，对于创业者意味着什么？

首先，这让人人都是产品经理越来越成为现实，有产品想法和能力的人可以更快更低成本的验证自己的想法，而不需要太多的开发经验。

对于那些具有产品能力和开发能力的个人创业者，现在除了GPT-4外有了另一个足够强大的模型可用，而且竞争有可能使得API的成本降低，具有更多的试错空间。

对于基于API或定制模型打造垂直行业应用的创业公司，与开发者一样，他们有了更多的选择，并有望降低成本。但是真正的成本降低，可能还是得等足够高效和低成本得算力芯片成熟。

发表评论

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

纣王在黄昏
谷歌什么都好，就是缺个纳德拉，现任的ld视野已经不足以领导谷歌了
回复 2023.12.09 · via android
王大豆子
起码不用付费
回复 2023.12.09 · via h5
小骄傲ywD
若某样东西自一诞生起就迫不及待和另一样东西去比较，那么它往往是不如后者的
回复 2023.12.08 · via iphone
CNLKY
谷歌的宣发也开始搞小动作了
回复 2023.12.08 · via android
菜菜都
ultra性能超GPT4了，但目前还没有开放
回复 2023.12.08 · via android
重拾升势
让子弹再飞一会儿
回复 2023.12.08 · via android
ComarPers922
看看Gemini在语言评测部分搞的一点小动作就知道Google明显底气不足
回复 2023.12.07 · via iphone
KeyNG
多模态Gemini，迄今规模最大、能力最强的谷歌大模型
回复 2023.12.07 · via iphone
深知自己不讨喜
请问怎么才能用上Gemini pro?
回复 2023.12.07 · via h5