谷歌深夜发布全球最强开源大模型Gemma，性能“吊打”130亿的Llama

开源大模型王座易主，三个月内，谷歌连续发布三款大模型，全面覆盖开源和闭源方向，希望成为“AI 行业王者”的野心暴露无遗。

就在刚刚，谷歌扔下“震撼弹”。

北京时间2月21日晚21点，美国科技巨头谷歌（Google）宣布推出全球性能最强大、轻量级的开源模型系列Gemma，分为2B（20亿参数）和7B（70亿）两种尺寸版本，2B版本甚至可直接在笔记本电脑上运行。

谷歌表示，Gemma采用与 Gemini 模型相同的研究和技术，由Google DeepMind 和谷歌其他团队开发，专为负责任的 AI开发而打造。谷歌声称，Gemma 模型18个语言理解、推理、数学等关键基准测试中，有11个测试分数超越了Meta Llama-2等更大参数的开源模型。

平均分数方面，Gemma -7B 的基准测试平均分高达56.4，远超过Llama-13B（52.2）、Mistral-7B（54.0），成为目前全球最强大的开源模型。

请输入图说

谷歌和Alphabet公司CEO 桑达尔·皮查伊（Sundar Pichai）表示，Gemma展示了强大的性能，从今天开始，该模型将在全球范围内提供，并可在笔记本电脑、工作站或谷歌云上运行。

Google DeepMind CEO Demis Hassabis表示，轻量开源的Gemma是同类尺寸中性能最佳的模型。

如今，谷歌不仅将对手瞄向OpenAI，而且打算占据一切，新模型将比扎克伯格的Llama-2“遥遥领先”。

性能超越Llama-2开源模型，谷歌Gemma为何那么强？

自Gemini发布至今，谷歌持续在 AI 方面“狂飙”。

2023年12月，谷歌推出全球最强大、最通用的多模态通用大模型：Gemini，中文称“双子座”，共包括三个不同尺寸版本：Ultra（超大杯）、Pro（大杯）和Nano（中杯），全面内置最新、最强大的自研 AI 超算芯片Cloud TPU v5p。

谷歌表示，在六项基准测试中，Gemini Pro性能表现优于GPT-3.5；而在30项性能基准测试中，Gemini Ultra超越了目前最强模型GPT-4，甚至在数学、物理、法律等57个领域测试中成为全球第一个超越人类专家水平的 AI 模型。

如此强大的 AI 技术，谷歌必然要持续推进。

所以，谷歌不仅统一了 AI 人才和算力资源，而且全力投资Gemini。今年1月，谷歌宣布全球一项大模型基准测试中Gemini超越GPT-4；2月，谷歌宣布对标ChatGPT的 AI 聊天机器人平台Google Bard更名为Gemini，并推出安卓版本的独立App，以及发布史上性能和功能最强大的Gemini Ultra 1.0模型等。

然而，2月中旬Gemini 1.5发布的同时，OpenAI全新视频生成模型Sora突然亮相，一经面世瞬间成为顶流，话题热度只增不减。所有人都在讨论Sora为行业带来的改变，但这让谷歌在 AI 领域的努力一下子“黯然失色”。

仅过了不到半个月，如今，谷歌卷土重来，正式推出全球最强大的开源模型Gemma。

相比ChaGPT和Gemini，Gemma可能更适合较小规模的任务，例如简单的 AI 聊天或摘要。

谷歌表示，Gemma其灵感来自于此前谷歌发布的Gemini大模型，名字在拉丁语中意为“宝石”。

具体来说，谷歌此次主要展示Gemma模型架构、性能表现、自研芯片、训练基础设施、软件工具、碳减排、安全和评估、负责任等多个方面的努力。

其中，模型架构方面，Gemma基于谷歌Gemini模型以及Transformer自注意力机制的深度学习技术研发，Gemma 2B 和 7B 分别针对来自网络文档、数学和代码的 2T 和 6T 规模英文标注数据进行训练。与Gemini 不同，这些模型不是多模式的，也没有针对多语言任务的最先进性能进行训练。

不仅如此，Gemma还使用了改进后的多头注意力、RoPE嵌入、GeGLU激活函数等新的技术，旨在文本领域实现通用能力，同时具备最先进的理解和推理技能。

性能表现方面，根据技术文件，Gemma在MMLU、MBPP等18个基准测试中，有11个测试结果超越了Llama-13B或Mistral-7B等模型。

自研芯片方面，谷歌Gemma使用自研 AI 加速芯片TPUv5e进行训练。其中7B模型在16个Pods上训练，2B模型在2个Pods上训练，每个 Pod 可占用的 256 个芯片更少，v5e 经过优化，可以成为转换器、文本到图像和卷积神经网络 (CNN) 训练、微调和服务的最大价值产品。

而通过TPUv5e，Gemma模型可在文本领域实现强大的通用能力，同时具备最先进的理解和推理技能。

值得一提的是，谷歌今天还宣布与英伟达（NVIDIA）展开合作。这意味着，Gemma不止使用TPUv5e芯片，而且使用NVIDIA GPU 来优化 Gemma 模型。

软件工具层面，谷歌发布了全新 AI 软件工具包，名为Responsible Generative AI Toolkit，从而帮助开发者和研究人员优先构建安全和负责任的 AI 应用。此外，Gemma 提供 Keras 3.0、原生 PyTorch、JAX 和 Hugging Face Transformers 多个框架工具，并支持基于 Google Cloud 的优化，以及在笔记本电脑、台式机、物联网、移动设备和云端等多个跨设备中兼容，从而让Gemma实现推理和微调。

除了上述提及的层面，谷歌还在碳减排、安全和评估、负责任等方面有新的进展。其中，预训练Gemma模型的碳排放量大大减少，约为131000吨二氧化碳；同时Gemma使用过滤后的预训练数据集，以减少不安全内容的风险；以及通过监督式微调和基于人类反馈的强化学习（RLHF）进行微调。

谷歌表示，在人类偏好评估中，Gemma在遵循指令和基本安全协议方面的表现优于Mistral v0.2 7B Instruct模型。

另外，Google DeepMind采取结构化的方法来确保模型的负责任开发和部署，包括评估潜在的社会影响。

谷歌 DeepMind 产品管理总监 Tris Warkentin 表示，由于担心开放模型存在部分风险，该公司“对 Gemma 进行了更广泛的红队（专家、开发者等内部对抗性测试的外部团队）”，从而提前挖掘出了更多 AI 系统存在的缺陷和风险。

署名研究人员高达57人，其中31人来自亚洲

技术论文显示，此次参与谷歌Gemma开源模型的研发人员数量高达57位。

其中包括核心贡献者（Core Contributors）14人，参与者（Contributors）达35人，产品管理（Product Management）2人，项目管理（Program Management）1人，执行赞助人（Executive Sponsors）5人。此外，谷歌还对内部其他多个团队进行感谢。

据钛媒体AGI通过Kimi Chat提供的信息、研发者名字进行梳理和猜测，此次参与Gemma模型研发的57人中，可能有大约一半以上（31人）的开发者来自亚洲，或与华人或具有华人血统的个人有关。

例如，谷歌Gemma团队当中的Le Hou（侯乐）博士，曾是谷歌FLAN-T5技术的作者。

在加入谷歌之前，侯乐在纽约州立大学石溪分校获得了博士学位。博士在读期间，他专注于分析高分辨率图像，如卫星和医学图像。

侯乐在谷歌的研究主要集中于NLP方面，包括高效的语言模型训练、指令微调和提示工程等，核心能力是通过更好的微调和提示工程来提高最先进语言模型的推理能力。

而谷歌Gemma团队另一位华人Geng Yan，也是 AI 领域大神级人物。他毕业于浙江大学计算机科学系，随后在美国美国卡内基梅隆大学完成计算机视觉专业的硕士学位。

Geng Yan曾在商汤、亚马逊等公司任职过，主要研究 AI 机器算法技术，曾在谷歌参与研发Google Facemesh追踪面部的 AI 模型，在谷歌相机自拍、手机支付等多个场景中发挥更大作用。

事实上，据The Information报道称，目前谷歌公布的最新论文中，Gemini的研发团队超过800人。因此，参与Gemma研发人员占比可能只有Gemini团队的7.1%。

人员少，但Gemma性能毫不逊色。

然而，谷歌在技术报告中也坦言，尽管Gemma模型在性能、安全性和负责任开发方面实现了突飞猛进的进展，但谷歌承认“此发布是不可逆转的“，并且开放模型造成的危害尚未明确定义。谷歌仍需要进一步研究来创建可靠、按预期执行的稳健、安全的模型。

“因此我们将继续采取与这些模型的潜在风险相称的评估和安全缓解措施。”谷歌表示，Gemma在6个安全基准以及人类并行评估方面均优于竞争对手。

Warkentin 表示，Gemma模型目前先适配了英语这一广泛语言，但他也指出，未来谷歌团队也“希望能够与社区共同努力，满足英语任务之外的市场需求。”

目前，开发者可以在 Kaggle 中免费使用 Gemma，首次使用 Google Cloud 的用户将获得 300 美元的积分，并可申请高达 50 万美元的Google Cloud积分来使用这些模型。具体可通过ai.google.dev/gemma进行查询。

另外，谷歌方面今晨还宣布，Google One AI Premium正在将Gemini整合到谷歌Gmail、Docs、Sheets、Slides和Meet当中，提供书写、校对和生成图像等 AI 增强功能。而作为账户付费产品，前两个月免费使用，之后每月19.99美元。

小结：谷歌拼命“卷”，只想成为王者

三个月发布三款大模型系列，谷歌 AI 技术产品的更新迭代之快，让人始料未及。

OpenAI CEO奥尔特曼（Sam Altman）曾私下表示，与谷歌相比，OpenAI在算力上处于劣势。

在 AI 三要素中，谷歌在算力、算法、数据方面都具有很明显的技术领先优势。那么如今，谷歌连续发布Gemini、Gemma模型，覆盖开源和闭源方向，希望成为“AI 行业王者”的野心暴露无遗。

我们预计，接下来Gemma将成为开源社区的关注焦点。

谷歌开发者 X 副总裁兼总经理、谷歌开发者关系主管 Jeanine Banks 认为，Gemma 模型“感觉像是谷歌从TensorFlow 等工具开源 AI 开发技术的历史的延续”的最新 AI 系统，从PaLM2、AlphaFold到Gemini，最后形成了Gemma。

“我们认为，如果谷歌能够成为 API 和开放模型的唯一提供商，为社区提供最广泛的功能集，那就完美了。”Jeanine Banks表示。

接下来，我们就看“刚刚跌落神坛”的开源模型Meta Llama如何再接招了。

（本文首发钛媒体App，作者｜林志佳）