Meta版ChatGPT开源代码遭泄漏,开发者称新 AI 大模型推理速度优于GPT|钛媒体焦点

AGI
LLaMA不会像ChatGPT一样形成消费级(C端)产品,而是更强调行业应用。

(图片来源:钛媒体App编辑拍摄)

Meta公司参展2022年上海进博会(图片来源:钛媒体App编辑拍摄)

继微软、谷歌之后,脸书(Facebook)母公司Meta Platforms(Nasdaq:META)也加入了人工智能(AI)军备竞赛。

全力押注元宇宙的Meta公司于2月下旬发布了新的开源 AI 语言生成大模型(LLM),名为LLaMA(Large Language Model Meta AI),在帮助研究人员更好推进 AI 相关应用工作。

Meta宣称,尽管LLaMA参数规模仅为竞争对手ChatGPT的“十分之一”,但性能却优于OpenAI的GPT-3模型。目前Meta提供70亿、130亿、330亿和650亿四种参数规模的LLaMA模型。

3月5日,一位名为@Enryu 的开发者在Medium平台发文,比较了LLaMA和ChatGPT在多个开发挑战任务中的效果。结果显示,LLaMA训练过程算法大部分比ChatGPT训练更快、更便宜。他认为,与ChatGPT相比,LLaMA架构更小,但训练过程和单GPU(图形处理器)芯片推理速度更快,成本更低,而且该库还支持所有LLaMA模型架构,用户可对模型进行微调等。

与此同时,3月6日,国外匿名论坛4chan 泄露了 LLaMA 成品库,并且种子文件被合并到了Meta Research的 GitHub 上,同时一些项目维护者给予了批准,目前该项目在GitHub上已收获7000多个星。

Meta首席执行官马克·扎克伯格(Mark Zuckerberg)表示,LLaMA模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。

这意味着,LLaMA不会像ChatGPT一样形成消费级(C端)产品,而是更强调行业应用。

据悉,大模型(LLM)又称为预训练模型、基础模型等,是“大算力+强算法”结合的产物,通过大规模无标注数据上进行训练,然后基于大模型进行应用开发与微调,就可以完成多个应用场景的任务。OpenAI推出的ChatGPT,是通过其AI大模型、1750亿参数GPT-3的基础上通过指令微调后得到的,即13亿参数的InstructGPT。基于深度学习框架Transformer以及GPT技术,ChatGPT不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力等。

因此,根据Meta的说法,训练LLaMA等较小的基础模型是理想的,用极低的计算能力和资源来测试、验证和探索新的用例,更好适应各种任务定制。比如谷歌推出的Bard,使用的是轻量级LaMDA模型,相比标准版本,轻量化版本模型所需要的运算能力较小,能面向更多使用者开放,使其参与体验。

Meta AI 团队隶属于前身Facebook人工智能研究中心 (FAIR),于2013年9月成立,旨在开发各种形式的人工智能,改进增强现实和 AI 技术。FAIR由纽约大学深度学习教授、图灵奖获得者杨立昆(Yann LeCun)领导,核心研究包括学习模型支持的记忆网络、自我监督学习和生成对抗网络、文本分类与翻译等方面。2017年,FAIR发布开源机器学习框架PyTorch,随后被用于多种深度学习技术,例如Tesla的自动驾驶技术等。2022年,该团队在两周内利用 AI 预测了6亿种潜在蛋白质形状。

Meta AI 在其研究论文中指出,在一些基准测试中,LLaMA 130亿参数规模的模型性能优于OpenAI推出的GPT-3,且能跑在单个GPU上;650亿参数的LLaMA模型能够和DeepMind 700亿参数的Chinchilla模型、谷歌5400亿参数的PaLM模型竞争。一旦经过更广泛的训练,LLaMA-13B 可能会成为希望在这些系统上运行测试的小型企业的福音,还可以在单​​个数据中心级 Nvidia Tesla V100 GPU 上运行。但是,它要让它脱离开发者独立工作,还有很长一段路要走。

与其他大型语言模型一样,LLaMA的工作原理是将一系列单词作为输入,并预测下一个单词以递归生成文本。不过有趣的是,LLaMA是继Glactica和Blender Bot 3之后,Meta发布的第三个大规模语言模型,前两个大模型在实际应用效果不尽如人意后立即被关闭。

Meta首席AI科学家杨立昆称,团队将致力于这种开源模型的研究,新模型会开源给整个 AI 研究社区使用,并授予大学、非政府组织和行业实验室访问权限。另外,Meta表示其还有更多研究需要做,以解决大型语言模型中的偏见、有害评论等风险。

实际上,这场 AI 军备竞赛仍在持续。

  • 3月2日凌晨,OpenAI发布了Beta版本的ChatGPT API,并以收费形式提供给用户使用。据介绍,本次开放的API背后模型被命名为GPT-3.5 turbo,使用了与ChatGPT相同的模型。截至目前已经有五家公司宣布接入了ChatGPT API;
  • OpenAI 投资人、重返世界首富的特斯拉CEO马斯克(Elon Musk)也开始表达对 AI 的兴趣。3月3日消息指,马斯克正在接洽研究人员,希望组建一个新的研究实验室,开发能够研发ChatGPT替代产品。

近期Meta披露的2022年第四季度财报显示,该公司已连续三个季度出现营收同比下滑,四季度营收312.54亿美元,同比下降4%。其中,广告为Meta的支柱业务,为第四季度的总营收贡献超97%,报告期内,尽管广告展现量增长了23%,但单位广告价格下滑了22%。

截至美东时间3月3日收盘,Meta股价涨6.14%,报收185.25美元/股。相比2022年股价大跌6成,今年初至今,Meta股价出现回调,大涨近49%。(本文首发钛媒体App,作者|林志佳)

本文系作者 林志佳 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

17:21

上期所对部分客户采取限制开仓监管措施

17:21

四川盆地发现超深页岩气田,探明地质储量2356.87亿立方米

17:15

财政部拟发行2026年记账式贴现(二十九期)国债,招标面值总额300亿元

17:09

5大领域18个场景,北京出台场景培育开放应用新方案

17:02

市场监管总局:推动价格法等多部法律法规修订

17:02

市场监管总局:严查算法违规乱象,规范市场竞争秩序

17:01

泰格医药:拟5亿元至10亿元回购股份

16:55

香港立法会通过税务宽免条例草案,特区政府表示欢迎

16:52

香港证监会:取得针对群星纸业前财务总监兼公司秘书潘子恒的取消资格令

16:49

乘联分会:5月1—10日中国乘用车市场新能源零售22.6万辆,环比增长27%

16:46

恒瑞医药:子公司三款药物获临床试验批准通知书

16:38

腾讯控股:一季度资本开支付款370亿元,主要用于支持AI相关投入

16:37

韩国总统李在明会见何立峰

16:34

腾讯控股第一季度营收1964.6亿元,预估1993.9亿元

16:34

在岸人民币兑美元收盘报6.7905,较上一交易日上涨41点

16:29

通光线缆:股票异常波动期间,控股股东通光集团累计减持252.72万股公司股票

16:24

先进数通:与大族激光诉讼案撤诉,已收回3.52亿元款项

16:23

工业和信息化部召开2026年审计工作会议

16:22

博腾股份:斯洛文尼亚研发生产基地项目存重大争议,预计对2026年度财务状况及经营业绩构成重大不利影响

16:18

汉王科技发布录写本M6

扫描下载App