一天现六个国产ChatGPT大模型，“百模大战”全面开打

（图片来源：Shutterstock）

国内人工智能（AI）大模型行业到底有多火？你看看下面消息就知道了。

仅4月18日一天，就有6个关于大模型的重要消息公布：

钉钉宣布正式接入阿里巴巴“通义千问”大模型；
字节跳动旗下火山引擎发布自研DPU（数据处理单元）芯片，以及发布大模型训练云平台等；
金山办公宣布将推出 WPS AI，类似于基于ChatGPT技术的微软Copilot产品，金山办公CEO章庆元透露这一技术由国内企业MiniMax提供；
APUS在北京推出1000亿个参数、自研多模态的天燕大模型AiLMe，以及基于其技术的 7 款 AI 消费端应用App；
在上海车展媒体日上，斑马智行宣布接入“通义千问”大模型，智己汽车成为首个上车品牌；
百度“文心一言”大模型全面应用内部智能工作平台“如流”。

另外在18日举行的2023全球元宇宙大会上，GPT产业联盟正式成立。据悉，该联盟由中国移动通信联合会、中国电信、中国移动、中国联通、中国广电等单位共同发起。

在ChatGPT风靡之下，国内互联网科技大厂纷纷下场。阿里、华为、腾讯、知乎、商汤、百度、京东、360、昆仑万维等企业加入到 AI 大模型竞争中，一把手带队，中国 AI 行业的“百模大战”全面打响。

与此同时，海外GPT热潮仍在持续。马斯克确认自建 AI 聊天机器人项目 TruthGPT，将与OpenAI展开竞争；拥有ChatGPT技术能力的微软，被传出正在研发助力大模型的 AI 芯片，内部代号“雅典娜”（Athena）。

行业普遍认为，如今大家扎堆创业做大模型是一件好事。

APUS创始人、CEO李涛对钛媒体App表示，互联网沉寂很久，无论加密数字货币还是Web3，都不是一个颠覆性、革命性的东西。IT 产业的创新在过去两三年几乎没有任何东西，如今扎堆创业做大模型，一方面是疫后经济能量的释放，同时也是整个IT产业的技术创新机会，重燃了所有人心中的火焰。

国产GPT模型“大跃进”，避免不了“翻车”

毫无疑问，ChatGPT已经在全球爆火。自去年11月发布至今，ChatGPT访问量已飙升至8.89亿次，也是历史上最快达到1亿月活的应用，而且整个热潮已蔓延至科技大厂、学术界、产业界当中。

最近国内也刮起了ChatGPT风潮。阿里通义千问、百度文心一言、商汤日日新SenseNova体系、华为云盘古、知乎“知海图 AI”、360GPT、昆仑万维“天工”和京东言犀等大模型产品陆续公布。小米CEO雷军4月14日发微博表示，小米全力以赴、坚决拥抱大模型和生成式人工智能（AIGC），并将推出相关技术和产品。

“这两个月GPT大模型风靡全球，远超过去十年中国 AI 技术与产业的发展热度，也使得过去二十年互联网科技发展被取代。”一位行业人士告诉钛媒体App，这是继2021年“AI 四小龙”（商汤、旷视、云从、依图）集体被美国制裁之后，国内 AI 行业的新一轮热潮。

正如开头所讲，过去一天内，就6个关于大模型的重要消息。

首先是18日上午的北京钉峰会上，钉钉宣布正式接入阿里巴巴“通义千问”大模型，输入斜杠“/”即可唤起智能服务，因此钉钉产品将全面启动智能化战略，升级成为智能协同办公平台、智能应用开发平台。此外，钉钉斜杠还能根据需求撰写文案、设计海报等。

不过在现场演示当中，钉钉似乎出现了“翻车”。在文生图演示中，钉钉出现和文心一言类似问题，即输入“赴汤蹈火”表情，却出现了一锅汤上面有一只着火的类似汤圆造型的动漫人物，随后引发广泛热议。

左面两个是钉钉现场演示的“赴汤蹈火”表情包，右侧是钛媒体App在文心一言中输出的“赴汤蹈火”图片

一位参加钉钉发布会的行业人士告诉钛媒体App，当时钉钉总裁叶军并不满意输出的“赴汤蹈火”表情图片，反复更新了三次。

现场视频显示，叶军表示，输出生成的表情包功能同样由阿里巴巴“通义千问”大模型所支撑，此前效果更差，而如今效果好了一点点，“目前通义大模型还在训练中，文生图效果仍有进步空间。”

随着国产GPT模型“大跃进”，演示“翻车”情况似乎避免不了。此前钛媒体App内测时发现，当输入“画一幅‘驴肉火烧”时，AI 会画出一只驴和火；输入“画一幅鱼香肉丝”时，就会出现一只丝装的红色活鱼。百度对此声明称，文心一言完全是百度自研的大语言模型，训练过程中使用了互联网公开数据。

一位大厂的技术负责人王洋（化名）4月18日对钛媒体App表示，上述“翻车”问题意味着产品周期较短，因为 AI 推理应用过程中往往需要更多的数据，但全球互联网产业来看，英文高质量的预料多一些，“我认为（文心一言）确实推出比较匆忙，但我觉得这不是本质性问题，可能需要积累很长时间的中文语料数据集。”

除钉钉之外，4月18日上午，字节跳动旗下火山引擎发布大模型训练云平台，包括自研DPU、机器学习平台等系列云和 AI 基础设施产品，支持万卡级大模型训练、微秒级延迟网络。与大模型不同的是，火山引擎主要为多家大模型公司提供算力等技术服务。据财新，字节跳动两个团队并行做大模型，一个做语言，另一个做音视频。

去年3月，字节跳动曾推出开源大模型训练框架veGiantModel ，性能最高提升6.9倍。

钛媒体App了解到，由于高端GPU存在出口限制，字节跳动此前囤积了大量英伟达A100、V100 GPU（图形处理器）显卡芯片，拥有目前国内性能最高的 AI 算力能力之一，这意味着字节或能直接解决当下 AI 训练与推理所需的算力挑战，而可预见的算力需求激增已经让火山引擎推算力云方案。

而在18日下午2点，美团融新科技中心办公室楼上，一家刚刚战略转型 AI 技术的麒麟合盛网络技术股份有限公司（APUS），正式推出1000亿个参数、自研多模态的天燕大模型AiLMe，以及基于该模型的智能问答大师、简笔成画等 7 款 AI 消费端产品。公司创始人、CEO李涛向钛媒体App透露，为了做好大模型，APUS前期累计花掉接近1000万美金。（详见钛媒体App前文：《APUS发布1000亿天燕大模型AiLMe，CEO称日活用户已超百万》）

此外，4月18日，金山办公正式发布具备大语言模型能力的生成式人工智能应用“WPS AI”，搭载在其新一代在线内容协作编辑工具“轻文档”（airPage）上，据金山办公CEO章庆元透露，WPS AI所用大模型非OpenAI，由国内合作伙伴MiniMax提供；同时在上海车展期间，阿里集团旗下的斑马智行宣布接入“通义千问”大模型，智己汽车成为首个上车品牌；百度则宣布“文心一言”大模型全面应用内部沟通产品“如流”当中。

如今，为了争夺“中国版OpenAI”席位，科技巨头、商业大咖纷纷下场加入ChatGPT竞争当中，“重复造轮子”情况已然发生，“你有我也要有”、“人人都做大模型”时代正在到来。

李涛对钛媒体App表示，今天，整个中国的 AI 相当于全球来说是比较落后，无论是比OpenAI，还是比谷歌，还是比Meta，中国 AI 落后的绝对不是两个月、三个月的问题，起码落后两年以上。但我们要相信，未来很长时间里面，AI 迭代，算法快速改进和优化可能会帮助中国快速大踏步追赶，甚至有机会跟世界拉平。“我不愿意用弯道超车，事实上没有弯道超车的可能性，所有的机会都是要付出足够大的成本，付出时间、精力、物力才能做到。”

对于是否存在大模型“重复造轮子”，王洋对钛媒体App表示，从商业角度来说，重复做大模型的情况很正常。科技大厂一定会在大模型领域展开竞争、合作，需要市场的商业化。这是一个非常严酷的市场检验过程，否则企业就永远是“温室里的花朵”。

搜狗创始人、百川智能创始人王小川告诉钛媒体App，他认为最终科技大厂会一人推出一个模型，本轮参与的创业公司里面可能最终只有不到5个大模型会拿到“通行船票”。

ChatGPT算力不足，传微软正自研AI芯片“Athena”

与国内“百模大战”一样，国外ChatGPT热潮似乎也未结束。

继特斯拉CEO马斯克（Elon Musk）宣布做ChatGPT竞品TruthGPT之后，据The Information 4月18日报道，创造ChatGPT的美国OpenAI公司，其背后的大股东微软正在开发自研的AI芯片，内部代号「雅典娜」（Athena），300人共同研发。

据两名知情人士透露，微软正在开发代号为“Athena”的AI芯片，以便应用于ChatGPT背后的生成式AI技术，包括训练大型语言模型（LLM）和AI推理（inference）。据悉，首款Athena芯片将采用台积电5nm工艺。

消息称，微软早在2019年就已开始著手研发这款芯片，由微软和OpenAI员工共同进行测试，微软目前使用的AI芯片是对外采购，而非自家产品。微软希望Athena AI芯片的性能能够超越供应商的芯片，以进一步降低开发AI所需耗费的资金成本和时间。目前，微软等厂商已经在其60多个数据中心部署了数十万张GPU芯片，用于 AI 模型的日常推理。

事实上，随着生成式 AI 大爆发，包括亚马逊和谷歌等科技巨头都已推出自研AI芯片。去年11月，亚马逊宣布推出高性能服务器芯片Graviton 3E，挑战英特尔和英伟达。

不过，一方面是算力需求增长较快，包括亚马逊、微软、Google 和甲骨文等主要云计算供应商都在限制客户对云服务器的使用，租用硬件的等待时间长达数月，核心问题仍是GPU（图形处理器）等算力芯片供不应求；另一方面，目前在机器学习、加速计算等领域，英伟达（NVIDIA）GPU领域市占率高达95%以上，至今没有对手可以匹敌。

早前美国媒体报道称，马斯克囤积购买了约1万个GPU芯片，用来处理 AI 大模型项目TruthGPT，而且将推特的两个数据中心用起来，使用推特的内容作为数据，来训练其语言模型，也可以利用特斯拉的计算资源。

根据英伟达官方信息，训练一次1750亿参数的GPT-3需要34天、使用1024张A100 GPU芯片，同时，OpenAI可能至少需要3.24万张A100用于日常推理，显著高于此前训练底层模型时的用量，以此推算，ChatGPT硬件成本达8亿美元以上。

研究公司SemiAnalysis首席分析师迪伦·帕特尔 (Dylan Patel）表示，经计算，ChatGPT运营成本每天约为70万美元，大部分成本是基于所需的昂贵服务器。“与英伟达的产品相比，微软Athena如果具有竞争力，可以将每个芯片的成本降低三分之一。因为基于GPT技术的微软产品，未来如果使用现成的硬件大规模部署，每年将花费数百亿美元。”

Forrester Research分析师Tracy Woo 表示，AI 技术的繁荣给云厂商带来了很大压力，要求他们开发自己的芯片。“你可以从英伟达购买，但谷歌、亚马逊这样的巨头，他们有足够的资金来构建和设计自己的芯片。”

另据报道，网络芯片巨头博通（Broadcom）4月18日发布最新ericho3-AI芯片，用于将超级计算、AI 大模型等领域，可将多达3.2万个GPU芯片连接在一起，将与英伟达等公司竞争。

随着GPT-4发布，市场普遍认为需百倍的芯片及其算力支持，英伟达（NASDAQ: NVDA）股价也随即飙升，年初至今已大涨86%以上。（本文首发钛媒体App，作者｜林志佳）

一天现六个国产ChatGPT大模型，“百模大战”全面开打｜钛媒体焦点

国产GPT模型“大跃进”，避免不了“翻车”

ChatGPT算力不足，传微软正自研AI芯片“Athena”

敬原创，有钛度，得赞赏