反思国产大模型：如果泡沫不可避免，我们该如何面对这场革命？-钛媒体官方网站

纵观人类的科技发展史，都由泡沫中的幸存者来继续推动的。即使人类本身，也是物种大爆发这场生物泡沫的幸运儿。

图片来源@视觉中国

文 | 阿尔法工场

最近，Facebook早期投资者Roger McNamee在CNBC上批评人们对AI的狂热，是“忘掉了过去科技泡沫带来的痛”。

同样的，在国内，面对越来越多的大模型，部分头脑冷静的人士，也显示出自己的担忧。

“这么多的大模型，真正有自己技术的有几个？”

“有几家公司能持续投入下去？”

更有头部VC机构人士认为，经过他们的私下测试和摸底，几乎国内所有的大模型，都是PR项目……

众所周知，大模型的训练是一个成本极高的过程，需要大量的算力和资金支持，以OpenAI为例，GPT-3的单次训练成本就高达140万美元，对于一些更大的大模型，训练成本介于200万美元至1200万美元之间。

用知名计算机专家吴军的话来形容，ChatGPT每训练一次，相当于报废了3000辆特斯拉汽车。

这个数字告诉人们：要想打造有竞争力的大模型，不下血本是不行的。

某些体量、资金不足，却仍旧叫嚣着要“对标ChatGPT”的企业，其本身的实力，难免让人产生怀疑。

例如某个在发布大模型后，自身股价最高暴涨338%的国内公司（此处就不点名了），其账上的货币资金不过13亿元。

然而，以ChatGPT的训练成本为例，要想背后的智能算力集群，仅GPU显卡采购成本就超过了10亿元。国内目前能够支撑起类似基础设施的企业不超过3家。

也正因如此，在这场表面热闹的大模型竞赛中，注定有一大票公司，都只是打着大模型的名号，来实现自身利益的“陪跑者”罢了……

不过纵观人类的科技发展史，都由泡沫中的幸存者来继续推动的。即使人类本身，也是物种大爆发这场生物泡沫的幸运儿。如果泡沫无法避免，从业者真正需要的是面对泡沫时的冷静和定力。

数据孤岛

国产大模型能否达到或超越GPT这类先进模型的水平，有两个较为主要的因素：

一是在数据集的获取上，如何不断积累足够多、且高质量的数据集；

二是在炼制大模型的“工艺”上，如何不断探索和突破，找到新的理论和方法。

先说第一点。

目前，在大模型的训练上，用来训练的主流数据集以英文为主，中文数据只占据4.8%。

之前清华计算机系教授唐杰，在对千亿模型ChatGLM-130B训练前数据准备时，就曾面临过清洗中文数据后，可用量不到2TB的情况。

这就是国内所有做大模型的团队不得不面对的惨烈现状。

为解决这个问题，许多国内团队，都开始通过“众志成城”的方式，开源自身的中文数据集，以希望弥补高质量中文数据集的不足。

但是，这种通过各个团队“自觉”开源的方式，仍然存在着一定局限性，那就是：由于数据的敏感性、隐私性和所有权等问题，很多行业和领域的数据并不容易获得或共享。

国内数据大量储存于移动端APP中，于训练大模型而言比较难于抓取。

同时国内互联网巨头之间的数据相互封闭，数据孤岛化情况严重。例如百度的内容生态数据，腾讯的公众号数据，阿里的电商和物流数，这些属于各大企业的私有数据，虽然都在各自的行业和场景，积累了外人所不能及的优势，但由其所有权和隐私性的问题，导致很难与外界进行共享。

而这些不容易获取的数据，往往无法依赖各团队的“自愿”和“主动”进行开源。

针对这一问题，走在前列的美国AI产业，早已通过更成熟的数据共享平台、数据交易市场、数据信托等机制，促进了数据的流通和价值发现。

具体来说，在这些数据交易平台中，第三方数据拥有者可以将原始数据挂到数据交易市场上公开出售，数据需求方按照约定价格（买断数据/按小时计费、平台会员费）购买后，可以在数据交易平台上获得离线的数据包或者实时API。

若最终成功交易，平台收取一定佣金后返还销售收入给第三方数据拥有者。这类型数据交易平台代表有RapidAPI、Streamr等。

与之相比，国内大数据交易仍处于起步阶段，数据交易主要以单纯的原始数据“粗加工”交易为主，且数据供需不对称，使得数据交易难以满足社会有效需求，数据成交率和成交额不高。

此外，在数据交易过程中，国内市场也缺乏全国统一的规范体系和必要的法律保障，无法有效破解数据定价、数据确权等难题。

从长远来看，国内大模型要想在数据的数量、质量上进一步得到提升，就不能单单只靠部分团队“自愿”和“主动”的开源，而要在法律、市场机制等方面，做出更多与时俱进的改革，如此方能促进各个行业间数据的广泛共享。

“工艺”的差距

除了数据集的数量、质量外，另一个决定大模型能力强弱的关键因素，就是炼制大模型的“工艺”。

前段时间，复旦大学教授、上海市数据科学重点实验室主任肖仰华就表示，与国际同行相比，模型、数据和算力并不是中国最大的劣势，真正的短板在于对大模型"炼制"工艺的掌握，包括数据配方、数据清洗和参数设置等等。

现在有些国内大模型，动辄就对外号称“百亿”、“千亿”规模，仿佛参数量越大，模型性能就愈强。

然而，空有庞大的规模，却缺乏先进的“工艺”，这就像一个脑容量颇大，但却掌握不到学习要领的学生，难以在学习能力上进一步“精进”。

具体来说，如果将炼制大模型的过程，类比成一座工厂中的流水线。那么数据配方就像在开始生产之前选择原材料一样，需要选择不同的数据集，确定不同领域、不同类型、不同模态数据的配比；

而数据清洗就像对原材料的加工一样，对原始语料进行去噪、去重、过滤、规范化等操作，提取有用的信息；

参数设置就像生产过程中的调整和优化一样，通过选择合适的超参数，如学习率、批次大小等，以达到最佳的效果。

虽然上述的每一个具体步骤，国内其实都知道怎么做，但是将它们整合在一起，总体效果和国外是存在差距的。

这虽然不是0和1的区别，但却是50分和100分的区别。

所以，大模型的研制与开发，终归是一个易学难精的过程。而要想进一步提升这样的工艺，就必须在人工智能的基础理论、工程实践以及创新思维上不断积累，从而实现在关键环节上的突破和领先。

可问题是，这些反复试错、探索的过程，往往是一个需要消耗大量时间、资源，且并没有实际产出与盈利的过程。

即便是创造了ChatGPT的OpenAI，目前也处于严重亏损的状态（其去年的亏损已达5.4亿美元）。

这对于国内许多急功近利的企业而言，无疑是一个重大的考验。

因为国内巨头们对技术性风口的追逐和热爱，不坚定，也缺乏耐心。

举例来说，全民造芯运动中，在2017年，资本对半导体的狂热达到了一个顶端，创下至今最高历史记录，单笔平均融资达到 8亿元。

然而，一旦察觉某类技术的研发，是一场漫长且难见收益的过程，某些企业的“浮躁”与“摇摆”就会逐渐显现。

2020年，武汉弘芯半导体，号称千亿投资，台积电技术大牛执掌。但成立仅仅三年，就被曝出项目欠薪停摆。武汉弘芯将大陆唯一一台，价值5亿多元，能够生产7nm芯片的光刻机，拿去银行抵押续命。

由此可见，国内外大模型的竞争，表面上看，是数据集多寡、质量高低的竞争；稍微深入了看，是大模型工艺的比拼；而再深入到底层，就变成了不同的商业文化，乃至生态的综合竞争了。

反思国产大模型：如果泡沫不可避免，我们该如何面对这场革命？

数据孤岛

“工艺”的差距

敬原创，有钛度，得赞赏