“群模乱战”下，中国本土 AI 算力芯何时赶上英伟达？

国内GPU公司天数智芯在WAIC 2023上展示的板卡产品（来源：受访者提供）

今年以来，随着ChatGPT和人工智能（AI）大模型引发热潮，大模型产品层出不穷。随之而来的是对 AI 算力的需求，也出现爆发式增长，算力供需出现巨大缺口，所有人都开始抢购美国芯片巨头英伟达的A100显卡作为大模型“入场券”。

如今，大算力底座已成为 AI 大模型发展的“标配”。

7月6日-8日举行的2023年世界人工智能大会（WAIC）昇腾分论坛上，华为轮值董事长胡厚崑表示，伴随大模型带来的生成式AI突破，AI 正在进入一个新的时代。算力是 AI 产业创新的基础，大模型的持续创新，驱动算力需求的爆炸式增长。可以说，大模型训练的效率或者是创新的速度，根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

本届WAIC上，华为推出首个昇腾万卡AI集群。截至目前，昇腾AI集群已支撑全国25个城市的人工智能计算中心建设。据悉，昇腾AI原生孵化和适配了30多个大模型，目前中国有一半左右的大模型创新，都是由昇腾AI支持。

与华为昇腾不同，国内通用GPU公司天数智芯研发的天垓100芯片已经开始跑通多个大模型，包括智谱 AI 大模型ChatGLM，国外主流的LLaMA，以及北京智源研究院的Aquila等产品；而百度昆仑芯公司在今年6月披露，其产品矩阵已适配文心一言、ChatGLM、GPT等主流行业大模型。

本届WAIC上，当被问及如果英伟达A800不能在中国售卖国产GPU能否替代，天数智芯董事长兼CEO盖鲁江对钛媒体App等表示：

“目前我们已经证明可以用了，不管他们的能不能买，或者卖不卖给中国，我们的产品现在已经在用起来了。”

基于目前国内 AI 大模型算力布局，无论是训练还是推理，AI 大模型算力主要分为三派：

一是华为鲲鹏和昇腾 AI 生态的算力方案，没有英伟达GPU参与；
二是混合型算力支持，大量采用英伟达A100芯片，部分环境增加AMD、英特尔芯片，以及天数智芯、寒武纪、海光等国产芯片及加速卡融合跑大模型训练；
三是租用性价比更高的服务器云算力，补充算力不足情况。

那么，这么多的算力供应渠道，中国本土的AI芯片到底行不行？

没有英伟达GPU，华为昇腾支持近半数大模型

“没有大算力做大模型就是天方夜谭。”中国工程院院士、鹏城实验室主任高文在WAIC 2023昇腾人工智能产业高峰论坛上表示，从现在开始，算力已经成为是数字经济发展的一个指标，算力够，你的数字经济就能发展好，不够就发展不好。

据中国信通院数据，每1元的算力投入，可以带动3-4元的国家GDP（国内生产总值）经济产出，实现经济增长的倍增效应。麦肯锡则预测，生成式 AI 最终每年可为世界经济增加7.3万亿美元的价值。

7月8日WAIC大模型生产与产业落地合作论坛上，一位中国科学院研究中心主任甚至直言，“没有算力平台，数字经济将‘不复存在’。”

而对于大模型企业来说，巨大的算力成本是首先要考虑的问题。

本届WAIC上，毕马威和联想集团联手发布的《普慧算力开启新计算时代》报告显示，以构建GPT-3为例，OpenAI数据显示，满足GPT-3算力需求至少要上万颗英伟达GPU A100，一次模型训练成本超过1200万美元，这还不包括模型推理成本和后续升级所需的训练成本。

在WAIC腾讯分论坛上，NVIDIA英伟达全球副总裁、中国云计算和互联网行业总经理何涛提到，到了大语言模型的时代，算力必须发展。如果数据足够大，算法模型也足够大，算力需求也特别大。

所以，华为提出了鲲鹏和昇腾 AI 算力方案，没有英伟达GPU，重点应用于政务、金融等领域，在智算中心实现模型训练，随后在华为云或其他混合云中实现模型推理。

本届WAIC上，华为宣布昇腾AI集群全面升级，集群规模从最初的4000卡集群扩展至16000卡，是业界首个万卡AI集群，拥有更快的训练速度和30天以上的稳定训练周期。同时，华为还与知乎/面壁智能、清华智谱AI、科大讯飞、云从科技等多家拥有大模型的公司联合发布的昇腾AI大模型训推一体化解决方案，建立“生态包围网”。

胡厚崑表示，华为在各个单点创新的基础上，充分发挥云、计算、存储、网络以及能源的综合优势，进行架构创新，推出了昇腾AI集群，相当于把AI算力中心当成一台超级计算机来设计，使得昇腾AI集群性能更高，并且可靠性更高。“据我所知，目前我们已经可以达到10%以上的大模型训练效率的提升，可以提供10倍以上的系统稳定的提高，支持长期稳定训练。”

胡厚崑在开幕式上谈到，华为推出了对等平构架构，以突破传统以CPU为中心的异构计算带来的性能瓶颈，提升了整个计算的带宽，使得节点的性能可提升30%。同时，华为部署的昇腾AI集群实现10%的效率提升。

“中国的算力很难跟上不断增长的 AI 需求，而且 AI 算力缺乏稳定性。许多公司花高价购买英伟达GPU，但训练中GPU会出现故障不得不重新训练，交货时间很长、代价大。我们希望在 AI 算力方面提供一种替代方案。”7月7日华为云CEO张平安在华为云盘古大模型3.0发布会上直言，由于华为不可以用英伟达成熟的GPU，所以华为使用的自研的鲲鹏和昇腾AI算力方案，建立智算中心训练大模型。

张平安指出，华为云在贵安、乌兰察布、安徽芜湖等地都建立了算力中心，训练效率领先于业界主流GPU的1.1倍，昇腾Al云服务整个算力达2000PFlops。

华为昇腾计算业务总裁张迪煊表示，基于昇腾AI，原生孵化和适配了30多个大模型，到目前为止，中国有一半左右的大模型创新，都是由昇腾AI来支持的。昇腾的生态也逐步发展壮大，有180万开发者在昇腾开发平台上工作；与300多所高校院所与昇腾开展合作，每年培养超过10万名专业的AI人才。

本土算力持续追赶，但GPU软件生态仍需时日

除了华为之外，以阿里云、腾讯云、字节、商汤等企业为代表的算力底层，囤积大量的英伟达A100、T40芯片组进行模型训练，部分智算中心则增加AMD、英特尔芯片，以及天数智芯、寒武纪、海光等国产芯片，为客户提供异构、混合型算力支持。

智算厂商方面，阿里云表示，其拥有国内最强的智能算力储备，阿里云的智算集群可支持最大十万卡GPU规模，承载多个万亿参数大模型同时在线训练，拥有大规模AI集群。而在AI平台层，阿里云将AI训练效率提升可达10倍，推理效率提升可达6倍。目前，阿里发起的AI模型社区魔搭已拥有180多万AI开发者、900多个优质AI模型，以及30多个10亿以上参数规模大模型。

腾讯云则大量采购了英伟达A100/H800芯片，发布新一代HCC高性能计算集群，实现业界最高的3.2T超高互联带宽，提供高性能、高带宽和低延迟的集群算力，用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群，腾讯团队在同等数据集下，将万亿参数的AI大模型“混元NLP”训练由50天缩短到4天。据悉，腾讯云服务器组还使用了AMD、燧原科技的芯片产品。

火山引擎副总裁张鑫泽透露，其拥有庞大的算力支持，亚州/美洲有数百万CPU核心、超过20PB内存、数万张GPU计算卡，训练系统单日样本吞吐最超百万亿，高峰时GPU利用率达90%。此前消息称，字节跳动目前已经购买和到货英伟达A100/H800加速卡共10万块。

据联想和毕马威的分析报告预计，阿里云目前拥有200-300万台服务器，腾讯云拥有100-200万台服务器，字节跳动和华为云拥有约100万台服务器。

与此同时，从芯片端看，目前在加速计算/大模型算力领域，英伟达在全球市场占比高达95%以上，甚至可达99%。英伟达无论产品力还是CUDA算力生态构建，都是首屈一指，也“收割”了本轮AI热潮以来最大的利润。

据登临科技联合创始人王震宇估算，2022年，英伟达在中国市场的数据中心产品销售额约400亿元，按照行业机构预估，到2026年将会达1000亿元，这是在ChatGPT爆火之前的预测。

在WAIC 2023上，盖鲁江告诉钛媒体App，天垓100是该公司2018年研发的通用 AI 训练芯片，目前这款产品目前已经成功跑通了清华智谱 AI 大模型ChatGLM，Meta研发的LLaMA模型，北京智源研究院的Aquila模型等。

“现在大模型发展的核心三要素：算法、数据及算力，算力是底座。在6月9日，我们跟北京智源研究院，在北京发布了他们的AquilaCode-7B模型，用的就是我们天垓100这款产品在跑，这也充分体现了天数智芯产品的通用性。目前我们正在帮他们跑650亿参数的模型，预计10月份可以跑完。”盖鲁江表示，预计今年年底以及明年，天数智芯都会有新的产品推出来，而且对大模型算法做了硬件级优化。

如果不采用通用架构，客户进行平台切换门槛比较高。盖鲁江表示，天数智芯在第一阶段就走了一条兼容国际主流生态的路线，公司2022年全年确认收入在2.5亿元左右。“因为我是通用架构，基于我的硬件去做软件栈的开发，再在API接口层面兼容国际主流生态，这样其实让我们的下游客户能更方便地用起来，让他们的迁移成本很低。所以说在商业化这条路上，我们已经率先迈出了一步。”

另一家腾讯投资的AI芯片公司燧原科技。已拥有邃思系列芯片、云燧训练和推理加速卡和云燧智算机的全系列算力产品线。在WAIC 2023上，燧原科技发布了全新文生图MaaS平台服务产品“燧原曜图（LumiCanvas）”，利用燧原科技的算力以及首都在线的基础设施，实现文生图模型训练和推理。

燧原科技创始人、董事长、CEO赵立东在本届WAIC AI芯片论坛上提到，目前燧原已经为大型科研机构部署了千卡规模的AI训练算力集群，并成功落地；而且与腾讯合作，在OCR文字识别，智能交互，智能会议等方面，性能达到了业界同类产品两倍以上，性价比上具有很高优势。此外，在智慧城市方面，燧原完成2022年成都高新区国产化AI视频基础设施平台项目建设。

钛媒体App在现场了解到，燧原科技公开的生态伙伴已包括腾讯、上海银行、中国移动、中国联通、新华三、卓视智通、北京智源、中科院计算所、之江实验室、清华大学、西安交通大学等30家以上的机构。

今年7月7日获得中国互联网投资基金独家投资的通用GPU研发商上海登临科技，在WAIC现场展示了第二代通用GPU Goldwasser（高凛）系列产品。钛媒体App了解到，高凛二代已针对基于Transformer和生成式AI 大模型进行专门优化，在性能有大幅提升，已于2022年流片，目前已开始规模化量产和商业客户验证。据现有客户测试结果，二代产品针对基于transformer类型的模型提供3-5倍的性能提升，大幅降低类ChatGPT及生成式AI应用的硬件成本。

最后一类是服务器云和各地算力中心，大模型公司与其合作/租用形式，补充算力训练不足的情况。而在服务器底层则依然用英伟达、鲲鹏、寒武纪、海光等产品。

例如，北京超级云计算中心官网披露，拥有超过50PFlops通用超算算力，超60万CPU核心数，超过20万算力用户；上海到2023年底，依托本市人工智能公共算力服务平台，接入并调度4个以上算力基础设施，可调度智能算力达到1000 PFLOPS（FP16）以上；到2025年，上海市数据中心算力预计将超过18000 PFLOPS（FP32）。

今年6月初，鸿博股份透露，搜狗创始人王小川成立的大模型公司百川智能（五季智能）和其签署了一个1280P的订单；二期正在推进，具体将围绕客户需求展开。据悉，鸿博股份全资子公司英博数科将在协议签署后的12个月内向五季智能提供高性能GPU算力出租服务，1期交付不超过256台服务器总计不低于1280P算力。

不过目前，国内 AI 算力、国产GPU芯片还存在制程工艺和产品规格限制、没有双精度浮点功能、没有CUDA这种完整生态、与其他芯片之间的解耦性较差、通信网络连接问题导致算力损耗高等挑战亟待解决。

多位行业内人士对钛媒体App透露，当下大部分模型训练领域仍会用英伟达产品，但信创、政务等数据私有化程度高的领域会更多采用本土算力。

“全球CUDA生态的注册开发者人数接近400万，多年来大家一直在沿用这一生态架构。因此，国内GPU企业现在面临生态迁移问题，操作系统、编程系统不一样。如果企业要换一个新的生态，就要做大量代码性的迁移及改变，这个成本及时间是非常高的。”盖鲁江透露，天数智芯在持续加大这部分投入，但这需要行业上下游企业共同研发，需要时间和过程。

“中国目前大算力芯片的发展还处于起步阶段。”清华大学电子工程系长聘教授、系主任汪玉认为，天数智芯、燧原科技、寒武纪等本土芯片算力如何做到高效统一的部署，在芯片上把这样的算法跑起来，是一个非常重要的问题。

启明创投合伙人叶冠泰表示，大模型时代，训练千亿参数、万亿参数的模型必不可少的就是算力，大模型参数规模的高速增长对GPU的能力不断提出更高的要求。大算力的GPU要支撑各种各样的模型，需要具备稳定性、扩展性、延迟控制、性价比等，展现出典型的“木桶理论”，而且大算力芯片的推广，需要整个上下游的生态支持。AI的时代已经到来，芯片公司需要和大模型公司紧密合作。

据毕马威和联想联手发布的报告数据显示，放眼全球，算力已成为各国科技战略布局重点。当前，美、中、欧、日基本稳居全球算力产业规模前四，美、中两国处在领先地位且中国算力规模增速明显领跑。各国算力投资或补贴计划均超千亿。

经初步测算，到2025年，数据中心、云计算、人工智能市场规模总计将突破2.5万亿元，算力核心产业规模将不低于4.4万亿元，关联产业规模可达24万亿元，成为与新能源汽车比肩的超万亿级高潜赛道。

华泰证券研究所科技行业首席分析师黄乐平在WAIC上表示，未来AI应用的逐步丰富将推动推理芯片等相关市场保持强劲增长，算力需求增长会率先利好算力芯片、光模块、服务器产业链等“送水人”。

“芯片半导体行业没有捷径可言。专注于产品研发和与用户的合作，踏踏实实做事，最后用产品说话。倾听客户需求是重中之重。”壁仞科技合伙人梁刚在WAIC 2023启明创投分论坛上称。据悉，今年WAIC，寒武纪、壁仞科技等部分 AI 芯片公司没有参展。（本文首发钛媒体App，作者｜林志佳）

“群模乱战”下，中国本土 AI 算力芯何时赶上英伟达？｜WAIC 2023

没有英伟达GPU，华为昇腾支持近半数大模型

本土算力持续追赶，但GPU软件生态仍需时日

敬原创，有钛度，得赞赏