中国工程院院士郑纬民:国产AI芯片核心问题是生态不够好,如果生态好60%的性能也有人用|钛媒体AGI

AGI
大模型企业模型训练成本中,算力占70%,而在模型推理成本中,95%都是算力。

​中国工程院院士,清华大学计算机科学与技术系教授 郑纬民

​中国工程院院士,清华大学计算机科学与技术系教授 郑纬民

7月7日信息化百人会(ChinaInfo100,信百会)2024年度研讨会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民发表演讲。

郑纬民表示,AI 大模型正在从单模态向多模态发展,同时应用也很多,这使得算力爆发性增长,算力一直供不应求。但同时,相比英伟达,国产 AI 芯片系统生态不够好。

整体来看,大模型算力主要分为四个层次:模型研发、模型训练、模型精调、模型推理,因此,算力存在于大模型生命周期的每一环。

郑纬民提到,算力很贵,成本居高不下,如GPT-4用了800块英伟达A100,每月模型研发成本200万美元,其中,1万块A100的算力训练开销达2亿美元,ChatGPT每天推理开销达70万美元。而在大模型企业模型训练成本中,算力占70%,而在模型推理成本中,95%都是算力。

其中,大模型训练层面,郑纬民指出,目前有三种支持系统:

第一个是基于英伟达芯片的GPU系统。硬件性能好,编程生态好,但是不卖给中国,一卡难求,价格也贵了很多倍。

第二个是基于国产AI芯片的系统。

“这些年国产芯片无论是软件硬件都有很大的进展,但是用户不太喜欢用,原因是国产卡的生态系统不太好。”

郑纬民早前在2024世界人工智能大会一场分论坛上详细阐述称,尽管国内包括上海天数智芯、沐曦MetaX等国内20多家公司在生产AI芯片,芯片做的还是很不错的,进步也很大。但问题在于,国内 AI 系统时间短,特别是软件系统方面还不够成熟。

什么是生态系统好呢?郑纬民给出的定义是,如果原来用英伟达写了一个AI CUDA软件,现在很容易移植到国产系统上,写起来的方法跟原来差不多,就叫生态好。如果移植起来,没有一年两年移不过来,那就是不好。

“现在我们的状况就是生态不太好,所以大家不喜欢用。”郑纬民认为,这需要做好系统设计和相关软件优化,具体包括十个方面:编程框架、并行加速、通信库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等。

他表示,生产AI芯片的厂家,一定要把这个十个方面做好,做好了大家就喜欢用。在郑纬民看来,在国产算力支撑大模型训练时,国产AI芯片只要达到国外芯片60%的性能,但如果把前述十个方面的软件生态新做好了,客户也会满意会用。

“大多数任务不会因为芯片性能只有60%而有明显感知,大家感觉到的不好用还是生态不行。即使你做的硬件性能是人家的120%,但如果这十个软件没做好,还是不会用。”郑纬民说。

第三种是基于超级计算机的系统。目前国内14个国家级超算中心,但机器空置率较高,用得不是非常满。

那么,用超级计算来做大模型训练行不行?郑纬民认为可以,但需要进行软硬件协同设计,并有望节省训练成本。现场以Llama-7B和百川大模型的演示显示,使用国产超级计算训练,相较英伟达集群可节省成本82%左右。

除了算力,存储也存在于大模型的生命周期的每一环,包括数据获取、数据预处理、模型训练、模型推理等。郑纬民强调,内存对 AI 推理特别重要,如果改进存储系统,性能能有好几倍的提高,这意味着可以少买很多卡。

郑纬民指出,国产芯片在设计层面不能一味追寻提升大模型训练多用的半精度(FP16)浮点计算性能,而应注重半精度和双精度(FP64)浮点计算性能的平衡,两者算力之比应为100:1,这样才能适应更广泛的AI算法。此外,大模型任务训练量大、往往需要多卡互联,芯片层的网络参数、体系结构、存储性能愈发成为关键。

他认为,国产 AI 芯片亟待解决网络平衡设计、I/O子系统平衡设计、做好内存设计等技术能力。

近年来,包括了天数智芯、沐曦、摩尔线程、百度昆仑芯等一众GPU创业公司发布新产品并投入量产,但由于软件生态等原因,采购仍未起量,生态构建亟待加强。而同时,据第一财经报道,尽管性能大幅下降,英伟达有望未来几个月内在中国交付超过100万颗“中国特供版”H20芯片,今年整体在中国销售 AI 芯片总额达到约120亿美元,而这些芯片不受美国对华 AI 芯片出口管制,每颗H20芯片价格则为1.2万-1.3万美金之间。

“如果把大模型基础设施平衡设计这些方面做好,别人用1万张卡,我们用9000张卡就可以了。如果这个事情不考虑,乱做一通,人家1万块卡,你可能得3万块卡才能达到(类似)效果。”郑纬民在演讲结尾表示。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

 

本文系作者 林志佳 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 生态系统对于芯片儿的发展至关重要。

    回复 2024.07.10 · via pc
  • 国产AI芯片儿的发展需要时间和积累

    回复 2024.07.09 · via h5
  • 国产芯片儿还不够成熟,还要进一步加强建设。

    回复 2024.07.09 · via h5
  • 要改善国产AI芯片儿的生态,需要多方努力。

    回复 2024.07.09 · via iphone

快报

更多

2026-03-07 23:07

科威特石油公司“预防性削减”原油生产和提炼

2026-03-07 22:37

新任招商局集团董事李永明已任集团党委副书记

2026-03-07 21:26

国内成品油即将迎来调整窗口期,加满一箱油预计多花19.5元

2026-03-07 20:32

3月7日新闻联播速览19条

2026-03-07 19:52

特朗普宣称考虑扩大打击范围,伊朗或遭受“非常沉重打击”

2026-03-07 19:46

商务部回应安世荷兰批量禁用安世中国员工办公软件:严重破坏企业正常生产经营

2026-03-07 18:54

习近平在出席解放军和武警部队代表团全体会议时强调 充分发挥政治建军特有优势 凝心聚力推动国防和军队现代化行稳致远

2026-03-07 18:48

周鸿祎称AI不该只用来做小视频

2026-03-07 18:46

非银机构流动性支持机制会不会推出?潘功胜回应

2026-03-07 18:21

潘功胜:央行将实施好适度宽松的货币政策,保持社会融资条件相对宽松

2026-03-07 17:14

伊朗宣布关闭股市

2026-03-07 17:13

地中海航运公司MSC:对所有从地中海和黑海运往印度次大陆、红海及东非地区的货物征收紧急燃油附加费

2026-03-07 17:04

国家发展改革委社会司:规范有序推进辅助生殖技术应用,全面落实生育休假制度

2026-03-07 17:04

国家发展改革委社会司:加强公共设施适老化改造,拓展适合老年人的多样化就业岗位

2026-03-07 17:00

林俊旸发文告别阿里千问

2026-03-07 16:49

哈尔滨市长:2025至2026年冰雪季接待游客1.5亿人次

2026-03-07 16:44

国家发展改革委社会司:“十五五”将探索延长义务教育年限

2026-03-07 16:42

国家发展改革委袁达:“十五五”我国将建成100个左右国家级零碳园区

2026-03-07 16:41

国家发改委发展战略和规划司司长陈雷:“十五五”时期基本建成世界级港口群和机场群

2026-03-07 16:38

国家发改委秘书长袁达:将培育壮大海洋生物医药等新兴产业,提高现代航运、海洋旅游等服务业发展水平

4

扫描下载App