2025 T-EDGE文章详情页顶部

AI推理升温,谁在分食算力“蛋糕”? | ToB产业观察

创新场景
AI算力,不只有英伟达。

 图片系AI生成

“为解决AI算力供给不足,除了选择英伟达,我们也可以用CPU芯片实现AI推理。”国内某云计算大厂基础设施负责人在年初一次技术分享会上表达。

该负责人所指的AI推理芯片市场需求量正逐年增长。VerifiedMarketResearch报告显示,2023年人工智能推理芯片市场规模为158亿美元,预计到2030年将达到906亿美元,在2024-2030年预测期内的复合年增长率为22.6%。

今年早些时候,英伟达财报会上也有表示,公司全年数据中心里已经有40%的收入来自推理业务。

分析其中缘由,除了边缘计算和物联网设备驱动外,更重要的是AI应用急剧扩张,相较于需要大规模算力的AI(大模型)训练场景,AI推理对算力性能要求没有AI训练严苛,主要是满足低功耗和实时处理的需求。但在部署在实际终端场景中时,会需要大量服务器进行并行网络计算,推理成本会骤然提升。

为此,硬件层面,厂商会不断升级处理器和加速器,从CPU到GPU、FPGA、TPU等,以提高在AI推理方面的性能和能效比。在软件和算法层面,厂商为大规模算力集群提供AI训练推理框架、软件框架,做软硬适配,同时在算法层面,如量化、稀疏化、蒸馏、剪枝等手段,从减少模型的计算复杂度和内存占用入手,以降低推理所需存算空间。

“不可能三角”下的AI推理

一位头部协同办公软件海外负责人在今年6月告诉钛媒体,谷歌当时将Gemini Nano模型应用于Chrome浏览器,用于端侧生成式AI实现。但问题是现在的实际效果比较堪忧,就是又要推理又要翻译同时还要计算量低,不太现实。这种在端侧AI技术上的“不可能三角”,让该负责人所在企业还在观望。

与此同时,据路透社报道,OpenAI 正在与博通(Broadcom)合作开发其首款定制 AI 推理芯片,旨在处理其大规模的AI工作负载,特别是推理任务。

这意味着,对企业客户而言,在模型推理或部署阶段,需要考虑部署灵活性、性价比以及低门槛接入方式,这些都决定了企业TCO(总体拥有成本,Total Cost of Ownership)。Melius Research的分析师Ben Reitzes在给客户的一份说明中表示:“有看法认为,英伟达未来在推理领域的市场份额将低于训练领域。”

有需求的地方就有市场,有市场的地方就有竞争。如今,AI推理市场正在被英特尔、AMD、高通等CPU厂商盯上。

以英特尔为例。10月28日,英特尔宣布扩容英特尔成都封装测试基地,其成都基地扩容主要有两方面:一是新增产能将集中在为服务器芯片提供封装测试服务,以响应中国客户市场需求;二是即将设立英特尔客户解决方案中心,推动为行业客户提供基于英特尔架构和产品的定制化方案。更早一个月,除了很早就预热的Gaudi 3 AI加速器,英特尔还升级至强6处理器,其性能是前代产品的两倍,可支持边缘、数据中心、云环境中的AI大模型推理诉求。据外媒报道,目前73%的AI服务器都使用英特尔至强系列作为服务器机头。

钛媒体注意到,仅在企业级应用市场,中国云厂商、OEM、ODM、ISV等伙伴正密集对其搭载CPU芯片的通用算力服务器进行升级。例如,阿里云基于方升架构推出最新一代磐久计算型服务器,以及第九代阿里云英特尔平台企业级计算实例产品;火山引擎对其第四代云服务器实例进行了架构和性能优化;在基于松耦合开放架构设计的服务器计算模组设计规范(OCM)下,浪潮信息元脑服务器第八代算力平台也于近日正式推出,同时支持英特尔至强6处理器及AMD EPYC 9005系列处理器。

那么从英特尔等的技术升级进程上可以理解,相比于昂贵且紧缺的GPU或者适合于小规模的RTX 4090,CPU处理器的能核能效正逐渐去适应AI工作负载和高密度可扩展的融合需求。

CPU用于AI算力背后的几点变化

“当下AI应用层出不穷,尤其在产业互联网领域,已不单纯是需要超大算力的训练场景,一个新的问题是,很多传统应用也存在一定智能化需求,比如在CRM系统中帮助客户自动识别线索、帮助销售自动填报信息。但是,这些AI需求并不见得需要配备AI加速卡去支撑。”浪潮信息服务器产品线总经理赵帅对钛媒体APP等说道。

赵帅表示:“在AI训练场景中,CPU目前主要参与数据预处理环节,包括数据清洗、格式转换、特征提取等,目前大模型训练所需的数据集仍在呈指数级增长,需要有更强大的CPU。在AI推理场景,目前主流大模型月活非常高,这意味着AI推理需要同时处理高并发任务,对整个CPU的资源调度能力是一个极其严峻的考验。CPU需要在极短的时间内对各种任务进行合理分配和调度,确保每个任务都能得到及时处理和实时响应。”

在赵帅看来,多模态模型的出现,对内存容量提出了更大要求,以便支持数据预处理和存储。例如多模态模型LLaMA3.2包含60亿图文和1500小时的语音数据,数据规模达到PB级,相比LLaMA3.1的数据量已增加百倍以上。长本文的出现,导致某些先进创企已经提出要以KVCache为中心的分离架构设计,即根据不同计算特性将预填充服务器与解码服务器分开,在大batch size及队列场景下需要更大的系统内存带宽。此外,适配各种加速卡的处理器节点也面临算力、内存容量、内存带宽、IO扩展等多方面的挑战,需要丰富的强大的CPU系统生态来实现系统资源的最佳利用。

据工信部今年9月公布数据,中国在用算力中心机架总规模超过830万标准机架,算力总规模达246EFLOPS(EFLOPS是指每秒进行百亿亿次浮点运算)。据中国信通院测算,截至2023年底,全球算力基础设施总规模达到910EFLOPS,同比增长40%;其中,美国、中国算力基础设施规模位列前两名,算力占比分别为32%、26%。

那么问题来了,当算力中心仍在如火如荼建设中时,这种在数据、内存、算力、带宽等需求的急剧变化下,算力落地挑战将在未来被逐一放大。

更重要的是满足场景需要

以服务器为例,作为算力的承载体系,正面向更智能、更开放、更绿色的算力体系不断进化。

不同于一年前市场端服务器采购的需求收紧,服务器尤其是AI服务器在大模型应用需求的拉动下,市场需求开始复苏。Gartner数据显示,2024 年第一季度,全球服务器出货量同比增长 5.9%,总出货量达 282 万台。本季度供应商收入同比增长 59.9%,AI服务器需求推动平均售价增长 51.0%。而在全球服务器市场强劲增长的态势中,浪潮信息服务器出货量全球第二,中国第一。

  2020-2030全球服务器市场规模(按产品划分)

“我们面向于多场景需求满足,每款产品都基于具体业务场景和客户真实收益而来。你会发现我们的产品布局相较于其他厂商更为广泛。这一优势很大程度上归功于我们现行的解耦设计与开发模式。”赵帅对钛媒体表示。

他指出,从客户角度,往往面临各种特定的方案需求场景。通过将部件设计成通用的构建模块(CBB),这些模块经过一次测试和验证后,便能在多个平台上高效应用,从而支撑起浪潮信息广泛的产品布局,这也使得产品在更细分的场景中能够发挥更高价值。

浪潮信息服务器产品线规划经理罗剑告诉钛媒体,“第八代算力平台最核心的技术攻关,一是提升了软件方面的智能化水平,比如故障告警的智能化处理水平,通过大模型对过去历史故障数据进行建模,对关键部件如内存、硬盘等可能产生的故障进行智能预判,从而减少客户计划停机外的业务影响;二是计算模组的解耦,还有内存带宽的提升,破除存储墙、内存墙。尤其是支持更高计算性能的处理器,会有大量数据吞吐需求,针对大内存带宽需求,元脑服务器可配备最高12T内存,同时也可支持内存容量和带宽同步扩展的CXL方案,其目的也是释放计算性能的最大潜力,避免客户在内存资源上的闲置。”

钛媒体注意到,目前基于OCM、OAM、CXL、整机柜标准的开放产品,浪潮信息实现了在计算、存储、I/O扩展、整机柜部署和智算的五种场景化优化机型。除了在硬件层面,浪潮信息此前基于龙蜥社区开发的下游商业版服务器操作系统KOS进行了升级,实现软硬协同优化。

此外,过去一个月内,不只是浪潮信息,中兴通讯、联想、新华三等服务器厂商相继公布多款算力新品,同样覆盖了通用算力、人工智能、液冷、存储型等多个用途场景。一位服务器售前专家与钛媒体交流时指出,他们围绕下游客户诉求而采取的是earlyship策略,“在还没有交付时,实现大批量提前供应,其优势在于能保证建设时客户拿到的是真正先进的芯片。”

算力多元化时代,用户根据场景来选择不同的算力单元,满足不同的计算需求,服务器厂商为满足客户诉求也不再局限于提供单一算力产品。(本文首发于钛媒体APP,作者 | 杨丽,编辑 | 盖虹达)

本文系作者 TechHorizon 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 有需求的地方就有市场,有市场的地方就有竞争

    回复 2024.10.31 · via h5
  • 多模态模型的出现,对内存容量提出了更大要求

    回复 2024.11.01 · via pc
  • AI算力,不只有英伟达

    回复 2024.10.31 · via iphone

2025 T-EDGE文章详情页右侧

快报

更多

2025-12-05 23:02

美国9月核心PCE价格指数环比上涨0.2%,符合预期

2025-12-05 22:58

美国天然气期货大涨近6%,报5.36美元/百万英热

2025-12-05 22:55

纽约期银日内涨3%,现报59.22美元/盎司

2025-12-05 22:53

圣桐特医(青岛)营养健康科技股份公司递表港交所

2025-12-05 22:52

现货黄金现报4241.4美元/盎司,日内涨0.78%

2025-12-05 22:48

黄金ETF持仓量在11月连续六个月增长,有望创下历来最大年度增幅

2025-12-05 22:42

美国天然气期货涨超3.00%,现报4.237美元/百万英热

2025-12-05 22:42

美、布两油短线走高0.4美元,现分别报59.76美元/桶和64.08美元/桶

2025-12-05 22:39

何立峰与美国财政部长贝森特、贸易代表格里尔举行视频通话

2025-12-05 22:36

纳斯达克中国金龙指数涨1.21%,百度涨超4%

2025-12-05 22:34

美股开盘:三大指数小幅高开,奈飞跌超4%

2025-12-05 22:22

焦煤、焦炭期货夜盘分别跌超5%、4%

2025-12-05 22:20

宁德时代:董事辞职并提名新非独立董事候选人

2025-12-05 22:18

新希望:11月销售生猪156.75万头,同比增长24.44%

2025-12-05 22:17

国产GPU赛道爆发,多家国产GPU企业处于上市进程中

2025-12-05 22:14

欧盟决定对美国社交媒体X罚款1.2亿欧元

2025-12-05 22:10

万科又一笔债券拟展期,涉及金额37亿元

2025-12-05 22:06

亚马逊向意大利支付1.8亿欧元以结束税务和劳工调查

2025-12-05 22:02

Cloudflare美股盘前一度跌超5%

2025-12-05 22:00

佳华科技:拟购买数盾信息控股权,股票复牌

3

扫描下载App