2025T-EDGE 全球对话丨主题日:AI驱动资本的价值跃迁

大模型算力荒?浪潮信息也来“掘金卖铲”

AGI
实现AIGC的能力,除了算力资源的限制外,仍存在诸多技术难点

 图片来源@视觉中国

刚刚过去的一周,浪潮信息发布新品OGAI(Open GenAI Infra)元脑生智,意在为大模型业务提供AI算力系统环境部署、算力调度及开发管理能力的软件栈。

浪潮信息作为一家以服务器为主营业务的企业,受到来自生成式AI带来的算力牵引潜力,下游客户需求旺盛,但另一方面,在英伟达、英特尔等供应商出口限制的影响下,人工智能芯片普遍短缺,做软件,也是增强市场竞争力的多一种选择。

浪潮信息高级副总裁刘军告诉钛媒体,当前阶段仍处于大模型开发阶段,除了缺算力外,基础模型能力还没有足够高的提升,最终呈现出来的效果也不见得会真正能投入使用。

刘军认为,算力供给解决到一定程度,基础大模型的开发能力提升到一定程度,就具备了商业化能力,进而在各类场景、应用的落地通道也就打开了。而在中国,现阶段能真正达到GPT-4的模型的还没有,这就意味着将应用创新能力都寄托在OpenAI上也是明显不可能,也是不现实的。

大模型也需要生产力工具

据公开信息,2021年9月,浪潮信息就已经在研发大模型,面向大模型场景解决方案,支持AI芯片、服务器,以构建低时延的分布式系统。

浪潮信息发布参数量为2457亿的中文大语言模型“源1.0”。在“源”大模型的研发过程中,浪潮信息的AI团队逐步建立了完整的从公开数据爬取到数据清洗、格式转化、数据质量评估的完整流程和工具链,并完成了5TB高质量中文数据集的清洗工作。“源”大模型的数据集和清洗经验和帮助国内不少AI团队提升了其大模型的性能表现。

在这个过程中,浪潮信息遇到了很多大模型研发应用中的问题,例如公共算力调度问题、数据清洗问题、大模型分布式训练性能不佳等等。为此,浪潮信息团队从三个层面进行优化:一是系统全栈性,对于涉及多团队、多环节、多流程的业务,需要系统性架构和全栈解决方案;二是兼容适配性,由于模型训练需要大量的开源工具、组件,但存在兼容和性能方面的问题;三是性能优化的挑战,一个大的集群系统涉及的组件数以千计,怎样优化性能是问题。

举个例子,针对于提升大模型分布式训练的计算效率,特别是在实际的AI集群环境中,可能存在GPU之间的互联带宽受限,或者AI服务器之间的网络互联带宽有限的情况,浪潮信息自2022年以来为客户将大模型训练的GPU峰值效率从30%左右提升到50%,提升GPU利用率。

而在“源”大模型研发过程中,针对千卡规模算力的高效调度问题,浪潮信息通过对云原生的调度系统进行了改造来大幅加速其启动速度,并重点解决了RDMA网络在容器中的接入和适配优化,从而采取构建满足大模型需求的算力调度系统;针对训练任务的长期稳定运行问题,浪潮信息还引入了多种对集群性能的监控手段和性能数据分析方法。

客户最关心什么

实现AIGC的能力,除了算力资源的限制外,仍存在诸多技术难点,包括在模型的训练、效果测评、落地场景应用方面兼具挑战性,对普通开发者和中小企业来说更是可望不可及。

整体来看,OGAI(Open GenAI Infra)元脑生智软件栈由5层架构组成,从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。

L0层智算中心OS的定位是面向智算中心等公共算力服务平台,面向多租户场景,提供灵活多样的以裸金属为主的AI算力服务。

L1层PODsys聚焦于AI集群部署场景,提供了包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度一整套工具链,旨在打造一个易用、高效、开放、兼容的智算集群系统环境部署方案。

L2层AIStation聚焦于AI开发场景,通过云原生技术对集群系统中的计算资源、存储资源和网络资源进行统一的接入和纳管,提供了易于使用的开发环境和作业管理界面,并基于内置算力调度系统和训练稳定保障系统来实现易于接入、按需分配、弹性扩展和高效稳定的AI研发应用支撑平台。

L3层YLink聚焦于大模型的开发过程,通过集成整合浪潮信息在大模型研发过程中的工具和开源工具,为用户提供高效、便捷与标准化的大模型开发与优化流程。

L4层MModel定位于多模型管理与服务平台,帮助客户更好地管理和评估模型,加速模型的部署和应用。

浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU还告诉钛媒体,“现在企业面临的最大挑战是,需要用大规模硬件的基础设施才能够训练一个类似于ChatGPT同等能力的模型,这个复杂性是固有的。”

他解释,OGAI技术栈是从L0到L4层是分层解耦设计和实现的,也就是说并不用把整个OGAI技术栈提供给用户,才能够实现大模型开发,而是对应需要实现的层级功能进行选择。如果用户只需要提供算力多租户的裸金属方案,可能只需要L0层智算中心OS,不用关心最终用户会怎样进行大模型开发;如果用户需要模型开发相关工具链,可以按需选择L3层YLink提供的各类工具进行研发生产。

关于发布OGAI的初衷,Owen ZHU指出,“浪潮信息做这件事情,是先行者,这是由视角决定。浪潮信息服务了全球客户,包括国内也是最主要的AI应用客户群体,能够第一时间感知到大模型市场在缺什么,遇到了哪些问题。”

从用户的角度来看,更强的算力基础设施也会倒逼需求侧进一步升级。“做模型的不懂算力,做算力的不懂模型”,这种情况长期存在,但很多算法的创新与硬件的发展是相辅相成,两者又需要共同发展。

浪潮信息的这一做法是否切实可行,仍需市场来验证。

(本文首发钛媒体APP,作者 | 杨丽) 

本文系作者 TechHorizon 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 浪潮信息的AI团队在整个流程中表现出了专业性和高效性,这也是浪潮信息在大模型领域的优势之一。

    回复 2023.09.06 · via h5
  • 浪潮还是很不错的

    回复 2023.09.05 · via pc
  • 浪潮信息的新品OGAI旨在解决大模型算力荒的问题,远见可见一斑

    回复 2023.09.05 · via iphone
  • 实现AIGC的能力确实存在许多技术难点

    回复 2023.09.04 · via iphone

快报

更多

18:20

天玛智控:拟共同投资35.45亿元建设“煤矿重大智能成套装备研发中心项目”

18:19

聚和材料:股东陈耀民拟询价转让677.69万股股份,占总股本2.80%

18:19

Granite Asia旗下私募基金筹得超3.5亿美元,获淡马锡、印尼投资局等支持

18:18

山姆就麻薯盒现活老鼠致歉

18:15

生益科技:广新集团11月26日至12月9日期间减持0.53%公司股份

18:13

澳大利亚政府将追加拨款7000万澳元,支持沃尔沃在澳生产电动卡车

18:12

宝马集团CEO齐普策官宣明年退休,生产主管接任董事会主席

18:10

Brookfield与卡塔尔投资局合作成立200亿美元人工智能投资基金

18:07

Uber计划未来五年内在日本投资20亿美元

18:06

海南颁发首张数据知识产权登记证书

18:05

小米今日以2.971亿港元回购720万股B类股份

18:03

天地科技:拟35.45亿元投资建设煤矿重大智能成套装备研发中心项目

18:02

水利部:强化大坝内检测和外监测技术装备研发应用

18:01

上海未来产业基金拟参与投资5只子基金

17:59

英派斯:控股股东拟6000万元至1.2亿元增持公司股份

17:59

德科立:公司OCS(光线路交换)产品尚处于样品交付与客户验证阶段,因此未纳入近期营收规划

17:59

欧洲工业企业的免费碳许可或已创收数十亿欧元

17:56

俄“联盟”飞船携3名宇航员顺利返回地球

17:56

华工科技:1.6T光模块已有小批量订单出货

17:55

全球缺电推动核能概念股爆发,基金经理看好涨势延至明年

4

扫描下载App