喜马拉雅 PC端文章详情页顶部23-26

浪潮王恩东:建设新型基础设施,智算需先行

当前人工智能计算需求正呈指数级增长,未来将占据80%以上的计算需求,承载这种需求的就是AI算力中心,即智算中心。智算中心是智慧时代最主要的计算力生产中心和供应中心,它正在成为经济社会运行的重要基础设施。

钛媒体注:3月4日,中共中央政治局常务委员会召开会议,研究当前新冠肺炎疫情防控和稳定经济社会运行重点工作。会议强调,要选好投资项目,加强用地、用能、资金等政策配套,加快推进国家规划已明确的重大工程和基础设施建设。要加大公共卫生服务、应急物资保障领域投入,加快5G网络、数据中心等新型基础设施建设进度。

4月9日,2020年浪潮云数据中心合作伙伴大会在线上召开,作为服务器、人工智能的龙头企业,浪潮集团执行总裁、首席科学家王恩东以《智慧计算 源动新基建》为题进行演讲,详细阐述了建设智算中心对于进入智慧时代的重要性。

王恩东表示,当前人工智能计算需求正呈指数级增长,未来将占据80%以上的计算需求,承载这种需求的就是AI算力中心,即智算中心。

智算中心是智慧时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型来对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式向组织及个人进行供应。它正在成为经济社会运行的重要基础设施。

智算中心要成为新基建,必须满足以下三个基本要求:开放标准、集约高效和普适普惠。开放标准,要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;集约高效,要求智算中心的建设要有超大规模,要采用领先的技术,保证自身的先进性;普适普惠,则要求智算中心发挥基础设施的社会价值,服务大众。

以下为王恩东演讲实录,略经钛媒体编辑:

新一代信息技术在抗疫过程中发挥了巨大的作用,使我们的生活和工作从线下搬到了线上。从早上醒来第一眼去查看疫情数据、查看同乘同航是否有确诊,到网课辅导、在线问诊、生鲜快递。从远程打卡、线上招聘、线上会议到文档协同、工作提交。从线下到线上,加速了社会的智慧进化。

首先是加速了经济活动的线上化变革。

企业选择线上办公,各种在线办公平台用户规模指数级增长,其中钉钉平台超过1000万家企业、2亿人协同办公;腾讯会议系统上线仅两月,日活跃用户就超过千万。

学校选择线上教学,其中钉钉平台超过14万所学校、1.2亿学生在线上课;腾讯课堂有超过140万老师,每天有2000万中小学生在腾讯课堂上学习。

工信部的数据显示,20年春节期间,移动互联网流量270万TB,同比增长36%。经济活动的线上化变革,让大家在这个过程中体验到了信息科技的价值和效率。

第二个明显的变化是社会服务和社会治理更加高效智能。疫情期间,运营商推出了“通信大数据行程卡”,可以对手机用户14天内到访的地区进行证明,截至目前,累计查询量已经超过了4.5亿;中国铁路提供了确诊病例密接者查询服务。这些服务为社会防疫防控提供了有力支持。

腾讯、阿里、浪潮提供的健康码在山东、北京、广东等省市陆续上线,几乎覆盖了所有出行人口。可以预想,健康码必将成会成为未来传染病防控的必备手段。

最后是在工业生产方面,去年中国工业机器人装机量占全球的36%,用于建设数字化车间和智能工厂,成为全球最大的智能制造市场,预计20年中国智能制造市场规模将超过2200亿元,智能制造升级将进一步提速。

这里面典型的例子就是浪潮智能工厂。整个生产制造过程弹性、透明、可追溯,智能技术贯穿了生产制造的全周期,实现同样的产能,用工数量下降50%,生产效率提高3倍,订单交付周期从18天缩短至5-7天。

利用智能工厂,浪潮保证了在疫情期间快速复工复产。2月1日晚,浪潮接到用于疫情防控的紧急订单。2日一早,浪潮智能工厂复工,迅速投入生产,按客户要求,及时交付到抗疫一线。如果是传统的工厂,要在一天之内复工生产,几乎不可能,因为很难在短时间内将几百个工人招回来,何况疫情期间,全国都在管控。

看得见的是各种智慧服务,看不见的是新型的基础设施,支撑智慧化转型的正是我们一直说的以云计算、大数据、人工智能为核心的智慧计算。

疫情期间,腾讯和阿里每天都在扩充云计算资源,用于支撑视频会议、在线办公等业务。百度地图则利用其每天响应位置服务请求千亿次所产生的大数据,通过数据定向、分析等途径助力流行病学调查。而浪潮的智能工厂里面各种智能设备以及背后的路径规划、图像识别等算法,也是高效复工复产的必要条件。

智算中心是智慧时代最主要的计算力生产中心和供应中心

我们见证了智慧计算是如何在这场战疫中发挥巨大作用。3月4日,中央决定对人工智能、大数据中心等新基建提速,这也是在为智慧计算的发展提速。

我们讲过,计算力就是生产力,智慧计算改造升级了生产力三要素,最终驱动了人类社会的转型升级。智慧计算将劳动者由人变成了人加上人工智能,劳动者可以呈现指数增长,将数据变成了一种新的生产资料,从有形到无形,生生不息,越用越多,将计算力驱动的信息化设备变成了生产工具,也是指数增长,生产力得到了前所未有的解放。

伴随生产力的升级,社会基础设施也在产生变化。农业时代的基础设施比较简单,就是水利、交通等;工业时代,则是我们熟悉的铁公机、电网等;那么智慧时代必将需要新型的基础设施。

我们可以和电力基础设施做个类比。电力基础设施提供电力服务,其核心是生产电力的地方,就是发电厂,像三峡电站、大亚湾核电站;智慧时代的新型基础设施,要能够对外提供各种算力的服务、数据的服务和AI的服务等。那么其核心就是计算力的生产中心。

计算是在发展的,从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算。每种计算都有相应的计算力中心去支撑。科学计算的算力中心是超算中心。承载当前企业应用、政府应用和个人应用的算力中心是数量众多的各类数据中心。当前人工智能计算需求正呈指数级增长,未来将占据80%以上的计算需求,承载这种需求的就是AI算力中心,即智算中心。

智算中心是智慧时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型来对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式向组织及个人进行供应。它正在成为经济社会运行的重要基础设施。

智算中心要成为新基建,必须满足三个基本要求

智算中心要成为新基建,必须满足以下三个基本要求:开放标准、集约高效和普适普惠。开放标准,要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;集约高效,要求智算中心的建设要有超大规模,要采用领先的技术,保证自身的先进性;普适普惠,则要求智算中心发挥基础设施的社会价值,服务大众。

下面我们分别来看一下。

首先是开放标准。这张图简单回顾了开放开源的历史,我们看到,开放的边界越来越广阔,从最初的操作系统、数据库、中间件的开源到云和大数据、算法框架等基础软件的开源,再到以Risc-V为代表的芯片的开放,以OCP、ODCC为代表的计算硬件的开放。由软件到硬件,从芯片到数据中心,开放变革了IT产业的生产模式和应用服务模式,持续推动着信息技术的发展,促进了整个IT产业的生态繁荣。开源开放的IT,才是一个健康的IT。开源开放的软硬件,才是智算中心建设的需要。

浪潮作为三大开放计算标准组织的发起会员或白金会员、OpenStack开源社区黄金会员,正在积极将开源开放的建设理念和标准向全球推广,大力推进开放计算生态发展。所有顶级互联网数据中心已经大规模落地了开放计算服务器,通信、金融、能源等关键领域的TOP企业也纷纷加入这些开源组织并在数据中心建设中加以实践。像OpenStack、K8S、Hadoop、TensorFlow等面向云计算、大数据、人工智能等场景的开源基础软件,已经成为了智算中心软件平台的事实标准,超过80%的企业都在其数据中心中应用了开源软件技术。

开放计算带来的好处是显而易见的,以浪潮的某个大型数据中心客户为例,使用开放计算架构能够节约电力 30%,系统故障率降低 90%,投资收益提高33%;并且运维效率提升3倍以上,交付速度可达到每天1万台。

基础设施必然要以规模效应来实现降本增效,要能够快速建设。这就要求智算中心的建设就好比现在盖房子一样,采用预生产的、标准化模块化的硬件来实现“装配式”建设。从标准化的节点单元,到标准化的整机柜,到标准化的微模块数据中心,再到整个智算中心,就像乐高积木一样,层层组装,快速建设。

作为基础设施,要求不同的智算中心能够互联互通。包括管理上的互操作,统一的调度分发、监控运维;业务上的互连接,包括网络打通、业务迁移等;数据上的互流通,实现容灾、数据共享等。

基础设施的超大规模要求智算中心应该是集约高效的。首先,智算中心要整体设计,理念先进。技术上,融合架构代表着数据中心体系结构的未来发展方向。融合架构从1.0到2.0,已经实现了存储资源和异构计算资源的弹性组合。现在的融合架构,正处于3.0阶段,也就是通过连接、池化和重构的技术,实现不同计算资源的协同能力,通过软件定义实现业务自动感知和资源自动重构,使计算的性能和效率大幅度的提升。

硬件层面,通过硬件重构实现资源池化。CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合,利用全互联NVSwitch、CXL、Open CAPI等新型超高速内外部互连技术,实现异构计算芯片的融合;CPU之间可以通过池化融合的方式实现灵活组合,可以根据业务场景动态形成1路到多路多种计算单元;异构存储介质,如NVMe,SSD,HDD等则通过高速互连形成存储资源池。

在计算和存储资源池中,除了传统CPU、GPU等,还可以应用更多新型计算芯片、存储介质和互连技术,进一步提升数据中心的处理能力。

例如,谷歌专为人工智能设计的芯片TPU。与GPU相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量,是同代CPU或者GPU速度的15-30倍。同时,TPU还可以进行池化,实现了TPU之间的高速互联,也就是TPU POD,并对外提供TPU算力服务。

存储方面,非易失内存DCPMM,既可以作为高速硬盘使用,也可以作为标准的内存使用,当作为内存使用时,其单条内存容量最大可以到512GB,使得推理作业密度提升一倍,每单位作业成本下降近50%。

互连方面,异构芯片高速互连的技术CXL、open CAPI等,实现了CPU和设备、设备和设备之间的内存共享,构建高效池化的智算中心从理想照进了现实。

软件层面,则通过软件定义,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。当AI与软件定义结合后,赋予了软件定义更高级的含义。从业务上,实现了基于业务特征感知的智能资源调度,让合适的资源在合适的位置去执行合适的任务,就像我们说的让合适的人去干合适的事一样。从管理上,实现了智能化的运维,也就是智算中心的无人巡检、故障自愈等。

软件定义一个典型的趋势是软硬件协同设计,由专用芯片、FPGA处理更多的业务负载,由软件进行更智能化的管理和调度。例如,基于FPGA和NVMe组成资源池,以硬件辅助虚拟化的方式为虚拟机实例提供接近硬件性能的计算、存储、网络功能,性能损失从传统软件模拟方式的50%降低到1%左右,性价比提升25%~50%,相同条件下可以百倍加速AI作业效率。

绿色节能是永恒的话题,从传统的节点内风冷,到机柜级冷板式液冷,再到数据中心的浸没式液冷整体设计,配合余热回收、相变储能等循环节能技术,可以实现PUE接近于1的目标,打造高效清洁的绿色智算中心。

智算中心作为基础设施,要服务大众,提供算力服务、数据服务和智能服务,支撑智慧城市、智能制造、智能家居以及智能医疗等行业的智慧化转型。

但是行业用户的智慧转型,仍然存在着一个巨大的技术鸿沟,这个鸿沟里,有如何选择最合适的算法模型,有如何从软、硬件两方面对算法做性能优化,有如何对面向特定领域的智能算法进行高效敏捷的开发部署等诸多问题。要填补这些鸿沟,需要智算中心提供整合的、易用的开放服务平台。

基于智算中心先进的AI算力基础平台、AI算力调度平台、AI算法模型来打造人工智能开放服务平台,汇聚并赋能行业AI应用的开发者,加速开发各种各样的行业智慧应用,加速行业AI化、加速产业AI化。

所以智算中心,不管你看得见或者看不见,它就在那里,源源不断产生智慧时代的动力:计算力。智算中心,就是我们这个时代的动力源。

智算中心是巨大的市场需求,浪潮作为全球领先的智慧计算企业,将以开放开源为原则,在智算中心IT基础设施方面向更深、更广发展,形成硬件重构的智算中心算力系统和软件定义的智算中心操作系统。浪潮愿意与各位伙伴一起,抓住这个机会,为客户提供智算中心咨询规划、建设交付、应用开发等服务,让智算中心更快地推动社会的智慧化转型。

人工智能和开放计算是智算中心的两大发展方向

人工智能和开放计算是智算中心的两大发展方向。

浪潮将高举人工智能计算的大旗,全力发展领先的计算力。首先,生产算力,浪潮将为智算中心建设供给最领先的算力机组:浪潮拥有业内最强最全的AI计算产品阵列。浪潮AGX-5是目前全球最高性能的AI计算主机之一;AGX-2是目前单位空间内GPU计算密度最高的服务器;FP5295可支持CPU和GPU间数据同步传输。浪潮超大规模AI计算框架LMS,可实现单GPU超大算力支撑,支持70亿参数的NLP智能语言模型训练,相比主流Bert模型参数量提升20倍。

第二,聚合算力,在训练方面,浪潮优化了TensorFLow框架,在全球首次实现在512个GPU卡上90%的扩展效率,打破Imagenet训练集训练时间全球最快纪录。在推理方面,针对高并发推理集群进行架构优化,构建了高性能的NVMe存储池,深度优化了软件栈,性能提升了3.5倍以上。

第三,调度算力,浪潮AIStation 计算资源平台支持AI训练和推理,可以提供AI模型开发和部署一站式交付,是业界功能最全的AI管理平台,赋力更多创新可能。

最后,释放算力,浪潮自动机器学习平台AutoML Suite ,可自动建模、自动模型压缩、自动超参调整,降低AI应用门槛,快速落地进化AI。同时它还支持本地化和云端部署,已在智慧城市、高铁等客户成功应用。

浪潮将引领开放计算体系,打造智算中心基石,构建从模式开放到技术开放,从产品开放到服务开放的开放计算体系。模式开放,就是以客户场景为核心,与合作伙伴一起联合规划、协同设计、敏捷研发、快速交付。技术开放,无论是以液冷、循环利用为代表的冷却技术,还是以RISC-V、FPGA、CXL、智能网卡为代表的基础技术,我们将一直坚持技术领先。产品开放,我们以开放架构和开源为指导,基于先进的开放硬件架构,模块化、标准化构建MDC,并引领其发展方向。基于先进的开源软件,打造标准、高效、敏捷的智算中心基础软件平台和统一管理平台,并最终形成开放的云数智一体化服务。

浪潮多年来一直践行开放计算的理念,引领开放计算的标准,是全球唯一的三大开放组织发起成员或白金会员,牵头了服务器全部国标,是OpenStack黄金会员,社区贡献中国第一,同时还是SPEC ML 主席。我们持续定义领先的开放计算产品,拥有全球唯一符合三大开放标准组织的整机柜产品,拥有全球架构最全、配置最多、规格最高的开放计算服务器,最先开发了开放技术的OAM加速计算模块和OTII边缘计算服务器,拥有全球性能领先的存储系统,和性能、安全性领先的云海OS。

智慧社会离不开智慧的生态。目前行业信息化市场已经步入了产业AI化阶段,这将会是一个万亿级的市场。在AI产业化过程中,浪潮是新兴AI企业的主要合作伙伴和算力提供商,新兴IT企业已经积累了大量优质的算法框架、模型和数据,这些优质的AI技术正是产业AI化过程中行业用户所需要的,也是为这些用户服务的传统合作伙伴所欠缺的。为了帮助行业用户更好的进行智慧化转型,连接传统合作伙伴和新兴AI企业,浪潮提出了元脑生态计划。

元脑由浪潮联合具备AI开发核心能力的左手伙伴和具备行业整体方案交付能力的右手伙伴共同组成,聚合了AI最强算力平台、最优质的算法模型开发能力和最优质的集成、部署和服务能力,将支撑和加速各行业、各产业与人工智能的融合,让各个行业、各个产业具备可感知、自学习、可进化的能力,最终帮助用户完成业务智能转型升级,以生态之力成就行业、产业AI大脑。

通过元脑生态,浪潮加快了智算中心的建设和应用服务的落地。例如在金融行业,浪潮在国有六大行的服务器占有率超过50%,在银行,我们支撑着每日数亿笔金融交易,每日TB级账务更改,每日数千亿元金融业务IT服务。浪潮和声扬科技、赞华一起推出的 “智慧声纹识别”解决方案在某大型银行落地,该方案可实现2秒语音通话即可确认客户身份,1:1声纹确认准确率达99.7%,大幅提升了银行在客服、风控方面的工作效率。

在国家交通的大动脉的铁路运输行业,浪潮同样表现出色,我们支撑了新一代客票系统、铁路电子支付平台、短信及语言平台等系统,硬件计算能力提升30%以上,售票能力从每天1500万张提升至2000万张。浪潮联合鼎汉奇辉和中铁信息工程集团,在中国铁路落地智慧车站方案,实现了智能识别危险人员和人流拥挤情况等,识别精度达98%,在中国铁路的5个站点实现了高清货检和客运站智能管理,大大促进了铁路的智慧转型。

各位合作伙伴,新基建为我们带来了巨大的发展机遇,抓住机会就会发展壮大,丧失机会就可能被淘汰出局。智算中心作为未来的动力源,是我们赢得未来的关键, 19年的逆势增长是我们前进的基础,各位伙伴的大力支持是我们前进的动力,让我们携手共进,以更快的速度迈向服务器全球第一。

谢谢大家!

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App