突破网络桎梏:云计算与人工智能,需要什么样的数据中心网络?

张帅_

张帅_

· 4月28日

云计算未能完全驱动网络层面的变革,人工智能接过接力棒,为网络技术的演进再添一把“火"。

播放 暂停

突破网络桎梏:云计算与人工智能,需要什么样的数据中心网络?

00:00 09:42

网络已经成为现代IT体系架构的短板?以云计算和人工智能的视角看待,的确如此。

计算、存储和网络是云计算最基础的三大件,存储介质从机械硬盘(HDD)演进到闪存盘(SSD),读写速度提升了不止100倍;GPU以及专用AI芯片的繁荣,使得智能计算能力也提升了100倍以上;而网络通信的带宽和时延却没有实现等比例的提升。

云计算未能完全驱动网络层面的变革,人工智能接过接力棒,为网络技术的演进再添一把“火"。

数据中心网络之变

IT系统架构经历了集中、分散、再集中的演进过程,与此同时,数据中心网络也不断演进,网络从提供计算机互联服务的角色演进到数据中心系统交换总线,从竖井式专有系统演进到现代统一网络平台。

浪潮信息总裁彭震表示,在整个网络流量模型中,个人的数据流量只占到14.9%,数据中心和数据中心之间的数据流量占到了13.6%,71%以上的数据流量发生在数据中心内部,也就是通常意义上的东西向数据,即服务器与服务器之间交换的数据。

大量的数据需要在数据中心内部处理,尤其在一些超大规模数据中心内,传统数据中心网络不堪其重,开放网络架构成为业界公认的趋势。

开放网络的最大好处是可以用软件实时调整网络,过去需要人工操作交换机,现在部分工作仅需在服务器侧做调整,交换机只作为数据的交换平面。网络设备的软硬件不再是紧耦合关系,开放接口、软件定义、模块化构建、快速迭代,才能满足产业对网络的未来需求。

当下人工智能继续冲击着传统计算产业,2020年,以GPU为代表的AI加速芯片所交付的计算力总和已经超过了通用CPU,这代表着一个分水岭,网络需要进一步演化,以满足人工智能业务的需求。

以人工智能的典型场景语音识别为例,语音识别需要先在数据中心训练,每次迭代任务时长为650ms~700ms,通信时延就占到400ms,训练频次以百万计,整体网络通信时延也放大了百万倍,这无疑是极大的资源浪费。

由计算产业及智算产业,浪潮提出,智慧计算创新体系架构是面向应用的硬件重构+软件定义,即在硬件层将计算、存储、网络等资源分类进行资源整合,同类资源形成资源池,同类资源中不同设备间可任意重组;同时,在软件层面利用主动业务资源需求智能感知技术,进行自适应硬件资源重构,实现硬件资源的动态组合和智能分配,满足各类应用的需求,即包含“硬件重构+软件定义”的融合架构3.0。

具体到网络层面,为了实现CPU与GPU、FPGA和其他专用加速器之间的高速、高效互连,目前业界推出了众多互联技术标准规范,例如CAPI、GenZ、NVLINK、CXL以及CCIX,智能网卡不仅要分担原有处理器肩负的控制计算负载,同时还需实现协议多元化高速互联。

数据中心内部网络是变革最先发生的地方,算力多元化发展,关键是多元算力的融合,必须要打破传统体系结构设计,从根本上解决多架构引发的无法兼容、效率不高的问题。

浪潮网络CEO钟宏

浪潮网络CEO钟宏

如何拥抱开放网络的趋势?

“浪潮不是因为网络市场很大,想要在其中切个很大的蛋糕,而是因为服务器、存储以及网络是一个高度融合的架构。数据中心对网络需求的迫切性更高,所以浪潮网络首先从数据中心领域切入。”浪潮网络CEO钟宏说道。

在浪潮网络看来,基于开放构建的i.NOP平台,以及全新的智能网卡可在一定程度上缓解企业的网络焦虑。

在近日召开的IPF2021大会上,浪潮网络发布了双技术路线战略——传统技术路线延续国际先进技术满足关键业务和广泛简单运维商业市场需求,开放技术路线是浪潮整体开放计算生态中实现智慧联接的开放网络部分,针对有业务与网络融合的用户,满足新兴深度定制市场的需求。

在开放技术路线一侧,i.NOP平台可以构筑端到端的软件产品组合,实现智算中心网络的敏捷管控。网络资源实现集中调度和自动化的网络管理,同时利用AI进行故障预测分析,从被动的网络运维转为主动智能化的预测性运维。

全新发布的智能网卡则针对智算中心网络流量调度复杂的难题,面对东西向业务流量爆炸式增长,以及计算资源算力从单一算力朝异构多元化发展,数据中心网络基础架构更加关注释放CPU算力。

浪潮新一代N20X智能网卡,基于FPGA+SOC的硬件架构,是一款全高半长双宽的网卡,可以提供2个25G或者一个100G的以太网口,支持网络、存储和安全的卸载加速,并实现了virtio-net和virtio-blk,为服务器提供标准的网络和存储虚拟化技术,满足虚拟化和裸金属的业务需求。据悉,浪潮N20X智能网卡可释放高达30%的CPU算力,数据转发性能达到100 Mpps,较以往得到6倍性能的提升。

在深圳大学校园高性能云平台项目中,深圳大学希望满足数百个用户数字媒体编解码传输的需求,同时要求网络存储的速度能够实现高速处理、高速调用,浪潮采用最新的云海Incloud Rail超融合集群,内部集成SmartFlow智能语音引擎,搭载浪潮网络自研N20X网卡,帮助用户实现基于异构算力的网络存储性能加速,在数字媒体集群编解码处理过程中使得本地的编解码调用完全能够全部卸载到N20X上,对比传统采用CPU和软件的解决方案,网络性能提升8倍,整体性能提升3倍。

钛媒体了解到,浪潮将长期在智能网卡赛道上进行战略投入,从硬件演进上将会推出基于200G、400G接口的网卡,同时支持更高速的总线协议,比如支持PCIe5.0协议、支持CXL,CXL能够更好地实现远端、近端存储池化调度,可以极大地提升系统性能。同时浪潮将推出超融合产品,集成Smart Flow,增加入门级智能网卡,采用浪潮开放架构25G网络以及浪潮自研SSD。

开放网络的迂回

钟宏表示,开放网络是专门为适配云架构而设计的网络,主要包含三个层次,自下而上分别是开放的网络芯片支持、开放的网络操作系统、开放的网络应用生态。

白盒交换机是硬件开放的典型代表,白盒交换机可以根据客户业务需要定义网络端口、网络功能等,在芯片层面实现了模块化,也摆脱了对部分芯片厂商的依赖。

在网络操作系统层面,网络虚拟化把单纯的物理网络编成了两张网,一个是虚拟网,一个是物理网,产业厂商定义了一系列的软件标准化接口,实现了两张网络之间互通,在这个基础之上,延伸出开放的网络架构、网络平台,比较流行的是SONiC平台,微软整个内部网络就建立在基于SONiC平台的开放网络之上。

在应用层面,有线和无线网络融合,以及哑终端增加了大量的物联网接口,对于应用厂商都是全新的机会,各种接口背后与应用紧密相关。例如物联网应用可以借助开放网络交换机的算力和开放操作系统的应用支持能力,将物联网的智能通过浪潮开放网络交换机推送到更接近终端的地方,实现更快响应及更优化传输。

与此同时,互联网巨头厂商走出了另一种“开放路线”,以定制化的方式采购网络产品,硬件功能相对简单,软件特性相对复杂并且与业务相结合,互联网巨头们自己来定义软件功能,

“这是产业发展过程中间的一个趋势,是不是主流趋势不好说。”钟宏认为。

目前,对于互联网Tier-1客户在做定制的时候,对厂商定制的需求很明确,但这样的客户实际上占比比较小,互联网行业里面还有大量其他的Tier-2、Tier-3的客户,更青睐开放式的软件,硬件由厂商提供,软件具备一定的定制能力,方便客户做二次开发。

此外,以电信领域计费系统采购举例,早期运营商计费软件和服务器统一采购,后来运营商联合把软硬件接口标准化,软件归软件采购,硬件归硬件采购,分开的采购模式并没有削弱产业,反而是使其发展的更快。

“当网络市场格局竞争或者说集中度非常高的时候,可能并不是坏事,也许是要产生较大变化的一个非常好的机会点。”钟宏表示。

可以预见,随着上层业务形态的丰富和多样化,网络等底层硬件基础设施将不断调整以适应企业客户的需求,在变与不变的博弈中,新的技术方向和产业格局逐渐成型,这是摆在浪潮网络等厂商面前的清晰机会。

本文系作者张帅_授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

”支持原创,赞赏一下“
subey 钛粉27544 钛粉22420 钛粉71674 钛粉25859 钛粉15018
441人已赞赏 >
441换成打赏总人数441人赞赏钛媒体文章
关闭弹窗

挺钛度,加点码!

  • ¥ 5
  • ¥ 10
  • ¥ 20
  • ¥ 50
  • ¥ 100

支付方式

确认支付
关闭弹窗

支付

支付金额:¥6

关闭弹窗
sussess

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

关闭弹窗 关闭弹窗

Oh! no

您是否确认要删除该条评论吗?

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。