阿里发布AI推理芯片含光800,“平头哥”第一颗自研芯片来了 | 2019云栖大会

张建锋介绍道,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。

钛媒体快讯 | 9月25日消息:就在去年的云栖大会上,阿里巴巴正式宣布成立芯片公司“平头哥半导体有限公司”,正式跨入造芯行列。一年后的今天,平头哥团队验收初步成果的日子到来了。

今天,达摩院院长张建锋在杭州云栖大会现场展示了含光800——阿里巴巴第一颗自研的芯片。

含光其名,源自上古三大神剑之一「含光剑」,该剑含而不露,光而不耀。

“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。”张建锋补充到。

沿着拆分模块化角度来分析,含光 800 性能的突破得益于软硬件的协同创新。

从硬件层面来看,含光 800 采用创新低自研芯片架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了 I/O 需求和数据的搬移,NPU 同时深度优化了卷积、矩阵乘、向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,有效解决芯片性能瓶颈问题;

而在软件层面,含光 800 集成了达摩院先进算法,针对 CNN 及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗 NPU 上完成计算。此外,它还拥有自动化开发工具,支持 TensorFlow、Caffe 等主流开源框架,还可进行多模型动态部署。

针对“云上场景”特殊定制

定位为“云端AI芯片”,和过去定位在手机内置SOC里的NPU不同的是,含光800的应用场景主要集中于成规模的计算中心。

有场景,必然有重心的变化。这一次,含光800更加聚焦于降低运维成本所要考虑的能效和为了扩大硬件应用场景边界所要考虑的算力峰值。

据张建锋介绍,过去一年,平头哥团队始终在不断探索芯片与场景的融合道路上。以对算力需求较大的图像视频分析、搜索以及推荐等业务场景为例,围绕这一目标,平头哥针对场景深度定制了芯片的软硬件。“举个简单的例子,阿里先后自研了架构、软件编译器、框架、工具链等,玄铁 910、无剑 SoC 平台便是最好的印证。”

相较于其它,本次发布的绝对主角含光800,其从芯片设计、流片整过程都显得极为迅速。据了解,平头哥团队 7 个月就完成了含光800的前端设计,之后仅用了3个月就成功流片。

值得一提的是,眼下,含光800已经进入商用阶段。据悉,含光800已应用在阿里巴巴内部核心业务中。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光 800 仅需4颗,延时降至150ms。拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光800后可缩减至 5 分钟。

此外,在商业模式上,平头哥将采用“平头哥模式”,通过云服务为企业提供普惠算力,基于含光800的AI云服务也在今天正式上线,帮助受限于算力瓶颈的企业

张建锋现场表示,希望能通过端云一体芯片生态,为各行业提供普惠算力。“含光 800是针对阿里云上的场景特殊定制而成,如果面向市场,需要考虑更多有关细节优化方面的问题。”

“AIoT 场景需要新的计算架构,需要安全、在线和智能等新的特性,所有芯片面临升级,这必将在芯片行业将引起一波全新技术革命和产业浪潮。但 AIoT 市场有强应用驱动和场景碎片化等特点,芯片公司按照传统的方式设计芯片很难适应未来的需求,平头哥希望通过端云一体芯片生态为各行业提供普惠算力。”

未来,平头哥的产品形态还将会进一步完善,如推出云上 AI 训练芯片和端上AI推理芯片。除此之外,平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,进而满足更多场景的算力需求。(本文首发钛媒体,作者/桑明强)

本文系作者 桑明强 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 厉害是厉害,但是图片中用了“最高”不怕违法广告吗

    回复 2019.09.26 · via pc
  • 不是专业的不好评价 不过至少是真在做事 比打着某些旗号忽悠投资忽悠股民要好的多

    回复 2019.11.25 · via iphone
  • 给出的信息较少,所以只是猜测:此类芯片目前比拼的可能类似于GPU中的流处理器,因此,芯片大小和其中的逻辑处理单元数量成正比,工艺越好单个、单片面积越大,就可以容纳更多处理单元,处理速度也就越快。

    回复 2019.09.25 · via android
  • 哦 好像是四倍

    回复 2019.09.25 · via android
  • 比华为AI芯片的性能还高? 高出十倍?

    回复 2019.09.25 · via android

快报

更多

2026-06-25 23:05

东吴证券:购买东海证券83.68%股份事项获上交所受理

2026-06-25 22:58

霍尔木兹海峡通航量恢复至战事前57%

2026-06-25 22:54

台积电计划2026年至2028年N2/A16先进工艺产能年复合增速达70%

2026-06-25 22:43

美国拟取消无人驾驶汽车必须配备刹车踏板的规定

2026-06-25 22:39

中国具身智能市场规模将突破万亿元

2026-06-25 22:31

环球园艺有限公司在港交所提交IPO申请

2026-06-25 22:30

神基制药有限公司在港交所提交IPO申请

2026-06-25 22:27

波罗的海干散货运价指数周四跌至逾两个月低点

2026-06-25 22:13

*ST中基:撤销退市风险警示,6月26日起股票简称变更为“中基健康”

2026-06-25 22:04

比特币失守59000美元,加密货币概念股全线下跌

2026-06-25 22:03

DeepSeek:计划将所有部门的规模扩大至少一倍

2026-06-25 22:03

巴西财政部向中方递交熊猫债发行申请函

2026-06-25 21:55

伊朗议长否认被解冻资产将用于购买美国农产品

2026-06-25 21:50

美股高开低走,标普500指数转跌

2026-06-25 21:46

黑莓大涨超20%,Q1业绩超预期并上调全年业绩指引

2026-06-25 21:41

特斯拉计划为柏林超级工厂增招1000名员工以扩充产能

2026-06-25 21:39

美光科技市值首超Meta及特斯拉

2026-06-25 21:38

梦洁股份股价跌停,公司回应:生产经营一切正常

2026-06-25 21:33

苹果低开2.27%,公司因存储芯片短缺上调Mac、iPad等产品价格

2026-06-25 21:32

纳斯达克中国金龙指数跌超0.5%

6

扫描下载App