阿里平头哥发布的全球最高性能 AI 芯片「含光 800」,核心是什么

2019-09-26 02:43发布

9 月 25 日阿里巴巴“2019云栖大会”在杭州正式拉开帷幕。会上阿里巴巴正式对外发布了全新的含光 800AI 芯片。据称这是全球最高性能的 AI 推理芯片。

据张建峰表示“这是互联网公司研发的第一款芯片,这是万里长征第一步”。阿里巴巴有足够的能力去做传统公司的事情,“我们用一年半时间,就完成了芯片的制作。所以,阿里巴巴将成为软硬件一体化协同发展的公司”

从5个方面回答下这个问题:

1)含光是一款怎样的AI芯片?

2)为什么能说“AI性能”全球第一?

3)芯片特点和难点?

4)会带来什么样的后续影响?

5)下一步会如何?

具体展开如下

1)含光是一款怎样的AI芯片?

先总述一句,AI芯片按使用目的目前大概分三种:通用芯片(GPU)、训练芯片(华为昇腾910),推理芯片(含光800)。

而此次阿里发布的含光800,是一款云端AI推理芯片,重点应用是视觉场景。

2)为什么能说含光800“AI性能”全球第一?

看参数。

芯片制程12nm,晶体管数量高达170亿个。

在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍。

能效比500 IPS/W,是第二名的3.3倍。

以数据横向对比,含光800展现性能,是英伟达最新T415倍,是应用最广的英伟达P4的46倍。

甚至比最新一代英伟达T4,也有15倍领先。

(阿里去年官宣进军AI芯片,放话要比业内最强还要强40倍,这算是实现了吹过的牛。)

我们也做了个表用来对比,结果一目了然:

所以阿里平头哥含光800,确实在性能方面,打破现有AI芯片纪录,性能及能效比全球第一。

确实可以说含光800“AI性能”全球第一。

但如果更严谨说,是AI推理性能全球第一。

而AI训练方面,仍然是华为昇腾910。

那么性能参数之外,有没有直接应用上的对比?

看看阿里应用后的效果对比:

大会现场,张建锋展示了这款芯片的强大性能。

每天新增10亿商品图片的拍立淘商品库,使用含光800识别效率可提升12倍,时间从传统通用GPU的1小时缩减至5分钟。

还有城市大脑。在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。

应该很具体生动了吧?

3)阿里这款含光800芯片的特点和难点?

要回答此问,还得先从AI芯片的大趋势说起。背后是AI时代的专芯专用需求。

含光800,之前被称为Ali-NPU。

顾名思义,NPU——神经网络处理器就是专门处理深度神经网络算法的芯片,而深度神经网络算法,核心是模仿生物神经网络结构特点,并且最基本特征就是模仿大脑神经元之间传递模式,并对输入的信息进行快速处理。

然而传统通用处理器基于冯诺依曼结构,其存储和运算处理相互分离,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,效率较低。

因此以含光800为代表的神经网络芯片,根据神经网络推理运算特征,会设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

简而言之,专芯专用,效率更高、成本更低,相应效益也会更好。

而且另一方面,因为需求明确,应用场景有针对性,相比打造CPU和GPU,打造AI芯片的门槛要低很多。

于是整个行业都在来到一个“iPhone时刻”——软件重新定义硬件,场景需求重新定义芯片。

然后过程中最好还能与应用的业务场景结合,不断验证、反馈,迭代,最后在达到目标效果后流片、完成物理实现。

整个过程中,含光800团队在软硬件设计上都做了大量工作,例如做架构创新,软件编译器、框架、工具链等,后期还针对INT8数据类型进行了大量优化。

含光800芯片负责人骄旸透露,这款芯片采用自研架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。

芯片同时深度优化了卷积、矩阵乘、向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。

另外,还集成了达摩院算法。针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

所以这也能回答另一个问题:为什么互联网公司纷纷跨界变硬,启动自主AI芯片打造了?

不过,想不想造、有没有能力造,最后造的结果如何……完全是好几个层次,完全是综合实力的比拼。

这也就是为什么,阿里的业务场景优势,会给平头哥首款AI芯片带来加速,也是阿里手握新时代芯片竞争“天命”的原因。

而且,阿里AI芯片并非完全“从0开始”。

平头哥创立一年,不过达摩院和阿里各大业务,已在AI算法和软件方面积累很长时间。

含光800团队透露,基于阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀,是含光800重构芯片软硬件技术栈的秘诀所在。

由于AI芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值。

算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果。

硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年经验,平头哥团队也在体系结构、编译技术等领域拥有深厚的技术储备。

基于这些能力,平头哥完成了算法和硬件之间鸿沟的快速突破。在算法能力之上,自研芯片架构,并且设计了完整软件栈。

而且如此设计理念,效果也立竿见影。例如功耗是AI芯片行业通病,但平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,能把芯片功耗降到最低水平。

另外,新入局也有新入局的优势。

带队打造含光800的骄旸感慨,半导体巨头搞AI芯片,会有既有开发者生态的包袱,但阿里平头哥团队目标专一,就是要实现最强算力,把硬件能力完全释放,以构建更大的生态。

过程中也无时不刻展现着阿里业务场景优势、以及组织凝聚力。

而平头哥在架构设计之初,业务场景同事就从需求和经验层面给出了全面反馈,直接帮助厘清了需求。

然后算法加持和验证迭代阶段,达摩院和业务场景也不厌其烦帮助测试、反馈,提交迭代,共同完成了流片前的最后保障。

所以虽然阿里造芯,专门成立了平头哥半导体,但“含光800”从无到有,不光是一个人、一支团队在战斗。

如果你问阿里AI造芯的优势究竟有哪些?

除了有“生死看淡不服就干”的决心,真金白银的投入,业内全球资深人才的招揽……

平头哥首席科学家、阿里巴巴高级研究员元尊(去年低调加盟的清华大学教授谢源),将具体优势归结为“ABCDE”。

A:Algorithm,算法,阿里本身的技术储备和AI实力,在算法方面有世界领先的积累。

B:Big Data,大数据,庞大的生态场景和覆盖方方面面的业务,在数据质和量方面都有优势。

C:Computing,安全稳定的计算力,阿里云的市场龙头和领先地位,就已能说明一切。

D:Domain knowledge,专业领域知识,阿里本身并非只是一家一业的公司,而是几十家公司的集合体、经济体,有各种各样的全面应用场景,对于各项最新技术和产品,有最天然的应用基础。

E:Ecosystem,生态。比起传统芯片半导体公司,阿里生态涵盖之广泛、能力之多元和应用前景,都是综合实力的体现。

元尊认为,拥有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。

而且这种“ABCDE”,一方面帮助造芯,另一方面还帮助用芯。

4)会带来什么样的后续影响?

涉及商业模式。

一方面是对阿里内部。

在阿里内部,因为丰富的场景需求和业务体量,对高性能AI算力的需求已非一日。

电商场景中,拍立淘等新兴购物方式涉及的图片搜索,需要AI芯片。

还有文娱场景,优酷视频修复、分析,也需要AI实现。

还有阿里正在大规模落地推进的城市大脑等,如各类车辆进行检测、跟踪、特征提取、属性检测等,也都离不开更强算力加持。

未来,在医疗和自动驾驶等重要垂直领域,更是空间广阔、商业前景潜力十足。

单自主芯片自用,就已效益显著。

另一方面是通过阿里云对外输出。

也能让AI算力通过阿里云赋能更多领域、更多企业。

所以此次含光800芯片选择云服务的商业模式,也在情理之中。

所以阿里方面,则更乐于强调首款AI芯片的商业模式背后,一以贯之的普惠性——平头哥创办的核心理念。

今年早先推出的无剑SoC平台和玄铁处理器IP,都选择了直接开放授权,帮助企业降低芯片设计门槛。

而含光800的普惠性,则体现在通过阿里云AI云服务的形式,让企业随时随地可以享受高性能计算服务。

5)下一步会如何?

平头哥方面也谈到了阿里芯片的下一步。

随着含光800发布,平头哥已集齐了全栈芯片家族:

基础单元处理器IP,C-Sky系列、玄铁系列,为AIoT终端芯片提供高性价比IP;

一站式芯片设计平台,无剑SoC平台集成CPU、GPU、NPU等,降低芯片设计门槛;

AI芯片,含光800通过AI云服务为AI场景提供高性能算力。

这三大产品系列,初步完成了平头哥端云一体的芯片生态。

而接下来,平头哥产品形态,重点将是云端AI训练芯片、端上推理芯片,以及用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。

此外,平头哥芯片初步软硬件闭环实现,阿里巴巴在芯片、云和AI三大业务之间的协同关系,也雏形初现。

从时代趋势而言,三者原本就是三位一体。

AI算法逐渐集成到芯片,集成算法的专用芯片能为云服务提供了更强的性能,而云计算本身则加速了AI应用的大规模落地。

过去十年,阿里集中推进、展现成果的是AI和云计算。

现在,平头哥补齐芯片一环,阿里在计算版图中的铁三角形成。

不过中国科技互联网巨头,自然还有野心更大的宏伟蓝图——行业生态和开发者生态。

此前,玄铁910发布,阿里也明确解释过,平头哥目标就是打造AIoT时代的基础设施平台,延续从阿里巴巴B2B淘宝支付宝,到阿里云和菜鸟等延续承袭的阿里之道。

在此次云栖大会,基于RISC-V架构的玄铁处理器、以及无剑SoC平台也有开发者案例——如人工智能独角兽云天励飞、老牌芯片商炬芯科技,以及可重构计算芯片领军企业清微智能,都将现场亮相。

当然,既然AI芯片是一次软硬件一体化的完全重构,那么在软件栈和模型框架方面,阿里必然也不会袖手旁观。

最明显的信号,莫过于重磅引入的Caffe之父贾扬清。

所以阿里这款AI芯片,要完整认知,恐怕不能不回答了解上述5个问题。

最后,One more thing,说一下这个名字:含光。

“含光”之名,来自《列子·汤问》,是上古名剑,也是商天子三剑之首。

“视不可见,运之不知其所触,泯然无际,经物而物不觉。”

这把剑隐隐发光,如光如影如风,快到看不见,无形、无处不在,无往不利。

平头哥团队解释说,这是含光800团队内部投票的结果。

既希望传达该款NPU的能力,也展现平头哥首款硬件初入芯片领域的心态——在英特尔和英伟达等巨头面前,还是“年轻人”,造芯重器,心怀敬畏。

所以阿里内部心态也挺健康的,希望含光800早日让更多中小企业享受到普惠的AI算力

文章来源: https://www.toutiao.com/group/6740531112721777165/