2019年9月25日,在阿里巴巴的云栖大会上,阿里旗下半导体公司平头哥正式发布了第一颗自研芯片——含光800,这是继玄铁和无剑之后阿里在芯片领域的又一重大布局。
一组数据表明,含光800的发布标志着AI芯片性能史再度被改写。在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
同时,对比公开数据(针对ResNet50模型一秒能够处理图片的数量)得知,含光800展现的性能是是NVIDIA Tesla V100的10倍,NVIDIA Tesla T4的15倍,是应用最广的NVIDIA Tesla P4的46倍。
不过,阿里巴巴方面表示,“含光800并不会售卖,旨在通过阿里AI云服务提供算力,可以看作‘云端售卖’。平头哥致力于做普惠芯片,无剑SoC平台和玄铁处理器IP来帮助企业降低芯片设计门槛;含光800通过阿里云AI云服务的形式让企业随时随地可以享受高性能计算服务。”
含光800的发布标志着平头哥端云一体全栈产品系列初步成型,其涵盖处理器IP、一站式芯片设计平台、以及AI芯片,实现了芯片设计链路的全覆盖。
“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走”,达摩院院长张建锋这样评价。
“无形却强劲”的算力
“平头哥很硬,含光很强”,这句话从命名方式便显露无疑。
平头哥,本名蜜罐,原本是生活在非洲等地区的一种动物,被吉尼斯世界纪录誉为“世界上最无所畏惧的动物”,其“不要怂就是干”的性格被马云一眼相中,从此平头哥便成为了阿里芯片公司的代名词。
而含光则是上古三大神剑之一,该剑含而不露,光而不耀,代表着含光800带来的无形却强劲的算力。
含光800采用12nm工艺,拥有170万晶体管数量,推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍,主要应用于云端视觉处理场景,能够在1秒内处理7.8万张图片。
在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU,这对于未来智慧城市交通等AI应用落地场景来说,无疑是巨大的源动力。
据悉,平头哥在非常短的时间内便完成了芯片的设计和流片整个过程,7个月完成前端设计,随后仅用3个月便成功流片。
要知道芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区。而流片失败就意味着硬件设计需要推倒重来,这比软件出BUG问题更加严重。一般芯片公司需要做两次(engineering sample、production sample)或多次才能流片成功。
然而,流片成功也并不代表就可以直接商用了,它还需要经过复杂的测试验证,当各项指标都符合实际场景需求后才能真正商用。
PingWest品玩了解到,平头哥之所以能够如此快速研发出如此高性能的AI芯片,可以总结为以下两方面。
第一,相比基于冯诺依曼结构的传统通用处理器(比如x86 CPU和GPU),针对某种特定的需求而专门定制的ASIC架构NPU专用加速器对于应用场景更具有针对性。
针对特定场景和算法的定制意味着执行特定算法时能获得更高的效率和性能,然而这种较为单一的算法也同时意味着打造AI芯片理论上要比打造传统CPU和GPU门槛低得多,但这并不意味着每个芯片厂商都能像平头哥一样做到最强。
目前,市面上很多ASIC架构NPU通常只在非常明确的场景下才能够表现优异,而在场景的迁移性和算法通用性方面大打折扣。
相比之下,含光800不仅实现了同时兼容海量的图像搜索、城市大脑领域的视频识别、以及智慧医疗领域的医疗影像识别等不同计算需求环境,还针对这些丰富的场景挖掘出了极大的计算优化潜能。
值得一提的是,传统半导体巨头打造AI芯片,会有开发者生态的包袱,但平头哥团队目标专一,即实现最强算力,把硬件能力完全释放。
第二,尽管这是阿里平头哥的第一款自主研发的芯片,但是事实上平头哥研发芯片并非从0开始。
“在阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀之上,含光800重构了芯片的软硬件技术栈”,阿里巴巴方面介绍。
“AI芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值”,有业内分析人士指出。
“目前,传统CPU、GPU在深度学习推理任务上并没有完全发挥硬件能力,例如GPU架构主要针对图像处理设计,其硬件结构和软件生态几乎固化,因此对AI任务很难有深度优化。”
PingWest品玩发现,含光800的性能突破便是得益于软硬件的协同创新,突破了硬件架构和软件算法之间的鸿沟。
具体来看,含光800硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面则集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
以芯片能耗为例,能耗是AI芯片的行业通病,而平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,把芯片功耗降到最低水平。
平头哥首席科学家、阿里巴巴高级研究员元尊则将平头哥研发AI芯片的具体优势归结为“ABCDE”五方面,即Algorithm 算法、Big Data 大数据、Computing 安全稳定的计算力、Domain knowledge 专业领域知识、以及Ecosystem 生态。
“拥有ABCDE的阿里,比只有C的其他芯片公司,自然更容易更快速站上AI芯片C位”,元尊坦言。
已应用于阿里核心业务
对于阿里AI生态而言,含光800绝不是单纯的做芯片,而是为全球排名前三、亚太排名第一的阿里云提供强大的算力支持,以满足阿里巴巴集团内部场景的需求,同时含光800也将利用阿里云对外(企业)输出其强大的AI算力。
据悉,基于含光800的AI云服务在发布会当天便正式上线,相比传统GPU算力,含光800性价比提升100%。
根据云栖大会的现场演示,含光800已经开始应用于阿里巴巴的内部核心业务中,比如城市大脑处理杭州主城区交通视频、拍立淘商品库图片识别、以及优酷视频修复和分析等。
PingWest品玩了解到,如果使用传统GPU,城市大脑实时处理杭州主城区交通视频所需GPU数量约为40颗,延时为300ms;而如果使用含光800,则只需4颗,同时延时降至150ms。
另一方面,阿里电商平台拍立淘商品库每天会新增10亿商品图片,如果使用传统GPU,其识别时间需要1小时;而如果使用含光800,则只需5分钟,效率提升12倍。
未来,含光800的算力也将渗透至医疗、自动驾驶、智慧城市等各个垂直行业。
含光800将帮助企业以更低的成本获取高性能算力,推动企业业务创新。对于受限于算力瓶颈的企业而言,含光800可以更高效地运行更复杂、更先进的算法,让企业再也不会为基础算力发愁。
PingWest品玩获悉,为了给应用场景提供更好的算力芯片,平头哥团队在过去一年做了很多事情,不断探索芯片与应用场景之间的融合。
作为全球涉足AI应用最丰富的科技厂商之一,阿里巴巴拥有丰富的AI应用场景,图像视频分析、搜索、推荐等业务场景都需要AI专用芯片提供更强大的算力,其中图像、视频对算力的需求量最大。
围绕这一目标,平头哥针对场景深度定制了芯片的软硬件,例如自研了架构、软件编译器、框架、工具链等。
同时,后期也针对INT8数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。
算力也要普惠
含光800的发布标志着阿里巴巴计算版图中铁三角的正式形成,AI+芯片+云计算将帮助阿里在未来AI行业应用落地奠定夯实的基础,而这对于阿里来说只是一个开始。
PingWest品玩了解到,作为AI行业的领军企业,阿里目前正在打造完善的行业生态和开发者生态。
在云端,全球排名前三、亚太排名第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光800的强悍算力。
在端侧,平头哥已拥有成熟的生态体系, CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大规模量产的验证,授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域。
此外,基于RISC-V架构的玄铁处理器以及无剑SoC平台也已服务各行业企业,例如人工智能企业云天励飞和老牌芯片商炬芯科技等。
另一方面,平头哥还将成立芯片开放社区,进一步为芯片产业提供开放协作的平台。
同时,随着含光800的发布,平头哥端云一体全栈芯片产品家族也已初现雏形,实现了芯片设计链路的全覆盖。
其中基础单元处理器IP,C-Sky系列、玄铁系列为AIoT终端芯片提供高性价比IP;一站式芯片设计平台无剑SoC平台集成CPU、GPU、NPU等,降低芯片设计门槛;而AI芯片含光800则通过AI云服务为人工智能场景提供极致算力。
这三大产品系列将构建端云一体的芯片生态,将会为企业提供普惠算力。
PingWest品玩了解到,在AIoT时代,由于强应用驱动和场景碎片化等特点,芯片公司按照传统方式设计芯片很难适应未来的需求,平头哥希望通过端云一体芯片生态为行业提供普惠算力。
AIoT场景需要新的计算架构,需要安全、在线和智能等新特性,所有芯片都在面临升级,这必将在芯片行业引起一波全新技术革命和产业浪潮。
不同于绝大多数芯片商,平头哥研发芯片的目的绝非卖芯片,而延续了阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式——平头哥模式,致力于为企业提供普惠算力,成为了阿里巴巴独具特色的商业模式。
目前,平头哥还在研发应用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。未来,平头哥芯片产品形态还将进一步完善,例如云上AI训练芯片和端上AI推理芯片。
“阿里在芯片上的定位是端上做芯片基础设施,云上为企业提供普惠算力。例如,处理器是所有高端系统芯片都需要的基础产品,AI芯片是AI场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态”,阿里方面告诉PingWest品玩。
“此外,平头哥还将继续开发操作系统、软硬件融合的算法、以及核心的IP等,并把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给芯片厂商设计产品,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力”,阿里随即补充道。