几个月前,初创公司Cerebras推出了史上最大芯片,参见:一片晶圆仅做一颗芯片!史上最大芯片诞生!1.2万亿个晶体管。近日,Cerebras透露了关于此款芯片以及基于此款芯片所设计的系统的更多技术细节,让我们看一下是如何克服超大芯片所面临的诸多技术问题的。
摩尔定律的主要驱动力之一是对不断提高的电路集成水平的需求。通常,有两种增加密度的方法-利用较小的特征尺寸(和布局)或使用较大的基板。英特尔(Intel)、IBM和英伟达(Nvidia)等公司最近推出的芯片,在最近的前沿节点上,往往接近最大的芯片尺寸。现代的EUV光刻步进器的最大场尺寸为26 mm x 33 mm或858mm²。
摩尔定律的主要驱动力之一是对不断提高的电路集成水平的需求。通常有两种增加密度的方法——利用更小的特征尺寸(和布局)或者使用更大的基底。英特尔(Intel)、IBM和英伟达(Nvidia)等公司最近推出的芯片,在最近的前沿节点上,往往接近最大的芯片尺寸。现在最新的EUV光刻步进器的最大场尺寸为26 mm x 33 mm或858mm²。
以整体的方式(即非拼接)制造更大的常规裸片需要新的工具。但是,有两种替代方法。晶圆级集成(WSI)是指单片芯片的制造,该单片芯片的尺寸与晶圆本身的最大直径相同或接近。WSI不是一个新概念。这个想法可以追溯到近半个世纪。也许最引人注目的尝试是Trilogy Systems,这是Gene Amdahl共同创立的1980年代初创业公司,试图使用基于ECL的晶圆级模块设计高速计算机。他们在100毫米晶圆上设计了一个晶圆级的“超级计算机”,用于处理6平方厘米的芯片。Trilogy Systems最终屈服于当时的晶圆级光刻技术的经济现实,到1984年,该公司放弃了自己的努力。1989年,Anamartic,晶片叠层具有20到160Mb的存储器,使用多达8组150mm晶片,每个晶片集成了202个1Mb存储器。
自从Trilogy公司放弃努力以来,已经过去了35年了,半导体行业已经经历了几十次节点转换、四次晶圆尺寸转换,以及在工艺技术方面的知识和经验上的重大进步,使数百万个晶体管能够在每一毫米的硅上制造出来,其产量是几十年以前所无法想象的。所以也许是时候给它第二次机会了?
Cerebras晶圆级引擎(WSE)
Cerebras Systems在Hot Chips 31上展示了他们的新芯片– Wafer Scale Engine(WSE)-巨大。WSE是一块单片的半平方英尺的硅片!
Cerebras提出的最大的方形芯片可以用标准的300毫米晶圆雕刻而成。这很重要,因为Cerebras已与TSMC合作,并使用其标准的16纳米工艺来制造这些芯片。
WSE为215mm²,300毫米/√2等于212.1毫米。晶圆片外面超过2.9毫米的部分导致芯片有圆角。
该芯片包括84个相同的管芯,它们以7乘12的网格排列。每个管芯约为510平方毫米,带有略微超过4,774个集成的微型AI内核。Cerebras表示,出于冗余原因,还有1-1.5%的额外AI内核,我们将在稍后详细介绍。拥有84个管芯,每个芯片将拥有超过40万个AI内核。
这里有很多内容,我们来总结一下重点。第一部分是内核(core)——一个芯片上大约有50万个内核。这些内核完全是由Cerebras为AI工作负载设计的。内核是完全独立的,是完全可编程的——它们被设计成独立地执行自己的指令流,不管周围发生了什么。由于该领域正在发展,据说内核设计具有足够的灵活性,以适应未来可能需要的新功能和新操作。因此,由Cerebras设计的ISA包括通用操作,如加载/存储、分支和算术,以及一组张量操作。通用操作是标准的CPU操作。除此之外,Cerebras增加了对张量操作数的固有张量运算。换句话说,张量操作码直接接受2D和3D张量,就像你在传统CPU上指定寄存器一样。
作为一种降低功耗的机制,内核还支持硬件内部的稀疏处理。内核执行数据流调度,所有计算都由数据单独触发。当它们等待有用的数据时,内核会停止工作,这使得它们可以通过过滤掉稀疏的零数据来消除不必要的处理。在某种程度上,这也是一种性能特性,只要他们能够跳过数据并继续进行任何可用的工作。
“大”有可为
由于相当于84个裸片,所以这个数字简直令人难以置信。这正是Cerebras所希望的——仅仅由于集成的数量,一个巨大的性能提升。看看Nvidia最大的GPU和Cerebras WSE之间的比较,数字是非常令人印象深刻的。
Cerebras提供的完整解决方案
由于涉及的复杂性,Cerebras不仅要设计芯片,而且还必须设计整个系统。这使他们可以将其调整到正确的公差。Cerebras尚未透露完整产品的太多信息,目前知道WSE将有一个15U的机箱用于WSE,另一个机箱用于电源和其他部件。最终产品旨在像100 GbE上的任何其他网络连接的加速器一样工作。
WSE比全球最大的GPU Nvidia V100大近57倍。这令人印象深刻,但我们需要退后一步,看看Cerebras实际提供了什么:一个大型加速器。您不是将单个WSE固定在单个V100上。WSE正在与诸如Nvidia DGX-2等展开竞争。。如果没有实际的基准测试,就很难判断WSE与DGX-2的表现如何,但这种比较要现实得多。
芯片结构
在WSE上,所有内核都使用统一的2D网状结构互连,并强调本地通信的低延迟。Cerebras使用了完全可配置的结构。该结构依赖于细粒度的单字消息传递(fine-grain single-word message passing)。通信完全在硬件中完成,从而消除了任何软件开销。
这种结构不仅用于裸片之间通信,而且具有均匀的管芯阵列,Cerebras将管芯间的连接扩展到整个划线隔离区域上的每个相邻管芯。单个统一的2D网格将所有核心以及裸片之间连接在一起。
Cerebras与TSMC合作,以解决芯片间的连接问题。他们重新调整了划片槽(scribe line)的用途。在台积电的帮助下,金属沉积扩展到了划片槽上,使Cerebras能够无缝地将2D网格扩展到整个裸片上。换句话说,在裸片之间发生的相同通信在裸片之间进行了扩展。在硅片上不到一毫米的距离内驱动信号直接转换为芯片间通信所需的功耗降低了一个数量级。
没有外部存储器
WSE与所有其他设计的显着差异之一是内存。WSE没有外部存储器。整个存储器完全分布在片上SRAM的各个内核中。这与具有大缓存的大型NPU没什么不同。但是,仅芯片的绝对大小就意味着您可以得到很多。拥有超过400K的处理内核,内存超过18 GiB,内存带宽为9 PiB / s。由于所有芯片都在芯片上,因此无需将其全部移入和移出芯片的节能效果非常有利。
Cerebras表示,它已与该体系结构共同设计了软件堆栈。开发人员可以使用其现有的ML框架,例如PyTorch和TensorFlow。Cerebras软件将在从框架提取的网络上执行其自己的布局和路由例程。Cerebras说,每层都根据计算,大小和带宽需求进行调整。然后,将每一层最佳地映射到整个芯片的一部分上,从而使整个芯片可以立即在整个神经网络模型上运行。
“大” 有缺点,如何克服?
收益怎么样?
我们知道每个人在想什么——他们是如何做出这种事情的?我们假设由于16FF+的成熟度,它在这一点上具有优秀的缺陷密度。但是仍然做不成哪怕一个完美的晶圆片,依然会有单元芯片不良。
答案是“简单”。Cerebras设计其芯片的每个晶片具有1000个微小核心的原因就是这个原因-能够以相对较低的成本解决产量问题。冗余内核和冗余链路都融入了它们的体系结构。出于冗余原因,每个晶圆都包含约1-1.5%的额外AI内核。值得注意的是,冗余核心始终保留用于冗余。换句话说,当在某个区域中没有缺陷时,只需禁用冗余核心。在受缺陷影响的区域中,使用本地冗余核心来替换有缺陷的核心。然后使用冗余结构链接适当地重新连接本地结构。
热膨胀和封装
不幸的是,仅仅获得良好的成品率是不够的。对于整个晶圆而言,所涉及的热量,功率和电流令人难以置信。Cerebras说,硅晶片和PCB之间的热膨胀仅差增量会导致过多的机械应力,从而导致破裂。
为了解决这个问题,Cerebras设计了一个定制连接器,夹在硅晶片和PCB之间。连接器的设计使其能够在保持操作连接性的同时吸收大部分变化。当晶圆片的边缘发生极端变化时,需要更加小心地处理。
由于其尺寸太大,也不存在标准的封装解决方案。最终,该公司为其产品开发了自己的定制封装,包括PCB板,连接器,WSE和冷却板。Cerebras表示,必须开发自己的定制封装工具和流程,以确保对齐和特殊处理。
散热和电源
晶圆级引擎很大,这也意味着需要大量电流。依靠传统的PCB电源平面交付无法正常工作。高电流密度意味着通常的横向分配系统无法扩展到整个晶圆。换句话说,PCB中的铜不足以充分覆盖整个晶圆。Cerebras在散热方面也遇到了类似的问题。高热量集中意味着冷空气在整个晶圆上流动不足以足够快带走热量。
Cerebras提出的解决方案是采用垂直方式。电流分布垂直于晶圆完成,避免了原本需要的铜线的厚度。以类似的方式,冷却水将来自冷板的热量直接直接输送到垂直于晶圆片的封装外。两种技术都可以使晶圆的功率和冷却高度均匀地分布,包括在晶圆的边缘和中间。
原文链接:https://fuse.wikichip.org/news/3010/a-look-at-cerebras-wafer-scale-engine-half-square-foot-silicon-chip/