大型芯片救星:异构集成

2024-11-06

2022 年, ChatGPT 人工智能的推出引起了人工智能的推出 (AI) 以及高性能计算 (HPC) 使用指数级增长,使得人工智能对于日常生活越来越重要。大人工智能模型擅长处理复杂的任务,但是它们需要大的训练数据集和大的计算系统。这种大规模的计算工作负荷使芯片尺寸更大,功率密度更高,使得设计节能结构更加困难。但是,即使传统的扩展速度减慢了,对计算的需求也在不断增加。


所以,芯片异构集成 (HI) 对实现高系统吞吐量(每秒万亿次) TOPS)和能源效率(TOPS/W)为了满足日益增长的计算需求尤为重要。把电影系统放在电影上 (SoC) 将其拆分成多个Chiplet并将其集成到单个包装中,可以显著提高系统设计的灵活性、功能性、带宽、吞吐量和延迟性。这种情况可以通过横向、竖直甚至双向拉近Chiplet来实现,从而允许更多的内存或逻辑集成到单个封装中。另外,减小die的大小,在封装之前执行已知的好芯片。 (KGD:known good die) 测试能实现对芯片特性的更高水平控制,从而提高良率,降低整体成本。


HI 专门用于训练大型生成式训练。 AI 高性能系统模型的潜在解决方案。高带宽内存 (HBM)、中央处理器 (CPU) 以及图像处理单元 (GPU) 当芯片集成到一个包装中时,吞吐量、延迟和能效显著提高,并克服了传统。 2D 单片式ic设计的局限性


如今,Nvidia、Intel 和 AMD 等待半导体公司已经在自己的品牌中使用了 HI 运行即时生成的技术 AI 有数十亿个参数的模型和训练 LLM(大语言模型)。本文首先介绍了当前和新兴的评论。 HI 技术,并讨论它们的优点和当前的局限性。接着,我们进行了调查 Cerebras、Nvidia、AMD、Intel 和 Tesla 等待半导体公司近期计算高。 AI 设计工作负载 HI 商业部署结构。


最后,我们还总结了玻璃芯封装的最新进展,并对其优点和局限性进行了评估。


目前异构集成技术的趋势


将 SoC 将Chiplet分割成Chiplet的主要动机是提高系统功能,降低制造成本。为提高这些基于Chiplet的系统性能,多芯片 HI 结构上有许多创新。我们根据 IEEE 电子包装协会 (EPS) 定义异构集成路线图,将multi-die 架构分为 2D、2.5D 或 3D,并在图 1 中间提供简述。表 1 对当前异构集成技术进行了总结。




A 多芯片模块架构

多芯片模块 (MCM:Multi-chip-Modules) 这是最早的多芯片 2D 其中,芯片水平放置在有机基板上,以减少导线长度,提高封装带宽,从而提高系统性能和设计灵活性。它是最简单的集成技术之一,但由于采用了基于粗焊料的传统有机基板和键合技术,MCM 互连密度可能受到限制。基于焊料的这些互连(例如 C4 沉孔)很难缩小到更准确的间距,因为相邻的相互连接在键合过程中会出现短路,从而限制了系统性能。对于大型 AI 该系统需要低延迟、高效的内存浏览,但由于互连有限,将会有限, MCM 扩展到更多的系统是非常困难的,这可能会成为瓶颈。


B 中介层架构

造成了这些挑战 2.5D 随着结构的出现,这种结构利用玻璃、硅中介层或局部硅桥等基板来提高横向连接密度。细间隔微凸块和硅通孔 (TSV) 该技术能提高堆放在玻璃或硅中介层上的芯片连接密度。


但是,随着计算需求的增加,中介层被扩展到大规模。 AI 这个系统的成本可能很高。


所以,基于桥梁的结构(例如英特尔的嵌入式多芯片连接桥) (EMIB))使用嵌入封装基板的局部硅和多层布线层,以实现更细的布线间隔。芯片间信号位于局部硅桥,电源/接地连接等信号位于有机封装中,从而消除对应 TSV 对装配过程的需求进行了简化。


与 EMIB 类似地,高架扇出桥 (EFB:elevated fanout bridge) 采用局部硅桥,提高芯片间的连接密度,桥梁位于封装基板上方 。这一方法可以进一步降低组装成本和复杂性。与 3D HI 与基于桥梁的技术相比,基于桥梁的技术具有更好的设计功能、更低的设计复杂性和更简单的热管理,因此有望大规模使用。 AI 但是,传统的互连技术(如微凸块)可能会限制其系统性能。因此,新的键合技术(如铜对铜键合)成为克服这种有限的潜在解决方案。


C 晶圆级封装

晶圆级封装 (WLP:Wafer-Level Packaging) 技术对基于先进芯片的结构具有重要意义,因为它可以实现高互连密度,减少互连延迟,增加带宽。把芯片扇出来 I/O 信号,而非使用传统的连接(例如引线键合或 C4 沉孔),能达到高集成密度, WLP 适用于高性能系统。在传统的 WLP 中,KGD 环氧模塑料被封装 (EMC:epoxy mold compound) 在中间形成重构晶圆。


然而,因为 EMC 热膨胀系数与芯片之间的 (CTE) 不匹配,EMC 可能会导致制造问题,导致翘曲和芯片移动/移位。此外,材料的低热导率使得大功率系统的功率损失变得困难。因此,已经建议更换材料来嵌入/包装芯片。


D 3D 架构

3D HI 技术是一种非常有前途的方法,可以满足 AI 计算系统需求。使用 TSV 与细间隔连接技术(如微凸块或混合键合),3D 高带宽和低延迟系统可以通过堆叠来实现。许多半导体公司都在开发自己的产品 3D 包括英特尔在内的结构 Foveros 、三星的 X-Cube和 AMD 的 3D V-Cache 商品,本产品采用台积电集成芯片系统 (SoIC) 技术。SoIC 技术将 SoC 分成多个芯片,这些芯片可以重新整合到各种芯片中。 3D 配置中。这样就可以灵活地整合不同的技术节点,


无源和有源芯片的材料和芯片尺寸(如图所示 为了支持超越,2) 20 Tbps 内存带宽。


与传统的 3D IC 与微凸块相比,混合键合的键合密度大大提高 16 倍数,并且减少 IR 降低等电寄生效应,降低每个人的能耗。除更加细致的互连间隔外,SoIC 该技术还具有较好的金属走线密度和较薄的键合层,能提高热量。但是,这种技术面临着传统。 3D IC 类似的测试。由于表面清洁度严格,化学机械抛光 (CMP) 要求,越来越难缩小混合和键合间隔。


值得注意的是,3D 由堆栈总数和底部芯片大小决定系统带宽。虽然增加了 3D 堆栈中的芯片数量可以增加内存带宽或计算能力,但组装的复杂性和成本可能会显著增加。此外,排热和机械稳定性变得更加困难。建议将液体冷却作为一种有利于散热的潜在解决方案 ,但是,这个领域已经超出了本文的讨论范围。



近期,使用 WLP 技术的其他 3D 还出现了结构。M.-J. Li 其他人提出了一种叫做三维集成芯片封装的晶圆级芯片重构技术。 (3D-ICE),其中多个芯片封装在低温下 在SiO2中形成重构 SiO2 层,如图 3 所示 。为了达到高密度,SiO2层可以进行后处理。 3D HI。英特尔还提出了准单芯片。 (QMC:quasi-monolithic chip) 这是一种新的 3D HI 结构,其中芯片也包装在超厚二氧化硅层中。作为一种封装材料,SiO有许多优点。由于其低损耗特性,可以促进高速信号传输,基本上不会有芯片移动或移位,而且适合现有的CMOS制造工艺,从而模糊了封装处理和设备处理之间的界限。


尽管SiO2具有优异的电气性能,但是这种材料的热导率较低,这可能会导致热性差。因此,A. Victor 等待提出了一种芯片重组工艺,包括集成散热器。30 µm 厚厚的无源芯片被封装 15 µm 厚的 ICP-PECVD SiO2中 。蚀刻附着在芯片上方的氧化物,然后在芯片上电镀。 36 µm 的铜。单片铜散热器可以帮助降低芯片层的最高结温,从而解决大多数问题 FOWLP 电气和热性能测量问题的解决方案。


人工智能异构集成趋势


A HI 目前的产品格局

人工智能的快速发展推动了人工智能的发展 HI 结构的各种商业部署,这些结构专门用于加速最大的人工智能工作负荷。在本节中,我们对最近报告的行业产品进行了调查,并在表格中。 2 他们的规格在中间总结。


2024 年,Cerebras 推出了 WSE-三是晶圆级人工智能加速器,速度为: WSE-2 两倍,以训练比为目的 GPT-4 和 Claude 大 10 倍的模型。有趣的是,Cerebras 超越摩尔定律,采用传统的设备缩放和晶圆级集成。使用台积电 5 纳米技术,在单个晶圆上生产4万亿个晶体管,芯片尺寸约为 GPU 的 57 倍。但是,为了实现内存空间的扩展,运算内存部件是分开的,所以单个内存部件 WSE-3 这个系统可以比较 10,000 个 GPU 集群更有效地存储和训练,具有更高效的存储和训练 24 万亿参数模型。


相比 Cerebras,其它半导体公司采用先进的封装技术进行大规模设计。 AI 系统。Nvidia 宣布推出 GB200 Grace Blackwell 这个芯片由两个芯片组成 Blackwell GPU 和一个 Grace CPU 构成。这个芯片是专门为了超越而设计的 10 万亿参数和 384 GB 大型语言模型的片外内存设计,设备总功率为 2700 W。为了实现这个目标,Nvidia 晶圆上芯片基板采用台积电。 (CoWoS)-L 封装技术。本封装技术采用局部硅互连技术 (LSI) 为了实现大面积、带宽和低延迟的高性能系统,芯片和重构中介层。


AMD 在其 MI300X 小芯片方法用于封装,中介层技术与中介层技术相结合。 3D 为了实现高性能和内存带宽的堆叠。MI300X 由多个 GPU 小芯片、I/O 芯片和 192 GB 高带宽内存 (HBM) 构成,总设备功率为 750 W。CPU 复合芯片 (CCD) 加速器复合芯片 (XCD) 以 3D 方式堆叠在 I/O 芯片 (IOD) 为了实现低信号延迟,上。最后,使用大型硅中介层集成 3D 堆栈和高带宽内存 (HBM) 实现高性能系统的芯片 。


英特尔的 Gaudi-3 利用其内嵌式桥接芯片技术,加速器产品将两个英特尔计算芯片和 128 GB HBM 为了加强大规模的集成, AI 系统。类似于其它基于桥接的中介层技术,EMIB 允许英特尔提高设计功能,降低装配成本。尽管 Gaudi-3 加速器不如 Nvidia 的 H100 实力雄厚,但却是一个经济高效的高性能系统。


最后,特斯拉依靠它 Dojo 进入了 AI 市场上,这是一个针对大型神经网络训练的优化芯片。


Dojo 总设备功率为 400 W,它比竞争对手低得多,是专门为处理驾驶状态的实时数据而设计的。特斯拉采用台积电集成风扇晶圆系统 (InFo-SoW) 实现高密度、低延迟系统的技术。


总而言之,随着人工智能模型的规模和复杂性的不断增加,技术已转变为 HI 和新兴 HI 技术。




B 间接接口和通信协议

随著单一系统内芯片数量的增加,芯片间 (D2D) 对各部件之间的数据移动,接口变得越来越重要。AMD 的 Infinity 英特尔和Fabric的高级接口总线 (AIB) 是 D2D 接口,用于它 AI 在加速器产品中,延迟最小化,带宽最大化。


但是,随着系统的日益多样化,芯片由不同的供应商提供,通用芯片互连 Express (UCIe) 协议已经成为一般行业的标准 。标准 D2D 特别是对于大规模的设计灵活性和可扩展性,协议尤其重要。 AI 和 HPC 系统和网络系统。图片 4 对异构计算差异标准协议的摘要进行了展示。


玻璃封装


A 玻璃芯基板封装的出现

AI 一般来说,应用程序需要更大的中介层和非常高密度的连接来实现高带宽。这些严格的要求加上可靠性和性能,需要开发和实施先进的封装技术来构建大型封装。


适用于 AI 和 HPC 使用更先进的封装技术,使用玻璃作为核心基板,由于其诸多优点,最近引起了极大的关注。 。英特尔最近展示了他们的第一个玻璃基板检测芯片,并宣布他们正在向玻璃封装发展轨迹,以满足更强大的计算需求。(图 5(a))韩国 SKC 的子公司 Absolics Inc. 也开始准备小批量制造。(SVM)玻璃基板(图片) 5(b)),以亚马逊为目标,Meta 以及微软等超大型公司为潜在用户。


B 玻璃芯封装的优点

通过提高信号完整性、支持高密度互连、集成光通信、提高热管理、保证可靠性和可扩展性,增强了玻璃中介层的应用。 AI 采用半导体封装的带宽能力。这一特性使得玻璃中介层实现了高性能计算和高级 AI 重要的功能部件。玻璃表面光滑/表面粗糙度极低,可实现细线与空间的缩放,这对实现高密度的互连尤为重要。


另外,玻璃由 Si-O 键组成的表面结构有利于将各种聚合物材料粘附在一起,用作介电树脂和感光树脂。将玻璃的低介电常数与多层中介结构的低介电常数累计层相结合,可以显著减少系统的延迟。这一特性在最大限度地减少信号传播延迟和邻近连接之间的连接中起着至关重要的作用,尤其是对高速电子产品和共封装光学器件。


此外,玻璃基板减少了相互连接的电容,从而实现了更快的数据传输,提高了整个系统的性能。在数据中心、电信、高性能计算等速度非常重要的关键应用中,玻璃基板的选择大大提高了系统效率和数据吞吐量。


此外,玻璃低介电常数还支持优异的阻抗控制,这对于保持整个电路的信号完整性尤为重要。这一特性在射频应用中尤为有益,因为精确的匹配电阻对于提高功率传输和最大限度地减少信号损失尤为重要。玻璃基板可以设计和生产具有更高可靠性和特性的高频电路,以确保整个基板表面的电气特性一致。


另外,与有机封装相比,玻璃具有优异的尺寸稳定性,有助于提高固层精度,这是实现多层玻璃中介层相互连接密度的关键。这样不但有助于减小焊层尺寸,而且有助于将细线和布线缩小到11。μm,这样就可以增加多层中介层中每一个再分布层的IO数量。另外,玻璃基板的热膨胀系数(CTE)在3-12 ppm /◦C范围内。这样可以减少玻璃和硅(CTE=3 ppm/◦C)以及玻璃和印刷电路板的芯片(CTE=17 ppm/◦C)之间的 CTE 不匹配的问题。<1μm,从而增加多层中介层中每个再分布层中的IO数量。此外,玻璃基板的热膨胀系数(CTE)在3-12 ppm /◦C范围内。这可以减轻玻璃与硅(CTE=3 ppm/◦C)芯片以及玻璃与印刷电路板(CTE=17 ppm/◦C)之间的 CTE 不匹配问题。


可结构玻璃是玻璃芯基板封装和中介层应用的另一个优点。


下列任何类型的玻璃结构都可以:(a) 玻璃埋孔 (TGV:Through Glass Vias),(b) 盲玻璃腔 (BGC:Blind Glass Cavities),或 (c) 玻璃腔 (TGC:Through Glass Cavities)。TGV 深蚀刻刻可通过激光诱导。 (LIDE:Laser Induced Deep Etching) 为了最大限度地减少生产过程中微裂纹的积累,首先对玻璃进行局部激光修改,然后进行湿化学蚀刻工艺。BGC 和 TGC 可通过激光加工轻松形成,必要时可进行湿蚀刻工艺。BGC 和 TGC 为了嵌入芯片 BGC 和 TGC 非常重要的是,它被称为嵌入玻璃面板。 (GPE)。制造所需尺寸的内腔,并使用精度为几微米的自动芯片捡取和放置工具,将芯片放入内腔。GPE 工艺特别适用于异构集成,包括不同尺寸和功能的芯片(包括电容器、磁电感应器等无源元件)内置于封装中。这样,电容器和电感器就可以保持靠近电力输送/IVR 等待应用所需的位置。图 6 显示了 GPE 典型的工艺流程在中间使用。



利用先进的 GPE 工艺,可轻松将热解决方案集成到封装中,消除热量。例如,对于含有的, TGC 的 GPE,隔热材料和散热器可以粘附在玻璃基板的背面。 BGC,散热器可放入薄化/研磨基板后消除热量。GPE 结构可以很容易地从中获得 2.5D 结构调整为包括 3D 集成,可采取以下措施之一:


(a)例如,逻辑芯片可以在玻璃芯的顶部和底部使用 RDL 将其嵌入玻璃腔中,然后在顶部组装一个存储芯片,以生成一个短的连接位置和一个小的形状尺寸。 3D 结构,从而显著降低封装高度;


(b)无源芯片可以嵌入结构化玻璃中,多个芯片可以通过倒装芯片技术在玻璃封装结构上组装。 ;


(c) 此外,GPE 完成了共封装光学器件等先进的封装理念,其中电子芯片可以嵌入玻璃内腔(以上排热解决方案选择在芯片背面),光子芯片可以组装在封装顶部。 (PIC)。通过将 PIC 安装在顶部,光纤耦合器和任何需要的排热解决方案都可以很容易地安装在顶部。


最后,除了各种优越的性能外,玻璃对封装中的基板格式的限制更少。虽然硅只能在圆形晶圆中加工,但玻璃可以实现面板技术,从而降低成本。例如,300 可以容纳mm晶圆 2,500 个 6 mm x 6 Mm尺寸的封装,而且 600 mm x 600 可以容纳mm面板 12,000 个封装。


C 当前玻璃限制

玻璃基板的固有易碎性带来了巨大的挑战,尤其是当行业选择更薄的基板来满足更高的设备集成度和特性的需求时。薄玻璃板有时会变薄 100µm 或者更薄,特别容易在处理和生产过程中损坏。这种压力下开裂或损坏的风险凸显了专用设备和定制工艺的重要性,旨在安全处理这些材料。


玻璃除处理困难外,还表现出相对较低的散热性能。尽管玻璃的传热性能优于有机层压板,但与硅相比,玻璃的传热性能较差。为克服与玻璃传热低有关的限制,已证明铜结构(如埋孔封装埋孔) (TPV)、铜块及重分布层 (RDL) 内部铜线)与玻璃基板相结合的方法 [107]。另外,下一代热界面材料用于内嵌式和基板封装。 (TIM) 为了实现芯片最大的热传递,还在积极开发,关键是减少热界面电阻。


致谢

本文作者包括来自佐治亚理工学院的MADISON MANLEY, ASHITA VICTOR, HYUNGGYU PARK, ANKIT KAUL,MOHANALINGAM KATHAPERUMAL, AND MUHANNAD S. BAKIR,特此感谢。


本文来自微信公众号“半导体行业观察”(ID:icbank),作者:IEEE,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com