人工智能时代的互连技术如何演进以应对指数级增长的挑战

逍遥设计自动化 · 发表于 2024-10-11 08:00:00

引言
人工智能（AI）正以惊人的速度革新科技领域。随着AI模型规模和复杂度的增长，对计算基础设施提出了极高的要求。本文探讨互连技术如何演进以应对这些挑战，确保AI系统的基础架构能够跟上创新的步伐[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar，特此感谢！

AI模型的指数级增长
要理解互连技术面临的挑战规模，首先需要了解AI模型的爆炸性增长。

vyp1tfrps3i64077134228.png

图1：AI模型参数数量随时间的指数级增长，显示每年大约增长10倍。

如图1所示，AI模型的规模（以参数数量衡量）每年增长约10倍。这一增长速度远远超过了硅技术性能的提升，后者通常遵循摩尔定律每两年翻一番。结果导致对计算能力的需求不断增加，因此需要更高效的互连技术来连接这些庞大的系统。

硅技术的进步
为了应对这一挑战，芯片制造商正在推动硅技术的极限。台积电（TSMC）作为领先的半导体代工厂，在这一领域处于前沿：

he2wgdix0bs64077134328.png

图2：台积电从5纳米到2纳米工艺节点的改进，突出了在功耗效率、性能和芯片密度方面的提升。

从5纳米到2纳米工艺的过渡中，我们看到几个关键指标有显著改善：

功耗效率：在相同速度下，从5纳米到2纳米，功耗降低了50%。

性能：在相同功耗下，从5纳米到2纳米，性能提升了33%。

芯片密度：从5纳米到2纳米，晶体管密度提高了50%。
[/ol]
这些进步对满足AI系统的计算需求非常重要，使得生产更强大、更高效的芯片成为可能。然而，仅靠硅技术的改进还不足以跟上AI的需求。

先进封装技术
为了充分利用这些硅技术进步，业界正转向先进的封装技术。台积电的CoWoS（晶圆上芯片上基板）技术就是一个典型例子：

m1thw5ndpcl64077134429.png

图3：台积电的CoWoS（晶圆上芯片上基板）2.5D/3D封装技术，说明了如何将多个芯片和HBM内存集成到单个封装中。

CoWoS技术允许将多个芯片和高带宽内存（HBM）集成到单个封装中。这种方法可以实现组件之间更高的带宽，并且与传统封装方法相比，可以有效地将可用硅面积翻倍。

高速互连：AI性能的关键
为了最大化AI性能，高速互连技术必不可少。封装内和封装外接口都在快速发展以满足这些需求：

封装内芯片间接口：速度达到32-64 Gbps NRZ，能量效率低于0.5 pJ/Bit。提供5到10 Terabits/mm的边缘密度，允许同一封装内芯片之间实现极高带宽的连接。

封装外高速SERDES：当前技术支持224G-PAM4，448G-PAM4正在研发中。这些接口实现了低于3 pJ/Bit的能量效率，提供1到2 Terabits/mm的边缘密度，可在不同封装或板之间实现高速连接。
[/ol]
这些高速SERDES的功耗效率也随着每一代硅工艺技术的进步而提高：

03tlcbxmtp264077134529.png

图4：高速SERDES功耗效率在不同工艺节点和数据速率下的演进。

从图4可以看出，高速SERDES的能量效率随着每个新工艺节点的出现而显著提高。例如，从5纳米到2纳米的过渡预计将使200G SERDES的每比特能耗减少近一半。

带宽挑战
随着AI模型持续增长，互连技术的带宽需求正在飙升。为了说明这一点，让我们看看使用200G SERDES在不同基板尺寸上可能实现的带宽：

wq1jzuwokag64077134629.png

图5：使用200G SERDES在不同基板尺寸上可能实现的单向和双向带宽，从单个芯片到多芯片基板。

如图5所示，使用200G SERDES，一个25x25毫米的单个芯片可能支持高达100T/200T的单向/双向带宽。扩展到100x100毫米的多芯片基板，这可能增加到惊人的400T/800T带宽。

向更高速互连的快速过渡
AI网络行业正在快速向更高速的互连技术过渡，以满足这些带宽需求：

mqjgckzx4m164077134729.png

图6：AI网络中高速互连的快速采用，2025年800G端口将占主导地位，2027年1600G端口将成为主流。

如图6所示，AI网络行业正在快速向更高速的互连技术过渡。到2025年，800G（8x100G）端口预计将主导市场。这一趋势将继续，1600G（8x200G）端口将在2026年开始增长，并在2027年成为主导技术。

功耗挑战与线性光学技术
随着我们追求更高带宽，功耗成为关键问题。对于大型AI集群，光学器件的功耗需求可能相当可观。为了说明这一点，让我们考虑一下大规模AI集群的功耗影响：

mgdrmipyafe64077134829.png

图7：比较大型AI集群中不同光学技术的功耗，突显了LPO提供的显著功耗节省。

如图7所示，在一个拥有648个1600G端口的机架中，选择不同的光学技术会对功耗产生显著影响：

铜互连（用于短距离）消耗最少的功率。

线性可插拔光学模块（LPO）与铜相比，功耗增加5.4%。

线性只接收（LRO）光学技术功耗增加10.8%。

数字信号处理（DSP）光学技术功耗增加16.2%。

当扩展到100,000个XPU（AI加速器）的集群时，功耗影响变得更加显著。这样的集群可能需要640万个1600G光学接口。使用LPO可以比DSP光学技术节省128 MW的功率 - 光学功耗降低32%。

这些数据突显了为什么线性光学技术，特别是LPO，正成为解决AI互连功耗挑战的重要解决方案。

光学互连的演进
向更高效的光学互连技术的演进已经持续多年。让我们简要回顾一下光学集成的一些历史尝试：

xykbqedq1fi64077134930.png

图8：2010年左右的IBM Power 775系统，这是最早使用光电共封装的系统之一。

图8所示的IBM Power 775是一个创新性的系统，早在2010年就采用了光电共封装技术。虽然它展示了集成光学互连的潜力，但这类技术的广泛采用一直受到可制造性和可维护性挑战的阻碍。

线性可插拔光学模块（LPO）的兴起
鉴于这些挑战，业界现在正转向线性可插拔光学模块（LPO）作为更实用的解决方案。与基于DSP的光学技术相比，LPO提供了显著的功耗节省，同时保持了可插拔模块的灵活性和可维护性。

为了加速LPO的开发和采用，十二家行业领导者组成了LPO多源协议（MSA）。这一合作旨在为线性可插拔光学模块制定规范，112G LPO MSA规范即将完成，预计将在2024年ECOC大会之前发布。

互连技术的未来：超越112G
虽然112G LPO即将面世，但业界已经在展望224G-PAM4 LPO。这一下一代技术面临一些挑战：
1. 通道要求：224G LPO需要干净、低损耗的电气通道，理想情况下从芯片到模块的损耗应小于15 dB。
2. Fly-over Cables：为了满足这些严格的通道要求，Fly-over Cables可能会发挥关键作用。这些电缆可以显著减少通道损耗和干扰。

skuplzrpfgf64077135030.png

图9：Fly-over Cables的示例，包括NVLink交换机刀片到NVL72背板的连接，以及Luxshare 224 / 448G CPC互连。

3. 高性能组件：224G LPO将需要先进的高性能跨阻放大器（TIA）和线性驱动器。许多这些组件已经在开发中。

业界正在快速发展，预计在2025年的OFC大会上将有多家厂商展示224G-LPO。这项技术可能特别适用于网络接口卡（NIC）和AI加速器（XPU），因为这些场景中较短的电气通道使实施更为简单。

对于交换机，较长的电气通道带来了更多挑战，但模拟结果表明，使用飞越电缆可以实现224G-LPO。目前正在进行大量测试，以验证这些模拟结果并为实际部署做准备。

结论
展望AI互连技术的未来，很明显线性接口光学技术 - 包括LPO、近封装光学（NPO）和光电共封装（CPO） - 代表了前进的方向。这些技术提供了支持下一代AI系统所需的高带宽和低功耗。

在这些选项中，LPO因其性能、功耗效率和实用性的结合而脱颖而出。LPO提供了几乎所有更集成解决方案（如CPO）的功耗优势，同时避免了这些技术在制造和可维护性方面的挑战，这些挑战在过去阻碍了其广泛采用。

AI的快速创新步伐正在推动互连技术的同步快速进步。随着我们向更快、更高效的系统迈进，硅工艺、高速接口和光学技术的创新将在塑造AI基础设施的未来中发挥关键作用。

让互连技术跟上AI指数级增长的挑战是巨大的，但业界正在迎接这一挑战。通过像LPO MSA这样的协作努力以及持续的研发，我们正在看到新一代互连技术的出现，这些技术有望释放AI系统的全部潜力。

随着我们向前发展，很明显AI的未来不仅将由算法和计算能力的进步塑造，还将由将这些系统连接在一起的关键互连技术塑造。通过继续推动高速、低功耗互连的可能性边界，可以确保基础设施能够支持下一代AI突破。

未来展望
进一步的工艺改进：随着半导体工艺继续向更小的节点发展，我们可以期待看到更高的能效和更高的集成度。这将为AI系统提供更强大的计算能力，同时保持或降低功耗。

3D集成：三维集成技术可能成为未来互连技术的一个重要方向。通过垂直堆叠芯片，可以显著减少信号传输距离，提高带宽，降低延迟。

新材料的应用：除了硅，其他材料如氮化镓（GaN）或碳纳米管可能在未来的互连技术中发挥重要作用，提供更高的性能和能效。

光学技术的进一步集成：虽然LPO目前看来是最实用的解决方案，但长期来看，我们可能会看到更深度集成的光学解决方案，如硅基光电子技术的广泛应用。

AI辅助设计：AI不仅是这些互连技术的最终用户，还可能成为设计和优化这些技术的工具。AI辅助的电子设计自动化（EDA）工具可能会加速新一代互连技术的开发。

量子互连：随着量子计算的发展，量子互连技术可能成为一个新的研究方向，为未来的量子AI系统提供必要的通信基础。
[/ol]
参考文献
[1] Bechtolsheim, "Can Interconnects Keep up with AI?," Arista Networks, Jul. 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

( l# B1 S0 c6 T/ Q( g, h7 J

5nkf3xkvxf164077135130.gif

关注我们

qemuvwuxqwr64077135230.png

dn1nffibzgg64077135331.png

touqzlsyh0o64077135431.png

: h( u( L0 h# [/ z0 [

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

人工智能时代的互连技术如何演进以应对指数级增长的挑战

发表回复

精选推荐

浏览过的版块