|
引言/ E1 r. P5 n+ @' X
人工智能(AI)的快速发展正在重塑网络技术的格局,特别是在光互连领域。随着我们步入新的计算时代,了解AI的发展将如何影响传输网络以及如何为这种即将到来的转变做好准备非常重要。本文将探讨AI时代传输网络未来规划的挑战和解决方案[1]。
& ^# r4 t# h- E5 \# Y$ I6 c* q/ S
r3qsegaqztn64013915130.png
% n# j% M. @0 j3 y6 a/ Y6 N
7 x% s+ }, J) P$ p* EAI的兴起及其对光网络的影响: Z( P3 f3 p5 n# m# [) B0 D
生成式AI应用的激增使光学行业处于技术演进的前沿。改进的光互连对于缓解AI集群内的带宽限制变得越来越重要。这一趋势在2024年OFC大会上成为热门话题,行业预测AI集群应用的光收发器市场将出现显著增长。
& u; b- d8 k( Y# D% i, Y1 Q" ]' `+ }* V
w4scmw1vkkl64013915230.png
' i$ @* {7 h/ A. b
图1:AI集群以太网光收发器销售预测
4 S) e0 r) C) c% L) }/ z/ g) v! T8 ~0 y- l' H
如图1所示,未来五年内AI集群光收发器的销售预计将达到约520亿美元。这一预测强调了光技术在支持AI基础设施方面将发挥的重要作用。
9 z$ V3 R4 W; k2 N* B p% F6 ]8 Z, P4 m% ]
虽然大多数注意力集中在AI集群内的短距离互连上,但考虑对AI数据中心环境之外的更广泛传输网络的影响也很重要。问题是:AI流量将如何影响大都市、长途和更长距离应用中的光传输,这些应用广泛使用相干传输技术?% y, u4 a- w+ C
, d! K* V9 Z1 v4 j. ^从过去吸取经验:应用对传输网络的影响$ M1 T0 @1 c) {8 F! U
为了理解AI对传输网络的潜在影响,回顾以前的带宽密集型应用如何塑造网络流量模式会有所帮助。让我们考虑几个例子:搜索应用:AI训练过程类似于搜索引擎爬虫收集数据进行索引,而AI推理类似于用户查询搜索引擎。虽然单个搜索相关流量可能很小,但累积效应对整体传输流量贡献显著。视频内容分发:视频流媒体的增长导致网络负担增加,特别是高分辨率内容。这个挑战通过内容缓存得到解决,将热门内容放置在更靠近终端用户的位置,以减少整体网络流量和延迟。云计算:云服务的兴起导致数据中心内部和数据中心之间的流量(东西向流量)增加,因为工作负载跨越多个站点。AI应用可能遵循类似的模式,训练数据和推理模型分布在物理上不同的位置。# y+ h5 P. `5 ~. ?. B- R% N
[/ol]
6 J& ^" k: x' ]; F: H* }. }/ D; \这些例子说明了AI应用的增长可能如何导致网络运营商需要扩展数据中心互连、大都市、区域甚至长途和海底网络的容量。' K; e+ \9 n; i* y) {
" F3 q6 K5 G" {4 l7 @- r
AI网络中的功耗-延迟平衡
1 m+ S# f5 s X+ Y; {AI基础设施发展的关键因素是AI集群和数据中心的巨大功耗需求。这个挑战让人想起云服务增长时期,当时获取便宜的电力资源推动了大型数据中心的选址。然而,电力设施限制导致采用物理分布式架构,依赖高容量传输互连来维持所需的网络拓扑。
; \4 x6 L0 Y$ s/ \9 Q
sxxzku3h4ds64013915330.png
- |' Q+ P9 G1 u5 ~$ z5 j. R
图2:由于设施功耗限制导致网络Fabric物理扩展的场景
+ ]4 y+ d2 v9 L+ a7 f V
5 v' w2 z4 d8 ?: _1 _& ]8 ?图2说明了功耗限制如何导致网络Fabric的物理扩展,需要高容量光互连。这种AI应用的分布式网络方法由于训练和推理过程的特定计算和延迟要求而带来独特的挑战。
$ s+ @, ?3 h+ q* x, o3 Y. F+ d; p8 \2 l7 i8 m" m
AI网络中的延迟考虑3 q, T0 p& G$ X% ~; c0 n- P
在设计针对AI优化的传输网络时,了解延迟要求非常重要。在AI训练阶段,AI集群内需要极低的延迟来高效处理传入的数据集。然而,收集这些数据集的过程可能对延迟不太敏感。
0 L! R0 ~+ f N
15hhzh2z3qq64013915430.png
, j2 \2 @% O1 P& h, w$ s9 S
图3:训练模式下AI集群内需要极低延迟2 P) K' Q! t y5 n# P- O
# h3 n: |. @7 W4 \图3展示了训练模式下AI集群内的延迟要求。虽然AI训练的地理分布并不理想,但功耗限制可能需要采用分布式AI训练技术来尝试缓解引入的延迟影响。7 U+ n3 @% l2 M ~( h
; [* o2 [0 M: K9 n. T3 ]0 L. `6 @
对于AI推理,目标是最小化用户查询和传输结果之间的延迟。这种延迟受查询复杂性和推理模型与用户之间的"跳数"影响。* l9 \. h0 ? R [6 w+ O9 X
la5vblzbqmd64013915530.jpg
1 U7 O) m9 R' q( ?3 N- `4 a图4:最小化AI推理的延迟: M& n. i4 d q4 c
$ E0 `# w( l! _* G4 k6 b) Q& f图4强调了最小化AI推理延迟的重要性。业界正在积极讨论如何在访问推理模型时减少延迟,以及如何有效地将训练和推理功能分布到集中式架构之外,以解决单站点功耗限制的方法。
9 _9 U4 K5 _& U+ U1 G' m/ R; l* _0 P2 Y- S$ } r
传输网络未来规划策略 |6 X1 y2 y+ }) X8 g
为了准备网络的AI驱动未来,可以采用几种策略来未来规划传输网络:投资高容量相干传输:AI网络架构的扩展可能会遵循类似于云架构的模式,高容量相干传输使物理扩展成为可能,缓解了电源限制。相干光互连已经提供每波长1.2T的性能优化转发器解决方案和400G路由器到路由器波长,并正在向使用MSA可插拔模块的800G发展。规划分布式架构:考虑到功耗限制和延迟因素,网络设计师应该预料到分布式AI训练和推理能力的需求。这种方法将需要在物理分离的站点之间建立强大的高容量互连。优化灵活扩展:随着AI应用的发展,传输网络必须设计成能够灵活扩展带宽并适应不断变化的流量模式。这可能涉及实施软件定义网络(SDN)和网络功能虚拟化(NFV)技术,以实现动态资源分配。优先考虑能源效率:考虑到AI基础设施的巨大功耗需求,专注于节能网络技术将非常重要。这不仅包括AI集群本身,还包括传输网络组件。增强边缘计算能力:为了解决AI推理的延迟问题,考虑加强边缘计算基础设施。这可能涉及将推理模型部署在更靠近终端用户的位置,并确保边缘站点与中央AI资源之间的高容量、低延迟连接。监控和分析流量模式:实施强大的网络监控和分析工具,以了解AI相关流量如何影响网络的不同部分。这些数据对于做出关于网络升级和扩展的明智决策将非常宝贵。
$ j7 `% ~1 e! S& X7 w8 N4 Z5 C* C. f$ a[/ol] ~ `6 f, M: W. z
结论
m2 `- w; H' ^7 T# E6 }: VAI应用的兴起为传输网络带来了挑战和机遇。通过从带宽密集型应用的过去经验中学习,并仔细考虑AI工作负载的独特需求,网络运营商和设计师可以为AI时代的基础设施做好未来规划。关键在于通过创新的网络架构和先进的光技术,平衡功耗限制、延迟要求和带宽需求。随着继续关注不断发展的AI领域,高容量相干传输将在塑造网络未来方面发挥关键作用,使AI基础设施能够在大都市、长途和全球网络中实现物理扩展和优化。
1 |1 D9 W J+ v; n* [ w8 g2 W5 G( a% A0 U7 N$ m
参考文献
4 t: A6 @" t; k# |6 C( b[1] E. Park, "Future Proofing Transport Networks for AI," Acacia Communications, Sep. 10, 2024. [Online]. Available: https://acacia-inc.com/blog/future-proofing-transport-networks-for-ai/' \- f; K# j% O7 Q* [( f
' }3 Z7 a Y e4 L, _7 ^* sEND; c# n' O- E% }6 A; M* c
3 \( N s- _. n. R; J8 j$ y
6 ^' l8 q4 A2 k' L/ G" d, |9 t: q7 z
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。2 D( n, V+ j0 {# y9 H0 b8 h! A
点击左下角"阅读原文"马上申请* m: \: r ?& L$ J+ ~0 |5 Z" X
$ p. O; K$ l+ Y0 x1 l7 [
欢迎转载
* u! I! b& u' D9 ?/ R) h5 s" f! R
9 S5 m7 l% C# r0 g# K转载请注明出处,请勿修改内容和删除作者信息!
+ N: X7 B, F I% E+ K- H) n3 F2 T5 f$ Z! }; p
" B, ^4 c8 a4 R, m) _6 @$ V
8 _& y& e9 W$ V' @# M8 O9 C$ |3 a
naczugh53dt64013915630.gif
; ]" q. b7 `2 U* U
3 m) h. |% ~2 J b* c6 g关注我们
0 d6 i) V0 i1 W d, N
4 L1 j& j! p$ N3 b; h% d7 @
, q4 q h8 e- t N( ^# A
1f3lozyzcax64013915730.png
( b, R: r# a! S |
1 O$ j6 ~! o- I. f( K
iwjcc3g1jqy64013915831.png
/ |- ^2 i' E( [) L" M: e% \
| 4 b/ r4 N# R1 t& B
2glz32gqj4w64013915931.png
: K. I o- B6 E+ A' W | * u3 J5 N1 `; b4 i; P
! V/ J7 q) L, O
; g5 F m3 S1 ]* u, R3 Z( f$ r$ i& S
关于我们:7 m) H8 l6 |) B/ J: `' q. T
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
' l" o1 Z4 i, T6 [7 Y" F. C* k$ z: m$ Z0 U; Y5 ] j
http://www.latitudeda.com/9 a" \/ Q) y4 \$ W, h0 m3 [; G4 A
(点击上方名片关注我们,发现更多精彩内容) |
|