电子产业一站式赋能平台

PCB联盟网

搜索
查看: 158|回复: 0
收起左侧

AWS Trainium2 架构与网络技术

[复制链接]

784

主题

784

帖子

7233

积分

高级会员

Rank: 5Rank: 5

积分
7233
发表于 2024-12-6 08:00:00 | 显示全部楼层 |阅读模式
引言
& s7 x7 q7 D  Z+ n2 `" }& zAmazon 在人工智能加速器领域正在通过其 Trainium2 芯片架构取得进展,旨在与 NVIDIA 在人工智能训练和推理领域展开竞争。本文将详细探讨 Trainium2 的架构、网络功能和成本等关键方面[1] 。
/ t3 M5 T3 ~6 i& x

4xbsgsoswjt64071050008.png

4xbsgsoswjt64071050008.png

, R' y* h. O/ m  ^" F5 b% V# I9 K& ?. r

speir54thtv64071050109.png

speir54thtv64071050109.png

4 g9 e8 m0 o" u+ T  ]0 `" s图1:展示 AWS 硬件执行 AI 工作负载的艺术表现,象征着 AWS 对 AI 加速的投入。# E3 y5 A6 o9 i

5 T' J/ D& h) Y+ n; w, o核心架构概述
, s5 |7 k+ r" I" LTrainium2 架构相比前代产品有显著提升,每个芯片提供 650 TFLOP/s 的密集 BF16 性能,配备 96GByte HBM3e 内存。每个 Trainium2 芯片包含两个计算 chiplet 和四组 HBM3e 内存,通过 CoWoS-S/R 封装连接。( C1 k5 `8 m! ~% W6 N% @! L  w/ |2 y3 q

gcluvrifk1w64071050210.png

gcluvrifk1w64071050210.png

2 T. E! Z' ^: l$ {4 m5 ^! {# {图2:NeuronCore-v2 的详细架构,展示了张量引擎、向量引擎、标量引擎和 GPSIMD 引擎与 HBM 内存的集成。" f2 K+ o7 Z4 f0 c

" n& l4 R, \& G& t$ i! C神经核心架构包含四个主要引擎:
: @# ~2 d0 I# f张量引擎:128×128 脉动阵列,用于矩阵运算, N2 d2 R" K/ N* g! }% P
向量引擎:处理向量运算和归一化
* [: h/ g. A' M- W# Z标量引擎:管理按元素运算
+ V" Z) G  s3 }  ?8 R1 v3 x6 jGPSIMD 引擎:执行任意 C++ 运算, t4 [5 L  h8 e- W" F4 f$ a6 \9 E* M
8 z8 Y% a+ k' I4 U% ~2 G7 }0 ~
服务器架构与部署: i' z" N& P1 |! r" h% V: O
Trainium2 提供两种主要规格:: d% ]; F5 W7 z0 i( d% u- t: j% \3 _
Trainium2 (Trn2):每服务器16个芯片配置% w- G  x" `5 E6 w( z( D* @  E
Trainium2-Ultra (Trn2-Ultra):跨四台服务器的64个芯片  |' c2 A5 U5 S2 g4 k1 {, H) t
# X+ a4 |7 k7 ^, i

lzvbysrl5nc64071050310.png

lzvbysrl5nc64071050310.png
. [4 d9 ?' v9 e. ~% H$ m; V/ Z
图3:Trainium2 服务器架构,展示了计算托盘和 CPU 头托盘在18机架单元中的排列。
( v2 Z8 I) W. x
- M' B( t" I1 [: }5 ^, @' m0 E8 P物理服务器架构占用18个机架单元,包括:
+ o' S. Q; p* A; U3 Q' M4 q一个 2U CPU 头托盘! L+ |3 Y+ d( r+ _- ?
八个 2U 计算托盘
2 B8 \, L/ n" D! v: g3 O. O每个计算托盘包含两个 Trainium2 芯片* }' M/ e. n* h1 b1 N* B( Z9 u2 I
计算托盘中没有 CPU(JBOG - "仅GPU组")6 |. D* H9 P: ~5 o$ d4 A
) q3 r. l/ m6 J0 h9 A4 k7 ?
网络功能
5 \& b9 W" c1 M  M# yTrainium2 的网络基础设施整合了多项技术:
4 L/ D8 V! m3 u% u( QNeuronLinkv3(扩展上行网络)% }+ o4 Y! H; @
弹性 Fabric 适配器 EFAv3(扩展出口网络)
# |1 [# P; A8 O' [1 z前端和存储网络/ z, E6 i2 t" K1 z0 ~, L! H4 k
带外管理网络
7 I8 Y& q( @: @  P( x% s! Q
2 l- F4 I, u1 W" L+ |1 F: u

opmhs2rj1my64071050410.png

opmhs2rj1my64071050410.png

! i# V( H3 Y0 v, t6 }图4:4x4x4 三维环形网络拓扑,显示节点间连接和带宽规格。
" m% M  B8 J# T. p4 [' D4 w' U; C) W, t( _; g# P0 q- d5 }* ~
供电创新7 M+ O1 s/ `6 u
Amazon 在 Trainium2 中实施了垂直供电,这在芯片供电管理方面是重大进展。3 b% F/ F7 I$ L

jpgwtrojuah64071050511.png

jpgwtrojuah64071050511.png

! r  p* X* u. L- [图5:传统与垂直供电系统的比较,展示了改进的供电效率和散热管理。2 k- A% m9 B4 J2 Y$ ?

& K: s6 Z; H" T+ z4 j2 Y+ c  p成本分析与性能, i0 Z) @# r3 y5 U: T. m
与 NVIDIA 的 H100 相比,Trainium2 的总拥有成本显示出有利的经济性:
8 s/ K4 E! y; y  C6 ^* @/ R: J. x

pj03qewwrbu64071050611.png

pj03qewwrbu64071050611.png
2 Z9 Q+ V9 ]% T
图6:Trainium2 和 H100 配置的详细成本比较,突显了 AWS 解决方案的经济优势。, ]$ Y* {& X1 ?0 Y# X' o

. p7 E- [3 y% ?主要经济因素包括:
9 T! [: t9 }6 Q+ W, k较低的前期资本成本(每芯片4,000美元,相比H100的23,000美元)
1 F% a" ]. h- ~. T3 E, U# ^, [5 F& J9 H8 z由于更好的能效而降低运营成本
+ V- [0 \$ Y7 u& _在部署生命周期内更有利的总拥有成本
  C$ I1 [8 a* [% n" d" h
" H8 w7 L& W, _8 i
Project Rainier 实施* X5 Q/ ]' P9 T
AWS 目前正在为 Anthropic 部署一个名为"Project Rainier"的大型集群,配备40万个 Trainium2 芯片。该部署展示了 Trainium2 可以有效运行的规模。
4 u1 j3 x1 }' R

hv5dm52fngf64071050712.png

hv5dm52fngf64071050712.png
+ M) O0 y! ?1 F; _; c: k7 v) p" Q  L8 s
图7:AWS 印第安纳数据中心园区的空中视图,Project Rainier 正在此处部署。
/ k2 P8 N0 d$ r! g3 X0 o! x0 x% q  v2 J4 `' ~8 Q5 ~
软件栈与开发工具7 `8 y* G' l& A; m) y0 g( s* t$ b
Trainium2 的软件生态系统包括:
. C7 E  ?- Q* V, L/ zNeuronX 集体通信库
2 b% f9 X0 F+ p2 f通过 TorchDynamo 的 PyTorch 集成
9 u9 ]7 ~2 s; n) i$ G& P( }JAX 测试版支持/ B! t+ g3 Y' u3 F3 g
用于低级优化的 Neuron 内核语言(NKI)9 Q  A1 q. g+ ^& ^4 _1 h

/ l7 O( s/ H# X! G1 A$ r

gyfcekujxgb64071050812.png

gyfcekujxgb64071050812.png
" C; a* K- w' Q- m
图8:Neuron 分布式事件追踪界面,显示全面的调试和分析功能。2 H7 X2 p+ i6 C( `8 J3 O; z& E

- ?$ S- e# y2 Y1 ~( ^) I' @" D8 c$ Z未来发展/ q& V" C6 E& x5 C4 v6 u
Trainium2 代表了 Amazon 在 AI 加速器领域的重要投入。凭借具有竞争力的价格和性能特征,对 NVIDIA 在 AI 训练市场的主导地位构成了显著挑战。Project Rainier 的成功和 Anthropic 的采用将是 Trainium2 实际效果的重要指标。
" C- y# ~( I  K, f7 m

gerd3esh4cn64071050913.png

gerd3esh4cn64071050913.png

1 B& i; m3 w: t6 p& L' F+ [图9:下一代供电架构,展示了 AWS 对未来可扩展性和效率的投入。
* K3 k1 s, S" X
! D( L1 `& F/ u  i$ {7 F5 L通过对供电、网络功能和软件集成的严密关注,AWS 创建了一个有竞争力的平台,解决了现代 AI 加速中的许多挑战。该平台的发展将可能影响 AI 硬件开发和云服务供应商策略的未来方向。
- X3 {- k+ e5 \  ?" S. V' I, l  X. [' w% a3 u0 l: W8 v1 q  [
参考文献) q2 I2 m; V) t
[1] D. Patel, D. Nishball, and R. Knuhtsen, "Amazon's AI Self Sufficiency | Trainium2 Architecture & Networking," SemiAnalysis, Dec. 3, 2024. [Online]. Available: https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/
- U- E/ m6 \1 l9 \+ h* M3 i1 ^, K. ?+ X0 q! a; n
END
! R$ [* u  m1 ~- }  ^6 i

" V5 t5 Y% h; b- ?! R7 t$ d3 H/ C: g/ J. T  U( b5 Z! Z, W
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
* }8 W! l6 f& N7 E7 b点击左下角"阅读原文"马上申请
6 K1 R# e5 w, A, a' ^8 F: ~
+ w! g* L# l; [2 ?0 F欢迎转载
% w, }4 ^; ?; _) F0 K8 ^
9 g* V7 r  J" J转载请注明出处,请勿修改内容和删除作者信息!
- i5 j0 u. u# L% p. O  ~; P/ C5 p; i# `% l" `

. q7 \: H9 p- a2 m& x# t7 |

" i; @& b" X) f- ^6 q1 [

nlj50ijxcp464071051013.gif

nlj50ijxcp464071051013.gif
5 |9 H& H- v6 ]9 W, a

3 v% V9 Q8 h7 z: t& S关注我们; E6 [* ~  X! Q& X
  N$ n$ p8 R1 c4 B0 }1 G6 I

* W% Y. j* t' l/ g- G' j

1g21mosmfw364071051113.png

1g21mosmfw364071051113.png
7 m$ o& n9 [8 P  u/ H+ J
- ]. g/ S# k: B* p2 |' `6 G' Y2 z

exohpa2ha4m64071051213.png

exohpa2ha4m64071051213.png
6 d8 N' h# Q' s% t/ G# y
' p( G' s8 {6 r" U

w0egxzsvpbt64071051313.png

w0egxzsvpbt64071051313.png
+ n4 R, a- \1 \  s* [
                      $ t2 f  `- f6 q+ h
) i  ?; \8 a4 |) G$ N
. g5 V( m+ E8 z: T( G/ A" c2 v

1 r1 H7 Y6 q7 R3 K关于我们:. V! T+ X: T* f. x
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。9 H( q( Z# O" Q/ m8 {
7 ]4 A# v8 p  w% ^# b
http://www.latitudeda.com/
, w- ]' m8 H/ H* W2 g4 d% o(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表