电子产业一站式赋能平台

PCB联盟网

搜索
查看: 92|回复: 0
收起左侧

AWS Trainium2 架构与网络技术

[复制链接]

708

主题

708

帖子

6166

积分

高级会员

Rank: 5Rank: 5

积分
6166
发表于 2024-12-6 08:00:00 | 显示全部楼层 |阅读模式
引言
$ w! {5 `  e& {/ N- N* d5 g- zAmazon 在人工智能加速器领域正在通过其 Trainium2 芯片架构取得进展,旨在与 NVIDIA 在人工智能训练和推理领域展开竞争。本文将详细探讨 Trainium2 的架构、网络功能和成本等关键方面[1] 。6 v/ K- s; _: z, a7 a8 R$ S

4xbsgsoswjt64071050008.png

4xbsgsoswjt64071050008.png
5 _% i$ ?# d: l
8 g2 h# ^4 ^* S3 g+ G) G4 p7 I

speir54thtv64071050109.png

speir54thtv64071050109.png

4 w! j: W, Z$ j' x0 U6 B图1:展示 AWS 硬件执行 AI 工作负载的艺术表现,象征着 AWS 对 AI 加速的投入。. M, n, T4 C) u

. V% d7 z7 {9 [* @9 O0 k; Y$ Z$ B核心架构概述( {! j) A7 B3 P
Trainium2 架构相比前代产品有显著提升,每个芯片提供 650 TFLOP/s 的密集 BF16 性能,配备 96GByte HBM3e 内存。每个 Trainium2 芯片包含两个计算 chiplet 和四组 HBM3e 内存,通过 CoWoS-S/R 封装连接。
  F1 m2 s1 s) l% j- T

gcluvrifk1w64071050210.png

gcluvrifk1w64071050210.png

0 K" F1 n- e  u+ T, E图2:NeuronCore-v2 的详细架构,展示了张量引擎、向量引擎、标量引擎和 GPSIMD 引擎与 HBM 内存的集成。/ }' J' }* i* Y  _8 V

4 k9 U5 W1 T) A2 R, |: T! J8 a9 t神经核心架构包含四个主要引擎:
# c( H7 o5 @5 b' {5 T$ R% d张量引擎:128×128 脉动阵列,用于矩阵运算
+ M5 y9 z- B4 H5 {向量引擎:处理向量运算和归一化3 d' M  ?7 e+ }5 Y/ Z4 b
标量引擎:管理按元素运算3 o$ t1 g, V7 ]+ k. y
GPSIMD 引擎:执行任意 C++ 运算
1 n, v* L& |/ x% ^1 f4 {

1 V7 ^( B( O& o+ f- T服务器架构与部署5 J* _/ L5 X" f
Trainium2 提供两种主要规格:
- n7 n% L2 {& n, DTrainium2 (Trn2):每服务器16个芯片配置
& ]/ b* i) x( a( s: DTrainium2-Ultra (Trn2-Ultra):跨四台服务器的64个芯片
+ ~8 g. b7 D# ?

3 n( J! c8 q& Q2 ^) {) D

lzvbysrl5nc64071050310.png

lzvbysrl5nc64071050310.png
7 D0 @1 Y6 o. ?9 g6 E- s7 A
图3:Trainium2 服务器架构,展示了计算托盘和 CPU 头托盘在18机架单元中的排列。
: S# v' N5 A' S0 E( a0 k0 O
% G' I' ]- s- r; v& L4 y8 k物理服务器架构占用18个机架单元,包括:: c* H5 m. L/ \& F7 }
一个 2U CPU 头托盘0 a0 Y' ]; p7 T  J$ T
八个 2U 计算托盘- V6 o0 q: X5 a
每个计算托盘包含两个 Trainium2 芯片6 ^1 H& V8 X- I4 a1 F0 o! ]9 ~
计算托盘中没有 CPU(JBOG - "仅GPU组")
2 J, R1 A: z' w: A2 m8 f
; C4 A  Q, ~, M
网络功能
4 p9 i, _- c$ i1 m7 d* n4 C1 @; H7 DTrainium2 的网络基础设施整合了多项技术:6 w# r3 b! z  h
NeuronLinkv3(扩展上行网络)/ u8 S% d5 Z; a! g4 c- D7 Q$ y
弹性 Fabric 适配器 EFAv3(扩展出口网络)
. k7 E  A7 Q5 G  ]2 a) ^# d# v7 L前端和存储网络
; y( j8 v8 E* P+ m8 \& \7 e带外管理网络4 d& O$ p- ?0 Q; J
% A; L6 N" V+ M6 I

opmhs2rj1my64071050410.png

opmhs2rj1my64071050410.png

. N8 [% s+ d) {0 K- x9 x. _图4:4x4x4 三维环形网络拓扑,显示节点间连接和带宽规格。5 U* S3 r! c" b. L# X, ?" S

' {% a! W9 ^0 q4 B供电创新1 j; e7 |4 [* {, f
Amazon 在 Trainium2 中实施了垂直供电,这在芯片供电管理方面是重大进展。
4 G$ s8 X6 t$ j. D" s7 R

jpgwtrojuah64071050511.png

jpgwtrojuah64071050511.png

; r; i: x  g8 W: _0 E9 ?8 P, p$ r图5:传统与垂直供电系统的比较,展示了改进的供电效率和散热管理。3 B; h2 D# q* c" O& c: I! C

: ~: c( g7 Z- V9 K& n2 X0 Y成本分析与性能6 P* V) a0 S# m3 d& x: P% X: W
与 NVIDIA 的 H100 相比,Trainium2 的总拥有成本显示出有利的经济性:
5 Q& d( {( T; a' @$ m1 o2 T

pj03qewwrbu64071050611.png

pj03qewwrbu64071050611.png

1 E& w  u  N; J3 e& q图6:Trainium2 和 H100 配置的详细成本比较,突显了 AWS 解决方案的经济优势。
; [/ r6 P! a7 q' O" L! U8 @
; S; E1 l  [9 Z2 s0 D主要经济因素包括:) P7 A- t# e+ _' y3 ]  u" v
较低的前期资本成本(每芯片4,000美元,相比H100的23,000美元)1 A, v8 E1 ^. @: [
由于更好的能效而降低运营成本
* R" k% ]/ k& z1 ]3 u. N& o在部署生命周期内更有利的总拥有成本
6 }# e3 Q$ ?7 t

8 |! {8 b) b( L2 u: \: A0 |- O5 gProject Rainier 实施2 K8 b1 c0 W" F; u" P& R! V  T
AWS 目前正在为 Anthropic 部署一个名为"Project Rainier"的大型集群,配备40万个 Trainium2 芯片。该部署展示了 Trainium2 可以有效运行的规模。; m+ S7 _# e% b& ~" n

hv5dm52fngf64071050712.png

hv5dm52fngf64071050712.png

3 O$ O; o) u$ E4 b5 u( |2 ?  s( _图7:AWS 印第安纳数据中心园区的空中视图,Project Rainier 正在此处部署。$ k8 g$ ^, `( D9 g8 ^$ C
) M* ^! t1 ^5 C* v9 v! ?
软件栈与开发工具+ ?4 Z6 _& y% k9 i" @; D
Trainium2 的软件生态系统包括:
5 ~- P5 K+ P) D3 v1 `NeuronX 集体通信库% r0 x, G, ^3 s, ]; ?
通过 TorchDynamo 的 PyTorch 集成
* i% Y$ D- q( ~" V/ M- |% x( YJAX 测试版支持
- m" Y% t% B  ~$ Q; D) r+ r用于低级优化的 Neuron 内核语言(NKI)
. E, e8 ?" L% h; ~
2 ^5 @- @0 T/ Q8 S3 `' h5 a

gyfcekujxgb64071050812.png

gyfcekujxgb64071050812.png

( l; \& b/ @, B6 {, ]图8:Neuron 分布式事件追踪界面,显示全面的调试和分析功能。7 v3 t+ M6 w( y; A8 R, n

  j# @- S( _7 H% T未来发展
3 Q$ w& y% g% a1 pTrainium2 代表了 Amazon 在 AI 加速器领域的重要投入。凭借具有竞争力的价格和性能特征,对 NVIDIA 在 AI 训练市场的主导地位构成了显著挑战。Project Rainier 的成功和 Anthropic 的采用将是 Trainium2 实际效果的重要指标。
  o! ~0 ^) `- r' }% |5 E8 g

gerd3esh4cn64071050913.png

gerd3esh4cn64071050913.png
3 y1 U6 D2 e* d/ f
图9:下一代供电架构,展示了 AWS 对未来可扩展性和效率的投入。
1 B! e" l( |* O' p$ V, j
& m1 g9 Q* W  R! q7 D通过对供电、网络功能和软件集成的严密关注,AWS 创建了一个有竞争力的平台,解决了现代 AI 加速中的许多挑战。该平台的发展将可能影响 AI 硬件开发和云服务供应商策略的未来方向。9 b  S6 x1 N  @

' O8 q* p- `% E. W; Q6 O; W$ d参考文献5 U: A( V) r8 i' ^  x9 X+ {
[1] D. Patel, D. Nishball, and R. Knuhtsen, "Amazon's AI Self Sufficiency | Trainium2 Architecture & Networking," SemiAnalysis, Dec. 3, 2024. [Online]. Available: https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/, N: A' W& z9 Z: T% s) K; ]' V

  z5 c$ q/ Z$ V0 g: y  f& _END
8 r$ z' |2 K5 z, ?% L
9 ]8 u  D/ I9 C/ o3 u) s; n
# A0 z( p- W7 Y7 Q5 W* b
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
' I/ M4 P# q( x5 g点击左下角"阅读原文"马上申请) |/ f+ @5 I2 u8 U
& M! Y$ W; p2 i  C; v; |
欢迎转载0 ~, v- j: ^& J8 m6 Q

: s3 z6 K, Z3 E$ c# h3 ?, g转载请注明出处,请勿修改内容和删除作者信息!3 c3 d8 O6 s, R" J
) w8 E" X! C6 o/ ]/ D( `

9 v; Q; z$ r7 z3 s2 x+ P
5 g4 `2 a. [9 d% D, \

nlj50ijxcp464071051013.gif

nlj50ijxcp464071051013.gif

5 G0 k& C: G8 E
" O' K/ w; j# f% u1 u8 \关注我们
. L6 {5 p% `) ?
  {! E1 E' F- t8 [2 q- b$ j

% Q# b9 i4 [; J$ e

1g21mosmfw364071051113.png

1g21mosmfw364071051113.png

& _% w; `5 y( y: p! ]1 e+ g; G
& \2 g9 N3 }7 I& y

exohpa2ha4m64071051213.png

exohpa2ha4m64071051213.png
- A1 {0 W; r7 H* {4 z$ Z4 ^* A

1 o* y; B0 t/ p3 ~3 f

w0egxzsvpbt64071051313.png

w0egxzsvpbt64071051313.png

" A9 E* m0 x& b: }) O
                      ( B9 }( q* E/ [6 M

* N& e+ k: V3 a6 ^) j9 I
1 P/ i, K( I$ Q  d
& ^9 _' e9 n. `: T$ t
关于我们:7 J$ M+ `. W* o1 b2 R2 o/ c
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。; M1 E9 Q, g- j  u8 _. X
4 [3 G& V7 Z2 E5 G& i
http://www.latitudeda.com/, f! a" [, Q! Q) k
(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表