电子产业一站式赋能平台

PCB联盟网

搜索
查看: 78|回复: 0
收起左侧

Hot Chips 2024 | NVIDIA Blackwell平台推进生成式AI和加速计算

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-9-23 08:01:00 | 显示全部楼层 |阅读模式
引言
5 P# E6 B. _: r4 z9 U+ ?9 ]( {NVIDIA Blackwell平台代表了生成式AI和加速计算领域的重大进步。本文将討論Blackwell平台的关键组件和创新,展示其如何应对AI工作负载的不断增长需求,并推动计算能力的极限[1]。
- O7 L6 ?' t4 |0 N; z5 r$ k7 Y" }; E# w3 ~" X
NVIDIA Blackwell平台简介: ~" i3 I- H% v4 r) e1 t: M! u
Blackwell平台是NVIDIA最新推出的数据中心规模架构,旨在应对日益复杂的AI模型和加速计算任务带来的挑战。该平台的核心组件包括:7 G. @' |# D7 v( x7 G
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3网络解决方案
    ; ^8 `0 j9 @% n/ t+ e5 h
    ( f5 \' L5 G, ?6 G" q- K

    xaz3mp4sar56402431047.png

    xaz3mp4sar56402431047.png

    6 a, e8 D; F' y5 U; P9 e图1:NVIDIA Blackwell平台组件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和网络解决方案。
    : u% ?% f+ a& Q) W9 o0 d1 c
    5 _6 U# l2 ?5 k# {4 [这些组件协同工作,为AI和高性能计算工作负载提供全面的解决方案。该平台建立在NVIDIA开发CUDA-X库的丰富经验基础上,这些库优化了各种应用领域的性能。
    , X) A" c. P+ c9 H
    5 R5 v) F8 _/ Q7 b% ]9 {4 F  i0 ?3 B) P
    + u  G, O; a0 d4 w' r4 w
    Blackwell GPU:AI计算的新时代2 X  E8 `) Y+ {: L# Y( t5 \
    Blackwell GPU是Blackwell平台的核心,这项工程奇迹推动了AI计算的可能性边界。" C- u+ p' P  f7 p

    kvd42alc1cp6402431147.png

    kvd42alc1cp6402431147.png
    ) X9 P. w: R- f0 _( Y- p
    图2:NVIDIA Blackwell GPU,展示其主要特性和功能。2 D* S8 y$ n* [# }; h
    5 E+ T9 d% j& C2 v! P  ?8 O* b
    Blackwell GPU的主要特点包括:
    - T* G  B& G* g/ ^
  • 使用台积电4NP工艺制造的2080亿晶体管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s内存带宽,采用8位HBM3e
  • 1.8 TB/s双向NVLink带宽
  • 与Grace CPU的高速NVLink-C2C连接! D0 \6 f3 p5 J% ?6 N

    5 {' P) V$ Z* Q1 x; CBlackwell GPU相比其前代产品有显着进步,提供更强大的AI计算能力、内存带宽和互连能力。
    , U6 w1 _; |3 b/ u' J

    hrgzto5pnn46402431247.png

    hrgzto5pnn46402431247.png
    % P+ H5 Q3 a8 J
    图3:从Volta到Blackwell的NVIDIA GPU演进,展示晶体管数量和芯片面积的增加。- Q) z7 K1 P1 P5 i5 p
    1 y+ M1 P) Z) \& _# |/ S8 t/ d
    Blackwell GPU的一项关键创新是NVIDIA高带宽接口(NV-HBI),在单边提供10 TB/s的双向带宽。这个接口允许创建具有全面性能的统一GPU,不牺牲速度或效率。
    ; O, {" v- f+ M3 H$ n6 p! u' f6 g- R
    NVIDIA GB200 Grace Blackwell超级芯片" q+ h: `% Q" B. U. z8 D0 |# y8 r* S
    GB200 Grace Blackwell超级芯片将Grace CPU和Blackwell GPU的性能结合在一个封装中,为AI工作负载提供无与伦比的性能。1 I& w. h  W/ n* L- Q- H

    zpjgaokcfbe6402431348.png

    zpjgaokcfbe6402431348.png

    5 _) `9 o- [  p图4:GB200 Grace Blackwell超级芯片,展示Grace CPU和Blackwell GPU的集成。
    7 l  o/ \* Z/ V4 w+ T9 r" Z8 M* x
    GB200 Grace Blackwell超级芯片的主要特点包括:" E9 V. j; H% Y+ o* Q' X
  • 1个Grace CPU和2个Blackwell GPU
  • NVLink-C2C互连
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高带宽和低延迟通信
  • 针对AI工作负载中的键值(KV)缓存进行了优化
    $ h5 b9 }- m1 M9 p% Z  M

    , u, {$ ?8 V- y. pNVIDIA Quasar量化系统:实现低精度AI
    6 Y" u  @- Z. v% YBlackwell平台引入了NVIDIA Quasar量化系统,实现低精度AI计算而不牺牲准确性。该系统解决了与低精度计算相关的几个挑战:
    4 y! }/ \! p* F$ e0 L1 x5 J
  • 精度损失
  • 非均匀层敏感性
  • 窄动态范围
  • 量化噪声
    3 j8 {) |# P1 k6 o, C
    ' L8 T' `, n8 U7 N# s8 W: \

    - V8 |, s; c$ R% X/ ]+ ^

    m2i32vpsv536402431448.png

    m2i32vpsv536402431448.png
    3 X/ o: _) r9 i0 Y
    图5:NVIDIA Quasar量化系统,说明组件和研究领域。- j; N8 t% @: k% Y: I1 \
    : L8 i! D1 F* H) J: T/ n* p
    Quasar量化系统包括几个关键组件:
  • Transformer引擎:硬件和软件优化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度数值算法:基于敏感度的层选择、动态范围正则化等
    , k& t0 g; M  I1 Z[/ol]
    0 M1 n4 _% r" c! K5 _, a! yBlackwell GPU最显著的创新之一是第5代Tensor Core,引入了新的微张量缩放FP格式,包括FP4和FP6。
    ; ?5 L! X2 M' F2 k

    jqzkjevoimk6402431548.png

    jqzkjevoimk6402431548.png
    # S; q' c7 _7 m. I; s$ z

    dph0fqkmada6402431648.png

    dph0fqkmada6402431648.png
    1 |& u' l( G$ `2 Q$ u* }+ N
    图6:第5代Tensor Core支持的FP格式总结,比较Hopper和Blackwell的性能。( J! |/ R- s+ B% |

    2 C* N5 h. p* U! b这些新格式提供了几个优势:
    - l, P, L$ @7 U
  • 更宽的FP范围
  • 放大的带宽
  • 更低的功耗
  • 更精细的量化粒度5 B, r  U) Z/ G' a; V- n$ X
    + B9 B/ i' E7 k$ @0 }& w
    Quasar量化系统的有效性通过令人印象深刻的FP4推理准确性结果得到证明:& C* L# t8 c5 h1 [& [8 o

    ; A. M' z0 Z) W  ?# x/ N

    ozl5hmaalel6402431748.png

    ozl5hmaalel6402431748.png
    ) w4 ^/ i: f% @7 k0 F
    图7:各种模型的FP4推理准确性结果,比较BF16和量化FP4性能。
    8 |' |% f6 V2 A% M* d4 y
    , T# d' X5 ~% j& c7 Q, m& I这些结果表明,即使是像Nemotron-4 340B这样的大型语言模型,使用量化FP4也能达到出色的MMLU(大规模多任务语言理解)分数,匹配甚至略微超过BF16模型的性能。
    8 z/ i+ J2 k- {! c
    5 x/ U) i7 ~7 oAI网络:端到端性能和功率扩展. e! G! ]  s* V
    随着AI模型规模和复杂性的指数级增长,对大规模多GPU推理的需求变得越来越重要。Blackwell平台通过先进的网络解决方案应对这一挑战。
    2 u9 T2 K- a$ t8 f1 B! n& Z  H0 j

    2jbtw32ba3z6402431848.png

    2jbtw32ba3z6402431848.png
    9 \- x' Y9 [* c) I  {7 ?& {
    图8:AI模型规模随时间的增长,说明参数数量的指数级增加。/ m1 @% m# l; Q; ]7 M2 H

    $ J8 W6 w) W2 H* D" T/ e7 i( s为满足这些不断增长的模型需求,NVIDIA开发了世界级的NVLink PHY性能:2 Q( e2 a& x& f9 T( P- L$ J1 ^

    q4xfvrk3fa16402431948.png

    q4xfvrk3fa16402431948.png

    # _+ [( u6 P' f+ D- l图9:从Ampere到Blackwell的NVLink性能演进,展示带宽和链路速度的增加。: P) m! m3 w' P2 f0 F2 e
    9 T; v9 @% ^/ m7 y( g
    Blackwell平台引入了第5代NVLink PHY,通过18个NVLink提供1800GB/s的总带宽,每个NVLink能力达到100GB/s。
    ) a4 c) J1 Z: r6 {$ c
    3 `, r3 L& E! c$ ^1 y网络解决方案的另一个关键组件是第4代NVLink Switch Chip和NVLink Switch Tray:: L5 j5 p+ w9 @9 k& k' N

    35kxgkqpwzv6402432049.png

    35kxgkqpwzv6402432049.png
    4 d6 e# d3 H1 Z/ b% b$ e: J
    图10:第4代NVLink Switch Chip和NVLink Switch Tray,突出显示主要特性和功能。
    % S, ?1 `/ Z+ j, \- y! U  f( @6 W6 B, Y3 y! l
    NVLink交换芯片的主要特点包括:/ y% G* w: K# ]% g' ?
  • 台积电4NP工艺中>800 mm2的芯片面积
  • 在GB200 NVL72上将NVLink扩展到72个GPU
  • 通过72个端口实现7.2 TB/s全双向带宽
  • SHARP(可扩展分层聚合和规约协议)网内计算,3.6 TFLOPS性能9 h6 C( I$ @( }- q& B/ n+ C  V; }$ \
    * |( N, i' N) ~: G5 s
    NVLink交换托盘包含两个NVLink交换芯片,提供总计14.4 TB/s的带宽。
    7 u9 Q0 K/ a- Y6 {8 B- j7 H/ i1 _7 q: c
    GB200 NVL72和NVL36:新的计算单元" B) ~1 k) D$ e* a8 J
    Blackwell平台引入了两种强大的配置:GB200 NVL72和GB200 NVL36,在单个机架中提供前所未有的计算能力。. ?! S' g' i1 `' l0 w' E, l

    eo3jvx51lyc6402432149.png

    eo3jvx51lyc6402432149.png
    & x) ~5 r1 k" m
    图11:GB200 NVL72和NVL36配置,展示每种设置中的GPU、CPU和NVLink交换托盘数量。% A% ?: g4 a: {7 {) w( E

    ( n. \5 C2 e* ]) V# b  ZGB200 NVL72配置提供:) C2 r3 S9 g, M5 B. c
  • 36个Grace CPU
  • 72个Blackwell GPU
  • 9个NVL72 NVLink交换托盘
  • 720 PFLOPs的训练性能
  • 1,440 PFLOPs的推理性能
  • 支持27万亿参数的NVL模型大小
  • 130 TB/s的多节点带宽
  • 260 TB/s的多节点全规约
    ; L0 W% u0 h6 a- m+ o. ?0 X

    6 V- h2 n8 u, ]这种配置能够高效扩展大型AI模型,包括具有1.8T参数的GPT专家混合(MoE)等万亿参数架构。
    " @+ G% u6 ]( V. j8 K

    imtnn4vne246402432249.png

    imtnn4vne246402432249.png

    / m0 ], @- e' w) ^1 q图12:GB200 NVL72在万亿参数AI模型上的性能比较,展示吞吐量和能效的改进。
    8 B+ q) P2 f& ~: c0 S3 p& k% y0 m( V* ^  y, G% L+ F
    GB200 NVL72配置展示了令人印象深刻的性能提升:: \5 K: ?- L) n- v% }% J. D
  • 与前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 总拥有成本(TCO)降低25倍
    + v$ N% \7 X# A1 W& C

    4 X- a: {5 k0 W% S/ b! a9 \# P& b结论:AI和加速计算的未来
    * z6 J( e7 w/ {$ PNVIDIA Blackwell平台代表了AI和加速计算领域的重大进步。通过解决不断增长的模型规模、计算需求增加以及高效网络需求的挑战,Blackwell为性能和效率设立了新标准。! X0 g) o. {1 F; F: F; y8 j; V

    k5hui4llqno6402432349.png

    k5hui4llqno6402432349.png

    9 s$ r/ y) u% n* S7 Q图13:NVIDIA数据中心规模架构的路线图,展示从Hopper到Blackwell及未来的演进。
    % d3 l3 w' W' g; g' x8 {0 @! m4 Q4 x; z, Y2 x; n% x3 W
    Blackwell平台的主要成就包括:
    6 `* w+ @% r7 U. R( f
  • 全栈、数据中心规模平台,涵盖GPU、CPU、NVSwitch、DPU、NIC和网络交换机
  • NVIDIA Quasar量化系统实现低精度AI而不牺牲准确性
  • 实时万亿参数LLM推理性能提升超过一个数量级
  • AI训练、推理和加速计算的性能和功耗显著改善
    . |$ u$ ]7 q8 e* i+ Q, B

    9 m' ^% e# H+ m$ B/ i3 g* s通过提供必要的计算能力、内存带宽和网络能力,Blackwell使研究人员、开发人员和企业能够解决日益复杂的问题,在人工智能和高性能计算领域开启新的可能性。0 o, ~3 u8 o; G7 z: z6 V: v7 j

    $ C0 r+ S- u: G0 }0 g参考文献
    ) s: J0 o) x+ J- {[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.) b9 T9 n, D; w4 {. ?% |* O7 |

    1 R+ A- s& d1 a& e* W" |7 _# u2 {$ E- END -8 H& s. `" G% x$ Q2 a! s* Q+ L

    ! j' \* C2 _5 Z' s软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。8 m9 r3 J2 T! m; z5 U
    点击左下角"阅读原文"马上申请! ^! f  d$ H/ Z+ D
    3 C$ ~+ l3 N$ ^
    欢迎转载! I. j$ ]" g. k0 R/ G% O
    ( c6 V. d. O2 ^+ u' z7 r
    转载请注明出处,请勿修改内容和删除作者信息!+ E& F+ M/ N4 q: d! N% O' g0 s
    " _. K! P6 s( s' T8 f

    * L  U  x: _/ a# r( ~/ \6 o/ M# o* E
    * e& C; b0 c6 ~8 y: f3 ?' P4 e$ V0 j

    51ru2ery2g36402432449.gif

    51ru2ery2g36402432449.gif
    0 s/ o% d2 p& V; M1 p4 R

    1 w8 P  f& D9 T0 G) F5 q关注我们
    & a8 \. K( i8 U% [9 N2 X4 I
    - Q. [2 C- R0 Z5 T( e8 M2 q

    # x& ^6 d! {% z1 R! j& b9 {

    gslhxcf1eyg6402432549.png

    gslhxcf1eyg6402432549.png
    % u0 V6 Y& j1 U4 Q8 P
    " N# f% Z& g- h- S( _% |6 f

    pks442qgcst6402432649.png

    pks442qgcst6402432649.png
    5 y! Y% R: a$ O. z! i6 S

    1 v' {# z' M" w

    3u0h1j54xwh6402432749.png

    3u0h1j54xwh6402432749.png

    9 x" ^7 z3 W+ a6 s
                         
    6 q/ t% g3 G- a3 m5 A' h2 S9 X  k. l. K
    0 X* Q  v0 Z/ [% V+ \2 _: x

    ( ^6 w& P% I, x4 y关于我们:
    ( f  Y. O" X" H3 o) b6 x# F深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。7 R4 ?; J+ _; c) [7 `% X/ r* f' B
    * Z/ C# Q1 i" A# G( u9 t
    http://www.latitudeda.com/) p, z3 e, T: K; V  a* t. p7 h9 q
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表