电子产业一站式赋能平台

PCB联盟网

搜索
查看: 77|回复: 0
收起左侧

Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

[复制链接]

631

主题

631

帖子

5295

积分

四级会员

Rank: 4

积分
5295
发表于 2024-10-23 08:00:00 | 显示全部楼层 |阅读模式
引言, B2 @# c5 Q$ h" V
在人工智能(AI)时代,计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术,以应对这些前所未有的挑战[1]。
  n2 }+ l3 k$ y. q9 I  z" N! t, b2 ~$ e
先进冷却技术的需求+ n4 ]7 ]  ?# g$ F6 o( Y
随着AI模型日益复杂和庞大,对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的:/ M, E1 }: b) W, |

ri4lul5wk5s64038196008.png

ri4lul5wk5s64038196008.png
, D( T1 o2 }( J$ t8 r
图1:NVIDIA AI工厂的发展历程,从2021年的Selene(4,480个A100 GPU)到预计的下一代AI工厂(32,000个GPU,645 ExaFLOPs AI计算能力)。# m$ P8 X' v$ c" F3 F
! J, K# x" d, K" L
这些AI工厂正在推动训练和推理能力的极限。然而,强大的计算能力也意味着巨大的热量产生,因此需要先进的冷却解决方案来维持最佳性能和效率。
/ p5 g% F, g3 [9 i
, J7 a. I2 `' @2 q数据中心冷却技术:解决方案谱系
5 \- ^- U: U; U" k" R为满足不同数据中心设置的需求,NVIDIA开发了一系列冷却技术,从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术:1 R# n- A! _/ ?+ }1 C6 ]
+ K, `: ?9 B8 o2 G% }9 l/ r6 A
1. 空气冷却
* u1 @* h) _1 W1 g8 Y空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法:5 |8 q4 I+ `" S
a) CRAH/CRAC空气冷却:
0 R  [( w/ Y7 ~" e3 t; C
  • 适用于低密度机架的房间级冷却
  • 空气吸收的热量通过CRAH传递到设施冷却水
  • 使用架空或实心地板
  • 实施冷通道或热通道隔离* {$ \$ }5 l( F, C0 x1 u1 w
    # _6 n" F% l/ L
    0 M0 [7 Z  P% b1 }( P/ d

    oijiwd2m2kc64038196109.png

    oijiwd2m2kc64038196109.png
    # e* |: J9 K& Z, |2 O3 e7 G! S, [
    图2:展示使用CRAH/CRAC单元的空气冷却设置,显示了气流模式和系统的关键组件。+ W7 [; e  M( ?6 }

    : _1 E. E# X6 s* O0 K5 }2 U. Nb) 行间冷却器空气冷却:1 c2 h4 o- i* \
  • 适用于中密度机架的通道级冷却
  • 热量通过行间冷却器和CRAH单元传递到设施冷却水
  • 可使用架空或实心地板
  • 实施冷通道或热通道隔离" |, v& V! n. Z' u

    " {, l0 G6 z9 W2 ~2 d) u6 X. Qc) 后门热交换器(RDHX)空气冷却:: ^  O/ a/ a" C( G' }
  • 适用于中密度机架的机架级局部冷却
  • 空气吸收的热量通过RDHX传递到设施冷却水
  • 可独立使用或与CRAH单元配合使用作为辅助冷却! E' f( Q1 L1 ]( p
    ' \( x: ?; m/ g7 z0 s
    2. 混合空气和液体冷却
    & B7 F" _4 U8 h, B" \. G+ t随着数据中心密度增加,结合空气和液体冷却的混合解决方案变得更具吸引力:
    5 x& J# d  `9 K, A/ E5 q' ta) 液体到空气侧车(L2A)液体冷却:) |2 _. m/ e" S3 v' ?
  • 适用于高密度机架的通道级空气/液体混合冷却
  • 适合传统空气冷却数据中心的空气辅助液体冷却
  • 无需额外的液体冷却基础设施
  • 过渡性解决方案,冷却能力有限
    9 K3 `9 E6 C( J

    5 r& K4 \+ ~6 {0 v- J' Y5 R0 j6 l- [0 L3 O

    lz0lpi20t2v64038196209.png

    lz0lpi20t2v64038196209.png
    , f! ~0 [6 g$ P! g0 G  l* N
    图3:液体到to Air Side Car(L2A)冷却设置,演示了如何与现有的空气冷却基础设施集成。
    9 C8 y* j5 A" b' r" g& y: C& A; J
    " s$ m' p0 i4 J, d% Zb) 液体到液体CDU(L2L)液体冷却:' G; r- Z; m1 r
  • 适用于高密度机架的通道级空气/液体混合冷却
  • 行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量
  • 需要额外的液体冷却基础设施
  • 过渡性解决方案,单相液体冷却的极限
    9 }  t9 ]9 n. A1 t- l" S3 C
    / \& J* x- n" `
    3. 直接芯片液体冷却
    ! D1 @- c6 S! ?! Q8 }- G对于最高密度的机架和最苛刻的冷却需求,直接芯片液体冷却提供了最高效的解决方案:0 K* ]& g7 |$ P6 ~! P5 n% m8 Q( [
  • 液体到液体冷却分配单元在紧凑空间内提供约2MW冷却
  • 在2.75倍小的空间内产生6.5倍于CRAH的冷却能力
  • 功耗约为名义冷却能力的1%
    ' l3 C6 l8 R6 R: w* R7 T" o

      F7 {1 l# g3 N
    ' l& n; N' n# w9 g: q6 ?

    paaeklfbdzd64038196309.png

    paaeklfbdzd64038196309.png
    ) V' ?4 C. n* C. U, c0 N
    图4:Direct to Chip Liquid-to-Liquid CDU Solutions
    ) ]4 V# w) q: M& y) p: m' z
    4 U; I" e: z7 ^5 B! ]3 l/ f4 N7 F冷却解决方案的评估和优化# c* o' g8 ~4 V; a( Y
    为确保这些冷却解决方案的有效性,NVIDIA采用了一系列评估标准和建模技术:
    " ?$ h* d4 M5 A' [# q1. L2A CDU评估:
    + E& z  ?% B( B# s5 t
  • 设计和构建模拟液冷服务器的仿真器
  • 建立受控实验室环境
  • 根据产品要求进行性能评估
  • 使用CFD/FNM(计算流体动力学/流网络建模)构建数字孪生
    7 \/ @6 v. [. d& R( ?8 P

    - l) S2 P6 D9 O2. L2L CDU评估:
    : d2 b) i0 U$ u$ ^- f; a, j* e. l
  • 设计和构建模拟液冷服务器的仿真器
  • 建立受控实验室设置
  • 评估L2L CDU的性能
  • 构建L2L CDU的物理感知数字孪生模型
    4 f% \- M0 t; O' Q% h1 T' t! U6 d

    . r( }- e" t/ H! l3 F, L$ V7 f! t$ c3. 液冷数据中心的Omniverse数字孪生:8 T. O* F' l, u( t$ c% G
    NVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许:
    5 f& l  @8 b: M5 R. U+ z
  • AI加速的数据中心设计和优化
  • 热流体动力学的实时推理
  • 虚拟测试环境
  • 预测性故障维护
  • 能源使用预测和碳足迹减少
    & X8 t, k& n9 T9 M% X# i

    ( m- A* g3 o( ]0 {- M
    3 F, L9 c& T% q* Q/ t- I

    izjqjwuft5164038196409.png

    izjqjwuft5164038196409.png

    3 i2 ?3 p3 c4 b' s) j图5:AI加速数据中心数字孪生,展示了如何整合各种技术以实现全面的数据中心建模和优化。) k: C* f' k$ v; R
    6 _4 A; G0 j4 x- V: N
    研究重点领域$ M, o( x( R# J$ Q9 |' z! B
    为继续推进冷却技术,NVIDIA正在几个关键领域进行研究:
    6 q2 t) W9 Z( C- X1. 次级流体、腐蚀和侵蚀研究:
    2 S0 y# }( h# z4 ~  f2 D+ s: a) z
  • 评估多种冷却液的热性能
  • 使用ASTM-D1384和D8040标准进行腐蚀测试
  • 分析冷却液中的生物生长
  • 进行侵蚀研究,确定ASHRAE侵蚀流体速度限制的适用性+ M( L: E1 ~+ L4 A4 N0 m$ e+ ]

    , a% y3 b+ H, ^! F, G2. 机架功率密度与DLC冷却技术路线图:3 g; _* r% F/ j
  • 分析热限制和机械限制
  • 将冷却技术映射到功率密度范围
  • 探索超高密度机架的先进冷却技术8 A6 s5 x- A6 r. P& |- f1 x& n1 x" Q
      n- g9 V3 B; }% u, I" D
    3. 数据中心效率和总拥有成本(TCO)分析:
    3 p) T' D  W6 W6 c
  • 比较空气冷却与混合空气和液体冷却
  • 分析能源效率和总拥有成本(TCO)
  • 评估可持续性策略, G* H( `! W( a: s( {( {8 s; ]) n3 N0 O

    2 s4 z) N; M! B2 L4 m+ }" i& v9 I% w( s, \; a# l# A8 w& t$ L

    qof3nhjtbd564038196510.png

    qof3nhjtbd564038196510.png
    % ]& ]/ J/ z9 l) N7 c3 Q! F
    图6:NVIDIA全面的数据中心可持续性方法,涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。* L# R, g, c5 i5 b9 s
      J; g0 Q; c$ O% s) f; D1 h
    4. 废热回收:5 K0 I0 s# ?0 M5 ?' x
  • 开发原型,从废热回收单元(WHRU)生成电力
  • 探索从液冷机架回收废热的可能性
  • 与研究中心合作优化废热利用7 S! q. K. F# R% i
    0 w$ a: [0 T3 J, [) E
    5. ARPA-E COOLERCHIPS项目:OMNICOOL" p, K' O3 v- ]  b/ ^: h9 j
    NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目,专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括:
    $ ~# }) G* v! I3 A9 r
  • 使用混合D2C两相和单相浸没冷却系统提高能源效率(目标:PUE
  • 提高功率密度挑战(目标:>160 kW/机架)
  • 克服地理位置和天气限制(目标:适合ISO 40'集装箱,环境温度≥40 °C)
  • 强调环境影响和可持续性(目标:GWP
    # x# a5 U& ?; L' ^
    ! c9 D! {% B; ?
    该项目包含几项创新:
    ; i( \- M$ U, h
  • 创新的两相多孔金属冷板技术
  • 用于紧凑型自由冷却器的非正交、互锁线圈阵列
  • 机架内分布式泵送和流分离系统
  • 利用分层架构的多尺度流分配系统9 y, R' I" M  N

    ; [; f% u4 o6 s7 a+ w: T2 E结论
    ' O, g4 Z5 v; t随着继续推动AI和加速计算的边界,冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法,从空气冷却到先进的液体冷却系统,确保数据中心能够满足AI工作负载日益增长的需求,同时保持效率和可持续性。; K$ Q' m+ N5 z0 X, C" Q

    6 X' w5 V/ G1 ?* Y7 H通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术,NVIDIA正在为数据中心冷却的未来奠定基础。展望未来,对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。' v, ^6 {( Z( D7 _; B
    ' p) M! b+ d6 d! ~
    计算效率和性能的提升之路仍在继续,冷却技术将与之同步发展。通过保持在这些发展的前沿,数据中心运营商和AI研究人员可以确保拥有必要的基础设施,以推动人工智能和高性能计算的下一波创新。
    ) S: b& k) L% ^: @. z- m. b/ a& r0 u2 Z, Z" D  U( m
    ' b% l2 k- _1 e8 Y# E) c
    参考文献: d; X3 p% l; _/ B* q
    [1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.2 {6 o1 G: b) h1 y/ H' H
    : O+ t$ Z3 v, o
    - END -
    1 B: E9 h0 Y4 u0 e0 @6 Y7 x3 [0 f- D: M8 z9 a6 H
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。7 i- c+ U- t) m, r5 y9 A4 m
    点击左下角"阅读原文"马上申请, _* `% G2 E0 W0 Y
    9 H  B% J5 F8 R- {5 H
    欢迎转载
    & I+ W; ^) t3 P) j5 ^' N* H9 ~  ]5 h- ]1 [& b
    转载请注明出处,请勿修改内容和删除作者信息!& A( Q( |% L$ o) v7 I' |

    3 a5 M$ w+ X* L5 B* ?" j/ j. T" p8 M) M: n- f+ t5 U6 t
    1 b. a. N, H5 r9 b( N: _

    rpj52bnqmgr64038196610.gif

    rpj52bnqmgr64038196610.gif

    2 ?$ `0 U2 f9 r# ~: ~3 E# F
    9 U1 z" \3 @& \6 C/ ?1 C; r2 x: u关注我们8 @6 k8 ?& P* v8 _" m* o2 q0 O

    4 q& i6 [8 w+ F" L! C, p% n

    # C( S1 \, C8 Y+ K4 ~

    et0tl4guaub64038196710.png

    et0tl4guaub64038196710.png
    ( K0 y3 l! E' y& @: e( {

    % I! k4 P5 B9 V, f& v  K$ n

    xklfdrehrcu64038196810.png

    xklfdrehrcu64038196810.png

    ( B7 H! B1 h9 ?
    , Z" f. ?3 i1 P/ @) p% c/ }7 c- e

    a1aceo5ifow64038196910.png

    a1aceo5ifow64038196910.png
    ) M) J3 u2 l* ]! F% L1 P/ f6 w  c
                         
    * L0 t* i2 X. l3 ?' g( f8 u: s$ x" \9 c
    1 R! q$ x0 y* j  V
    5 j5 Y9 r& j& ^0 U" D% x
    关于我们:
    * X" R% |* s1 W/ j" D深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    4 C# v6 C% d6 t8 p. b; B. Y+ t3 \  b0 o. N
    http://www.latitudeda.com/
    , s# J8 P/ U3 ]* b) V+ H" R(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表