Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

逍遥设计自动化 · 发表于 2024-10-23 08:00:00

引言
在人工智能（AI）时代，计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术，以应对这些前所未有的挑战[1]。

先进冷却技术的需求
随着AI模型日益复杂和庞大，对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的：

ri4lul5wk5s64038196008.png

图1：NVIDIA AI工厂的发展历程，从2021年的Selene（4,480个A100 GPU）到预计的下一代AI工厂（32,000个GPU，645 ExaFLOPs AI计算能力）。

这些AI工厂正在推动训练和推理能力的极限。然而，强大的计算能力也意味着巨大的热量产生，因此需要先进的冷却解决方案来维持最佳性能和效率。

数据中心冷却技术：解决方案谱系
为满足不同数据中心设置的需求，NVIDIA开发了一系列冷却技术，从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术：

1. 空气冷却
空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法：
a) CRAH/CRAC空气冷却：

适用于低密度机架的房间级冷却

空气吸收的热量通过CRAH传递到设施冷却水

使用架空或实心地板

实施冷通道或热通道隔离

oijiwd2m2kc64038196109.png

图2：展示使用CRAH/CRAC单元的空气冷却设置，显示了气流模式和系统的关键组件。

b) 行间冷却器空气冷却：

适用于中密度机架的通道级冷却

热量通过行间冷却器和CRAH单元传递到设施冷却水

可使用架空或实心地板

实施冷通道或热通道隔离

c) 后门热交换器（RDHX）空气冷却：

适用于中密度机架的机架级局部冷却

空气吸收的热量通过RDHX传递到设施冷却水

可独立使用或与CRAH单元配合使用作为辅助冷却

2. 混合空气和液体冷却
随着数据中心密度增加，结合空气和液体冷却的混合解决方案变得更具吸引力：
a) 液体到空气侧车（L2A）液体冷却：

适用于高密度机架的通道级空气/液体混合冷却

适合传统空气冷却数据中心的空气辅助液体冷却

无需额外的液体冷却基础设施

过渡性解决方案，冷却能力有限

lz0lpi20t2v64038196209.png

图3：液体到to Air Side Car（L2A）冷却设置，演示了如何与现有的空气冷却基础设施集成。

b) 液体到液体CDU（L2L）液体冷却：

适用于高密度机架的通道级空气/液体混合冷却

行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量

需要额外的液体冷却基础设施

过渡性解决方案，单相液体冷却的极限

3. 直接芯片液体冷却
对于最高密度的机架和最苛刻的冷却需求，直接芯片液体冷却提供了最高效的解决方案：

液体到液体冷却分配单元在紧凑空间内提供约2MW冷却

在2.75倍小的空间内产生6.5倍于CRAH的冷却能力

功耗约为名义冷却能力的1%

paaeklfbdzd64038196309.png

图4：Direct to Chip Liquid-to-Liquid CDU Solutions

冷却解决方案的评估和优化
为确保这些冷却解决方案的有效性，NVIDIA采用了一系列评估标准和建模技术：
1. L2A CDU评估：

设计和构建模拟液冷服务器的仿真器

建立受控实验室环境

根据产品要求进行性能评估

使用CFD/FNM（计算流体动力学/流网络建模）构建数字孪生

2. L2L CDU评估：

设计和构建模拟液冷服务器的仿真器

建立受控实验室设置

评估L2L CDU的性能

构建L2L CDU的物理感知数字孪生模型

3. 液冷数据中心的Omniverse数字孪生：
NVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许：

AI加速的数据中心设计和优化

热流体动力学的实时推理

虚拟测试环境

预测性故障维护

能源使用预测和碳足迹减少

izjqjwuft5164038196409.png

图5：AI加速数据中心数字孪生，展示了如何整合各种技术以实现全面的数据中心建模和优化。

研究重点领域
为继续推进冷却技术，NVIDIA正在几个关键领域进行研究：
1. 次级流体、腐蚀和侵蚀研究：

评估多种冷却液的热性能

使用ASTM-D1384和D8040标准进行腐蚀测试

分析冷却液中的生物生长

进行侵蚀研究，确定ASHRAE侵蚀流体速度限制的适用性

2. 机架功率密度与DLC冷却技术路线图：

分析热限制和机械限制

将冷却技术映射到功率密度范围

探索超高密度机架的先进冷却技术

3. 数据中心效率和总拥有成本（TCO）分析：

比较空气冷却与混合空气和液体冷却

分析能源效率和总拥有成本（TCO）

评估可持续性策略

qof3nhjtbd564038196510.png

图6：NVIDIA全面的数据中心可持续性方法，涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。

4. 废热回收：

开发原型，从废热回收单元（WHRU）生成电力

探索从液冷机架回收废热的可能性

与研究中心合作优化废热利用

5. ARPA-E COOLERCHIPS项目：OMNICOOL
NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目，专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括：

使用混合D2C两相和单相浸没冷却系统提高能源效率（目标：PUE

提高功率密度挑战（目标：>160 kW/机架）

克服地理位置和天气限制（目标：适合ISO 40'集装箱，环境温度≥40 °C）

强调环境影响和可持续性（目标：GWP

该项目包含几项创新：

创新的两相多孔金属冷板技术

用于紧凑型自由冷却器的非正交、互锁线圈阵列

机架内分布式泵送和流分离系统

利用分层架构的多尺度流分配系统

结论
随着继续推动AI和加速计算的边界，冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法，从空气冷却到先进的液体冷却系统，确保数据中心能够满足AI工作负载日益增长的需求，同时保持效率和可持续性。

通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术，NVIDIA正在为数据中心冷却的未来奠定基础。展望未来，对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。

计算效率和性能的提升之路仍在继续，冷却技术将与之同步发展。通过保持在这些发展的前沿，数据中心运营商和AI研究人员可以确保拥有必要的基础设施，以推动人工智能和高性能计算的下一波创新。
. b/ a& r0 u2 Z, Z" D U( m

参考文献
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

. T" p8 M) M: n- f+ t5 U6 t

rpj52bnqmgr64038196610.gif

关注我们

et0tl4guaub64038196710.png

xklfdrehrcu64038196810.png

a1aceo5ifow64038196910.png

( f8 u: s$ x" \9 c

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

发表回复

精选推荐