电子产业一站式赋能平台

PCB联盟网

搜索
查看: 206|回复: 0
收起左侧

OCP2024 | 新一代人工智能服务器设计

[复制链接]

864

主题

864

帖子

8156

积分

高级会员

Rank: 5Rank: 5

积分
8156
发表于 2024-11-20 08:00:00 | 显示全部楼层 |阅读模式
引言
( {7 m/ s( x" L1 s; h在人工智能和机器学习快速发展的背景下,对专用硬件基础设施的需求持续增长。本文探讨了创新的服务器设计方法,针对现代GPU工作负载进行优化,这些内容来自Nebius AI在定制服务器解决方案方面的突破性发展[1]。
; s3 J3 p2 x: B' `

2jmoly3ntj46404966139.png

2jmoly3ntj46404966139.png
& e3 T6 V: }& k0 J  }
8 I) h* w0 _4 }8 F* M
服务器架构的演进9 P) V$ T  x1 E' G) Z! |4 k4 ^& e
传统服务器设计在托管现代GPU时面临诸多局限性,特别是在AI工作负载方面。主要挑战包括散热效率低下、部署程序复杂以及固件专有限制。这些限制推动了对专用解决方案的需求。7 f5 M( l$ t5 S- ?$ O& i3 c3 B, j

% S1 m. X, g, @! j! J( @针对AI工作负载的高级服务器规格
2 S9 ~+ z* l7 S+ G- z0 K" L* y4 o( O新一代AI服务器引入了革命性的规格设计,专门用于高性能计算。这些服务器与最新的NVIDIA HGX H100/H200 GPU兼容,同时在散热、可访问性和维护方面融入多项创新。; ]- D  @: L, n& q! ^$ W0 N- V

wbctvxarcwe6404966239.png

wbctvxarcwe6404966239.png

8 n* P7 {: K# p( S7 ?& {0 P1 L: v图1:全面的服务器规格,展示与NVIDIA HGX H100/H200的兼容性、免工具安装功能和先进的散热系统设计。& \9 V) _1 ]' J+ n# G7 Q
: c. y3 q2 {+ V9 K6 C
革命性的无线缆设计
( e9 @# ]5 H! A. s现代服务器设计中最显著的创新之一是消除了主板和GPU组件之间的传统线缆连接。这一进步解决了多个长期困扰服务器维护和可靠性的问题。
/ F% c  \% \! S& l$ b- L/ h4 k) `

bs2a13aedc16404966340.png

bs2a13aedc16404966340.png

: b! A" D; y  n  e9 ]. ]7 p& v/ c

djntygu1ont6404966440.png

djntygu1ont6404966440.png

6 L' C7 n% @5 S* j! A5 ]图2:传统线缆连接与新型无线缆设计的对比,突出显示改进的可靠性和维护优势。
7 \1 v3 m! ?0 ?, X& [1 j5 s3 M: H
; w4 Z" ]2 @6 @; {% _4 W% ]优化的散热架构
4 L8 r$ F/ q; f( w散热管理在服务器设计中仍是核心因素,尤其是对于高性能AI工作负载。新设计实现了一个复杂的散热系统,为CPU和GPU组件设置独立区域。; r1 t- {0 T+ v

edco4ytxas16404966541.png

edco4ytxas16404966541.png

% L+ r1 p! W( F3 M% Z9 M* i/ ^1 z图3:先进的散热系统设计,具有独立风扇控制系统的分离式CPU和GPU区域。9 ~. u8 Y" U$ a) d$ U! s! w8 L; C

4 N: i  H2 x1 F% j性能和效率指标$ w( c& _4 L! y6 ^2 C
通过比较性能指标,特别是在不同运行温度下的功耗,清晰地展示了这些设计创新的效果。
7 G) t7 s8 M. ]

kdkl1vskv326404966641.png

kdkl1vskv326404966641.png

$ M6 r$ E5 T6 H3 f0 J图4:不同进气温度下Nebius HGX与标准19" HGX服务器的功耗比较。
: S6 R% I# l$ l0 g6 a# C
- H% [1 W$ K& \维护和可访问性特点) O: n! S( P" h& m8 z
现代服务器设计优先考虑维护便利性和组件快速访问,显著减少停机时间和运营成本。
) Z9 ]3 S+ O% @( ?1 q# z

haefqxoj3uu6404966741.png

haefqxoj3uu6404966741.png
3 \/ N; Y! i& @9 K' W$ y
图5:免工具设计特点,实现快速组件访问和维护程序。6 Y# ~% {* l. m, A3 T9 ^2 x
% O) ]: Z: ]. s) x$ B) F
总拥有成本优势
) B3 f$ U$ J( ^* p这些设计创新的综合效果转化为显著的总拥有成本(TCO)优势。通过各种优化实现了资本支出和运营支出的双重优势:
# z  n* O8 {) j: J0 Y

ezisqdw5yks6404966841.png

ezisqdw5yks6404966841.png
2 I# [2 V; u! M- \! ?6 T
图6:总拥有成本优势的全面分析,包括资本支出和运营支出的优势。# U$ L+ s' q+ z- F$ r

3 x% j1 t3 o4 D6 p未来发展和应用
8 M" `* p5 W# G. D  ^/ I& h这里概述的服务器设计原则正在扩展到各种用例,包括推理和闪存存储应用。这些发展展示了新架构的多样性和可扩展性。+ E- j9 @* t" r- `" p3 L$ l

jy0s24jl0246404966942.png

jy0s24jl0246404966942.png

. z6 _- }2 j: b( _# R, Q+ P2 d1 I图7:完整服务器系列概述,展示从ML/AI到计算和存储的各种应用。. |. ]) X6 `: P! ^

. H6 @, W) h8 h7 `结论
* V- b2 T; z- V6 b+ c8 h6 `$ ]5 g  K用于AI工作负载的服务器设计进步代表了数据中心基础设施的突破。通过解决散热管理、维护和组件集成等关键挑战,这些新设计正在为AI计算基础设施的性能和效率制定新标准。随着组织继续扩展AI运营,这些专用解决方案将在快速发展的技术环境中变得更加重要。5 x% N: \! V  \4 b
- C: b! _: r# U% @! o
参考文献; K& G/ K5 `" Z6 @! |5 G
[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.1 Y" X" }2 o( m

* w' M; B2 C/ c- V0 cEND" W. H( |. G( S+ x& F
1 z) j) {2 m& W! M8 c* B$ L4 Z% u' ]' t
7 i& L# \* w  i. p7 x
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
9 S9 ^( y4 g3 r& V点击左下角"阅读原文"马上申请4 ?. H; X* o) R' a
2 U) s* ~# N4 O1 r  ]
欢迎转载4 I! W4 X' F  {9 _

6 k0 |- K5 j; S, E1 h: D. u转载请注明出处,请勿修改内容和删除作者信息!) o* j6 V* K! G; s3 h. y3 x4 L( Y
5 L& {4 w* G4 u" R2 y
& C7 R9 V" [: x9 J# j

5 ^' g) v6 ^, Y2 Q% Z, c6 L: h

hikf1f4314y6404967042.gif

hikf1f4314y6404967042.gif
) |' P- t# F/ j  h' m

. T: c' t4 z0 a2 d' O关注我们
% ^5 T/ \9 [! n# G
5 d1 d$ j( F" e
3 J0 ?9 ?4 I$ m& ~$ p$ \/ Y

rabmxlc5ffh6404967142.png

rabmxlc5ffh6404967142.png

  U5 {0 K) D2 @, o+ j

! v( l( K/ g( j; `# Q4 y

2wotga1zkko6404967242.png

2wotga1zkko6404967242.png
$ @# a' n% ^; d
% o% v6 k/ [4 f. [

lqwgpte4d326404967342.png

lqwgpte4d326404967342.png

* l) o3 Q2 Z+ v
                     
, l! s3 h- X; O5 d/ g* V
- A6 g  k* g+ f( z$ ]0 _2 W
1 y2 x8 H6 ^+ c7 F7 `' _2 J* G
" W; p! J1 e6 w" G
关于我们:
  P. l4 W0 V6 u; F) R% J' w: W深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。% m& _) Y: ]" H& D
( F' w+ H4 N5 n) {$ \
http://www.latitudeda.com/+ Z# I2 l7 G+ z3 p+ F* V4 h
(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表