电子产业一站式赋能平台

PCB联盟网

搜索
查看: 11|回复: 0
收起左侧

晶圆级引擎革新生成AI推理技术

[复制链接]

407

主题

407

帖子

2632

积分

三级会员

Rank: 3Rank: 3

积分
2632
发表于 昨天 08:00 | 显示全部楼层 |阅读模式
引言
6 P3 ^+ q6 G' ]9 I7 ]- |# n在人工智能领域快速发展的今天,生成式AI已成为热点话题。本文旨在帮助读者了解晶圆级AI技术如何推动生成推理的革新。我们将深入探讨Cerebras Systems公司的突破性技术,看它如何通过晶圆级引擎(Wafer-Scale Engine,WSE)实现超越GPU的惊人性能[1]。
' E2 `8 O9 I1 D- j, U& t) n) Z
& j5 A9 k  I+ t+ w0 I4 Q) MCerebras晶圆级引擎1 G8 q% |% h' O/ b+ H* G
Cerebras的核心创新在于其晶圆级引擎,这是迄今为止生产的最大芯片。
( W+ t6 _) L6 n/ l, v. X  B

zkb54uhwt0d6403229216.png

zkb54uhwt0d6403229216.png
) s* q  o! f3 O7 K
图1:Cerebras晶圆级引擎与传统GPU的尺寸对比,展示了其巨大规模。
' r' W0 T8 d! i  m( ]' i9 x* R$ k0 H  ?) i5 G: m$ s9 s
最新的WSE-3具有以下令人印象深刻的规格:
! y- o, q9 N% N& A
  • 4万亿晶体管
  • 46,225平方毫米的硅面积
  • 900,000个AI核心
  • 125 Petaflops的AI计算能力
  • 44 GB片上内存
  • 21 PB/s内存带宽
  • 214 Pbit/s架构带宽
  • 采用台积电5nm工艺/ ^* ~$ ]: T* q

    ; G9 g4 u# c5 F3 @这些规格远超最先进的GPU。与NVIDIA的H100相比,WSE-3具备:
    3 k" I3 @2 G; g8 {
  • 57倍的芯片面积
  • 52倍的核心数量
  • 880倍的片上内存
  • 7,000倍的内存带宽0 J) r% O' F4 f1 C7 Q( n7 n: Q% k

    ! \: q) q- C  t5 ^' @
    " B, l# N4 z) @# \6 [
    内存带宽优势
    7 P9 X! p- k1 z: g' K- ]限制生成推理速度的一个关键因素是内存带宽。传统GPU架构在这方面面临瓶颈,因为生成令牌需要多次通过模型,每次都要从内存中读取所有参数。
    & S3 ]% i3 {/ [- O" y1 V% b; c# M1 e! U! K

    unfwfoirn3l6403229316.png

    unfwfoirn3l6403229316.png
    , _$ f* H# a$ N- w3 }* S
    图2:Cerebras WSE-3与Nvidia H100的内存带宽对比,突显了巨大差异。2 D% }( H8 N, P, ^2 j7 s
    . u8 u# E  p7 i9 i
    Cerebras的晶圆级架构提供了巨大的内存带宽优势:
    ) D* Q3 E: G; N+ V3 Z
  • WSE-3:21 PB/s
  • H100:0.003 PB/s, A% j& B# z. L# e

    6 q8 O- [8 F& k这7,000倍的内存带宽增加对生成推理性能产生了革命性影响。
    * e+ s2 d) ~; L4 s! t9 `
    & |: j( K  O: ~. P晶圆级集成vs多GPU解决方案虽然多GPU解决方案试图通过在单个服务器中集成多个GPU来聚合内存带宽,但这种方法存在显著缺点:
      Q( i! j: H; ]& J% m3 E
    + v; a0 O* R" ?/ m

    ueauuoctfhh6403229416.png

    ueauuoctfhh6403229416.png

    - g1 C$ B! [/ E) d& k5 V5 F; M图3:多GPU和晶圆级集成的对比,展示了内存带宽、IO带宽和功耗的差异。
    # w8 C. s2 B0 K" Z, S* {( o& c
    + A9 a& C- e; S% c晶圆级方法提供:! i: N. }, v; R; I( V1 m, q
  • 800倍的内存带宽
  • 33倍的跨芯片IO
  • 6倍低的功耗
    " a* ~3 i% O4 B% J+ I+ s

    ; o; N  ~% c$ D; m此外,多GPU解决方案由于互连带宽和延迟开销而存在扩展效率问题。随着GPU数量的增加,内存带宽利用率显著下降。' m6 g$ r: w% b$ K

    5 q) q# Q6 {* O7 K, g2 p+ y

    puwxlghwcac6403229517.png

    puwxlghwcac6403229517.png

    : L0 m: r7 |6 ]/ S7 h图4:图表显示了在DGX系统中增加GPU数量时内存带宽利用率的下降。9 [$ u; s( w% e
    4 a9 N7 V' [5 h* W
    单芯片上的流水线执行* Z1 b: I3 V7 s4 v1 j  q; i; l0 ^
    Cerebras的巨大内存带宽实现了独特的执行模型:2 {! L% o7 ]  w' A0 `9 N

    p0d3zkjhjxk6403229617.png

    p0d3zkjhjxk6403229617.png
    ( K9 u6 e; f# X% v% m
    图5:晶圆级引擎上流水线执行的图示,展示了模型的不同层如何映射到芯片的各个区域。( G4 c' I0 y0 [# ?" H8 E  F
    4 F' Q0 O6 s# y  K* l) B
    在这个模型中:
  • 模型层被映射到特定的晶圆区域
  • 权重和KV缓存存储在区域内存中
  • 每个晶圆区域一次处理一个令牌
  • 相邻区域实现流水线阶段之间的低延迟通信
    7 k; ^+ K4 @: d& x  p[/ol]
    ( F- O5 Z5 v' K& I! b& M3 i这种方法允许极快的令牌生成,因为整个过程发生在单个芯片上,阶段之间的延迟最小。4 w% V( l) {0 z' z2 ]  f
    : X. V9 y. G' v% O
    * C7 p; t0 n) v
    大型模型的可扩展性$ t1 K# l3 O) x' B9 g; F! [
    对于超出单个WSE容量的模型,Cerebras提供了可扩展解决方案:
    . K: P5 w: t0 x. b

    g53nkapi2bs6403229717.png

    g53nkapi2bs6403229717.png
    9 o8 x8 F. y" V( c9 K
    图6:图表展示了如何将较大的模型映射到多个晶圆级引擎上。
    # k) H2 r$ F8 r2 ?
    - M# L4 H' M4 D, B通过将模型层分布在多个WSE上,Cerebras可以容纳最大的语言模型,同时保持高性能。晶圆间通信经过优化,以最小化延迟和带宽需求。
    9 \. ^5 e# d1 ]
    4 ]" D; {5 F' h高吞吐量和低延迟
    3 O+ K, I& f/ P( B" G与GPU面临延迟和吞吐量之间的权衡不同,Cerebras的架构能够同时实现高单用户速度和高多用户吞吐量:9 {& P: P4 h, ~2 s7 j+ m
    5 ?. z. h& ~4 k

    bjdhrdmhb1j6403229817.png

    bjdhrdmhb1j6403229817.png

    / l& }; y: P: J) @图7:GPU和Cerebras系统的延迟vs吞吐量权衡对比图,显示了Cerebras在这两个指标上的卓越性能。! @, m9 r5 x# U4 o. V' h: C6 W

    - X" _0 S! ]# \9 c# M* cWSE可以同时支持多个用户,每个用户并行访问模型,而不会牺牲个人性能。这得益于晶圆上可用的大量内存带宽。& k( D" u7 A. O( H* l: `. m& Y
    1 e8 s* g/ ~. k# C
    提示处理优化$ f9 K2 X: @$ J# F
    Cerebras通过高效的提示处理进一步优化性能:
    . A) S# T- ~" Y7 p! @; c+ a" k

    o2lfgd0c0s06403229918.png

    o2lfgd0c0s06403229918.png
    , q6 a+ Q+ m5 f- G9 L" @& x
    图8:图示展示了Cerebras如何通过同时利用多个流水线阶段来优化提示处理。! n" Z" [& Z0 P4 `5 r
    5 M3 w/ B4 @. N, i% t+ \$ B
    通过在不同流水线阶段并行处理多个提示令牌,Cerebras实现了更高的单用户提示速度并最大化吞吐量。
    4 k* M- E: M" }- v4 C, B2 @+ X0 U& w2 S9 x6 z5 I) {) ~
    未来改进; D. x- R! @( g" n3 ~
    Cerebras正在持续研究技术以改善性能并支持更大的模型:
    & c* ]2 J* {0 @# Z( g0 c1 c' }6 U& r; R, D
  • 推测性解码
  • KV缓存优化
  • 量化
  • 稀疏性
  • 更多即将到来的技术2 N. U" X1 k, f7 @: o0 ^
    ! A+ p2 L/ c5 m1 o
    这些改进有望进一步推动AI性能的边界。( D. J9 M  \* E- r7 z  Z/ r
      F: [( Z/ S. j% a" A

    4 O% R( i2 q/ q- C6 E6 f! _Cerebras推理服务; Z1 ~/ D0 D# V! H6 f+ ^2 O7 B
    为使这一突破性技术更易获取,Cerebras推出了推理服务:
    ; r5 {* D1 F4 R$ A" y" {' D5 v& B6 \

    oy5hig40yq36403230018.png

    oy5hig40yq36403230018.png

      t, C7 b9 D- F: F' Q7 j图9:Cerebras推理服务界面的截图,显示可用模型和定价层级。
    " n0 [% v- Q5 w& I; i1 t9 [: M+ q/ [* w& f" r- S9 i2 z
    该服务提供:
    - [) J  T0 A' ~4 {7 R6 B1 ]
  • Llama3.1-8B,速度为1,800令牌/秒
  • Llama3.1-70B,速度为450令牌/秒
  • 免费层每分钟30个请求,每日100万令牌限制
  • 付费层提供有竞争力的定价
    9 a4 j" `* b0 W! D! r* G
    2 F4 Y" `8 B! ?
    未来服务将增加更大的模型,如Llama-405B、Mistral Large 2、Cohere Command R,以及定制微调模型。$ E. Y. u9 ?% k% U6 g% w, A' u" ~8 s
    2 r% J) h8 `+ g8 n4 B
    结论; z0 ~4 ^2 M/ h) p5 Q; K7 D7 N$ E6 T  y
    Cerebras的晶圆级引擎技术代表了AI硬件的范式转变,为生成推理提供了前所未有的性能。通过解决内存带宽瓶颈并在大规模上实现高效的流水线执行,Cerebras正在为AI应用开启新的可能性。随着技术的不断发展,我们可以期待AI性能的进一步提升,为各行各业的更复杂和响应更快的AI系统奠定基础。
    $ B4 t4 k* K( K$ @! }- G: d$ v& c( y6 q
    参考文献$ _& o. S1 V" S0 N! S; v# T
    [1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024.6 W7 M7 m3 p: E$ G2 C: k: p
      G* J' ^2 m9 h6 `9 B; f9 U: K
    - END -3 @! p6 S3 y9 Y' y% S0 u* r; [3 K& y
    ; z/ R! p6 P6 ~4 X% s

    ' L4 x+ h  P4 p/ X* _: j软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    % [8 j2 q' F3 X- u- Q点击左下角"阅读原文"马上申请
    + f# x5 \1 p% r# U4 ?" {! w. v; J; z1 N2 P
    欢迎转载
    0 f' }2 d( h* W6 j1 l7 x: p9 n& X+ g2 x
    转载请注明出处,请勿修改内容和删除作者信息!
    7 f. i, ^9 J1 `! S6 F& m7 O  o$ J7 h% e5 A
    4 w$ n! @  a, x# P% C
    ; d. k; x! `2 }3 x

    xdsmq4ljvvw6403230118.gif

    xdsmq4ljvvw6403230118.gif

    " Z, }1 q# k; @1 g
    ) o" X' d& g+ l7 B关注我们3 L' F$ _5 z7 E

    , S' ]5 F" S2 h4 i9 v: K8 z
    ) r8 A/ U5 _( f* ^/ b8 Z. _

    ageyh1452lr6403230218.png

    ageyh1452lr6403230218.png

    5 Z* l( e  ]# P0 V/ W+ C) F

    : G9 e, q& {" f# z

    34vohyi4mvw6403230318.png

    34vohyi4mvw6403230318.png

    & S0 S0 F& i- v
    . a2 S( \6 T* [

    0tpz35msta16403230418.png

    0tpz35msta16403230418.png

    6 |5 \6 D/ U/ P
                         
    * s6 Z; v  t* T/ m6 `
    9 a  a- z* ^& @0 f6 Y6 F* g3 p
    * D" ?- z$ F  t, S1 ?! Q+ L

    7 `$ \8 {3 l; l关于我们:7 ~* s. G7 P. @+ V5 h- j( [& Y
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    2 V) P- F5 h' R6 u
    6 i: X) K& P; d0 X: nhttp://www.latitudeda.com/
    6 q  N1 E$ `5 J# H4 U4 F, V(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表