电子产业一站式赋能平台

PCB联盟网

搜索
查看: 148|回复: 0
收起左侧

Hot Chips 2024 | SK hynix的AiM和AiMX加速人工智能的解决方案

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-10-4 08:00:00 | 显示全部楼层 |阅读模式
引言
4 B4 y7 k. n9 @; d; C本文介绍SK hynix开发的创新技术:加速器内存(Accelerator-in-Memory,AiM)和AiMX系统。这些先进解决方案旨在应对大型语言模型(LLMs)带来的计算效率和成本效益挑战,适用于数据中心和设备端人工智能场景。4 X# Q4 V* M) X

, L0 P6 F& n6 w* Q

- r8 o1 g+ e& I/ L  H' b6 z# v理解挑战:内存受限的大型语言模型# ]1 f0 f( p7 H$ x& O5 v: W0 z, q
大型语言模型的核心操作在于矩阵-向量乘法,特别是在多头注意力(MHA)和全连接(FC)层中。这些操作主要受内存带宽限制,尤其是在小批量推理时。这一特性使得LLMs的运行成本高昂,无论是在计算资源还是能源消耗方面。; n  L* P. j- n. [  r
1 g! H2 O$ [  j1 P- }+ a

0lyjmk5vyxw64050447417.png

0lyjmk5vyxw64050447417.png
+ m/ I8 [: M( o0 ]+ d
图1:展示了LLM操作的内存受限特性,说明矩阵-向量乘法如何主导计算景观。
% Z3 E, Y5 y4 A) e+ y; q( |
/ [1 D# H1 x- Z4 D' U# H8 MSK hynix的解决方案:加速器内存(AiM)
+ f% I- H+ ]* T" O$ q, g为解决这一挑战,SK hynix推出了加速器内存(AiM)技术。AiM是一种突破性方法,将计算功能更靠近数据,显著减少带宽瓶颈。
% ^9 M( f9 M/ H# d: C
# g3 e1 Y6 O3 [' Q2 wGDDR6-AiM的主要特点:
4 ]$ g/ [; g0 w
  • 外部带宽:32 GB/s
  • 运行速度:1 GHz
  • 计算吞吐量:512 GFLOPS
  • 内部带宽:512 GB/s
  • 数值精度:BF16
    * |/ h+ e7 r: x

    ; X& O) h" `4 m  K9 ^8 p) r) Z
      B( [9 W( Z. F! I6 }) |1 H1 S! S

    5fab0kcgjgq64050447517.png

    5fab0kcgjgq64050447517.png
    - a* ^7 p& v6 ^2 F7 Z
    图2:展示了GDDR6-AiM的芯片照片和封装,突出显示了这项创新技术的物理实现。$ ~1 B" c# v2 l  f$ ~3 w

    ' ?* e4 Y9 i5 U- T4 [AiMX:为数据中心应用扩展AiM! r" T' y4 ^/ w, z: K, H
    在AiM技术的基础上,SK hynix开发了AiMX,这是一种专为数据中心应用设计的系统级解决方案。AiMX卡原型将多个AiM封装与FPGA相结合,创建了一个强大的LLM推理加速器。
    6 a' Z! l. Z1 U7 W- o: ]! [0 ^- O- U' w& |9 g, M( t
    AiMX卡原型规格:
    9 C  o- U4 i4 }) o, g. m) c# Q
  • 主机接口:PCIe Gen3 x8x8(双分叉)
  • 形态因素:FHFL(兼容A100/A30)
  • 配置:2 FPGA x 16 AiM封装
  • AiM容量:16 GB
  • 带宽:170 GB/s(@2.67Gbps)
    " j: k" k$ i- ^) F

    5 A3 c# i9 W  W1 z3 o  u. |' [2 E) _0 W4 a

    uvuu1aondnt64050447618.png

    uvuu1aondnt64050447618.png
    " N; T  l* V  m5 B: B3 f% ^, k
    图3:展示了AiMX卡原型,演示了多个AiM封装如何集成到单个加速器卡中。" L- L. W/ c1 I- X/ [5 p3 y
    $ ~" m: l! u; s4 H5 O: _# g
    2 k# m# r/ V/ h3 c
    优化AiM中的多头注意力(MHA)# c: a3 G, T: q2 u+ q. g1 c6 _
    AiM的一个关键优化是其处理多头注意力的方法,这是基于transformer的模型的关键组件。AiM采用智能数据放置策略来处理键和值矩阵,以最大化效率。4 g9 V' d+ M$ Z6 u0 j
    # ^# b' P% i$ c9 X; j, L

    c3yxtvzsdwn64050447718.png

    c3yxtvzsdwn64050447718.png
    5 w: O6 a- u0 N8 g" Y% K
    图4:说明了AiM感知的键/值矩阵放置策略,展示了数据如何在存储体间分布以实现最佳性能。  k: W, e) S: c7 ?5 f

    8 ~- X* A; z: ?. p# G) n& a* Q" ]扩展AiMX卡以提升性能  S* M+ _* m0 @( ^/ C4 `
    SK hynix进一步改进了AiMX解决方案,推出了扩展卡设计,将AiM封装的容量和数量翻倍。
    ) F9 p$ H# c5 V  @' Q; q- S/ Z) x4 K  O3 r- ?7 ~. J1 y5 X
    扩展AiMX卡规格:
    % P1 B8 k/ C7 c" N( {; m
  • 形态因素:FHFL(兼容H100/A100)
  • 配置:2 FPGA x 32 AiM封装
  • AiM容量:32 GB
  • 带宽:170 GB/s(@2.67Gbps)
  • 散热:被动式
    , Y% O; e. V  q% ]5 @5 z: t2 Q* p
    / M+ H, G4 F9 ^2 C; C/ A, D* L

    + }# ^6 b. X7 ^" f2 l+ [% y

    2einr1idvld64050447818.png

    2einr1idvld64050447818.png
    % X8 K% E/ R8 [2 o
    图5:展示了扩展AiMX卡原型,突出显示了增加的AiM封装数量和改进的设计。
    # a& @$ t# a4 C& j8 S2 h9 G+ T2 f& v& l- m1 k" k
    用于设备端人工智能的AiM和AiMX8 H( U" [; I9 T" M8 A+ T
    认识到设备端人工智能的日益重要性,SK hynix将AiM技术适配用于移动和边缘应用。LPDDR-AiM旨在满足设备端人工智能的独特挑战,包括形态因素限制、低批量大小和能效要求。: K6 Q' |) r% D- B5 F* \
    ( ?: r* Z) R9 ]1 q, g4 R
    LPDDR-AiM规格(每个芯片):8 k' k) U! f, }# n* i
  • 内存密度:1-2 GB
  • 组织结构:X16
  • IO数据率:9.6
  • 外部带宽:19.2 GB/s
  • 数值精度:INT4/8
  • 处理单元:16 PU/芯片
  • 计算吞吐量:307.2 GOPS
  • 内部带宽:153.6 GB/s* L0 C5 H' N8 Q1 A! Q. Y% {' _
    5 h9 N4 J2 w6 e2 x" p! l

    5 k- T3 }) f9 [+ l. X1 [# e

    zbuty4lst2y64050447918.png

    zbuty4lst2y64050447918.png

    ' V9 }+ z8 A* J图6:展示了LPDDR-AiM的规格,并强调了其与现有LPDDR协议的兼容性。5 v: N3 M7 O  t. e' `; F7 P5 G
    % B( ^) C, p( J4 n
    用于设备端人工智能的AiMX系统架构  ]/ s5 ~" L6 m' R
    设备端AiMX系统架构与其数据中心对应物相似,但已适配移动平台。这种设计允许与移动应用处理器或客户端CPU无缝集成。
    1 K, R& p) n2 r$ C! w1 a. ]- c
    0 c. \) H3 v6 n& e% K. T0 A

    3rs51v4jcd064050448018.png

    3rs51v4jcd064050448018.png
    ! W; [  @, r) x' p! z$ u
    图7:比较了数据中心和设备端人工智能应用的AiMX系统架构,说明了相似之处和为移动使用所做的调整。
    8 }( O4 c$ k$ H% z/ z" u% Q6 U# e; s6 ^& l
    : Y; T7 B( m7 ~0 O: Y
    未来设计考虑
    ! V, e4 B3 H3 F7 e随着SK hynix继续发展AiM和AiMX技术,正在探索几个设计选择:8 G. ~7 [" q: x3 C

    & b' l) E9 W/ H; ~8 l' u& t1. AiM功能
    $ m4 ?. @8 n8 I! w; |  W从GEMV扩展到包括GEMM和其他操作
    + Q1 [; O$ ~$ l3 f% N支持各种精度(二进制、整数、浮点、BF、MX)6 f# C* L( K& R: x/ j7 r& G
    探索异构精度能力
    * @: H( n$ f( K6 a& r# f4 J9 _. m) I1 }# C* X" Y% D
    2. SoC优化1 Q3 x6 y" f8 p9 R1 o
    平衡功率和热约束
    4 Y0 t8 Y. X1 m改善MAC到MAC延迟
      W6 f; Y# O2 l2 i" |8 y# D2 t. p优化存储体到MAC比率& i2 ~7 f9 j1 R
    实施动态电源供应策略6 r8 m+ F- m0 ^7 a1 i* u0 M
    % \4 o% N/ ^8 l: b* [
    3. 软件增强
    ( q4 r3 Z$ z! g# M9 q开发PIM感知内存管理技术
    ; j( k8 O' U( s( u& Q% ~, c! J实现大页面大小以高效放置权重数据
      f( h6 j2 z, k* B% B创建PIM感知内存交换策略" V9 T4 r9 M3 d9 F/ U7 Z& `
    & e' U/ Y- b- g# W" C6 p

    lc5opsyvnhj64050448119.png

    lc5opsyvnhj64050448119.png

    0 L' g8 n; m8 r图8:概述了未来AiM实现的各种设计选择,聚焦于功能、精度和潜在应用。
    1 ?& }& o: H8 i) i
    / ^2 F  n8 n/ L6 v/ y8 X结论和未来展望
    . ?7 y/ F( c5 W$ ESK hynix的AiM和AiMX解决方案在解决内存受限人工智能工作负载的挑战方面代表了重大进步。从数据中心到移动设备,这些技术有望提高性能,降低能源消耗,实现更高效的人工智能推理。
    7 i9 @9 \" U, I! J8 D, w1 P6 g" k( I
    3 R/ V& V& e$ S! T- n2 ?& ~AiM和AiMX的发展路线图雄心勃勃,计划为数据中心提供高容量解决方案,实现设备端人工智能,并探索先进封装技术如混合键合。随着这些技术的成熟,有潜力重塑人工智能加速的格局,使先进的人工智能应用更易获得和更具可持续性。7 ^, B" `9 R6 j7 ?1 R4 z# p9 P( [& F0 g
    ( B$ _! ~$ m! B5 T

    wrkwicmt2gk64050448219.png

    wrkwicmt2gk64050448219.png

      K  T; G# q: ^' V2 X图9:展示了SK hynix的AiM和AiMX技术路线图,展示了从芯片级解决方案到系统级实现和未来创新的演变。
    2 B8 M& S, [1 e& m# C
    . r5 U4 G5 ~" N3 {# ?& Q随着人工智能继续渗透到我们数字生活的各个方面,像AiM和AiMX这样的解决方案将在实现更强大、高效和普遍的人工智能应用中发挥关键作用。研究人员、开发人员和硬件工程师应密切关注这些新兴技术,并考虑如何利用这些技术来推动人工智能的可能性边界。, Y: J* h! ?# B4 e, Q4 C6 q8 J

    * ^& Z" Q4 J3 \8 _4 q. w' _参考文献
    ) F: Y" r, \) F[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
    " R+ f- ^$ \. r" q4 R* y& A( Q# |2 c! [" G$ l
    - END -
    * y& Y) h7 v& D/ L) H8 h" S; P6 \2 \/ z, A7 P( I
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    ! v$ y  M6 n: O/ ?点击左下角"阅读原文"马上申请' t: h- w4 o$ t$ n  w
    # u9 ~; N0 G5 r) Q' o- M
    欢迎转载
    ( j) ?6 L3 W7 V- x5 i
    3 y, O9 ^: r3 D! K9 k% ^转载请注明出处,请勿修改内容和删除作者信息!3 @: Y) s* i5 Q3 u; O. `4 b

    6 ]. i. n9 ~5 Q0 c! r& i' n/ g3 ]
    & D5 j1 ?' d9 u( l

    0 U7 ^/ @3 ]* D# x; c

    yclq2vua1oc64050448319.gif

    yclq2vua1oc64050448319.gif

    , r; q/ `" V; n( w! w' w7 P/ @7 I  x5 ?3 R4 l
    关注我们
    8 }7 h; u, p: X0 {( \- m6 A* S8 T. y% y2 I, v! Y
    # o. Q4 ~2 {) C6 ?$ j4 v# Y# S

    xq3egfybadd64050448419.png

    xq3egfybadd64050448419.png
    ( z1 H. }3 B) \& Q

    # h9 a; b: V% }( H, u5 y

    xbtnl4chepl64050448519.png

    xbtnl4chepl64050448519.png

    9 g* G& @' J% x7 s  M, h1 L

    * k( r) Z7 O0 q  M) N* ]

    c1udmeeonna64050448619.png

    c1udmeeonna64050448619.png

    2 g( Q$ P5 @1 m0 X) U" `
                          / @' j, A- u. B* V& C& n. ?
    & L! r) U  R! h
    0 e5 ]: w% G- w% k: }9 P9 i' B

    $ u9 i6 L0 V7 A6 `: E关于我们:9 d  {; j5 ]' L$ x
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    , @1 B9 `7 o3 v( j0 F% \$ [* M1 P; ], z) b. U
    http://www.latitudeda.com/
      L5 o* c  S' r' F# `4 |9 p8 U9 ?(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表