电子产业一站式赋能平台

PCB联盟网

搜索
查看: 200|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

970

主题

970

帖子

9635

积分

高级会员

Rank: 5Rank: 5

积分
9635
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言
2 u5 e" X3 l3 X) f% L本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。
% m3 U. w, x3 }6 q
3 G& Q( L( n3 K$ T* |, t2 _

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png

# ^) f2 @& a7 p4 a2 ?0 N$ M% k图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。& ^: q' q/ j  K5 n" y7 [5 C' `
5 [8 |  ^* ~' z9 q
' b* f- ^) o/ ~8 R
先进封装和内存集成
* w1 B5 y3 b, L! LLunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。
" n: x  U7 r; `0 p" D* ]! k1 M; }' u) o" ^' C3 r1 h

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png
2 P8 u# f6 O# X" G
图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。. j7 s1 c2 ?' f, x$ M( s( O& Y5 o

& ^7 n! `3 S3 q4 c" K! o8 iLunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:; p& b3 ~; I; ?# V
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积
    - v) b2 ]% H  @1 s
      t' B2 N2 t2 _2 g
    架构框架6 l  a$ Q  A- j; M* O
    Lunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。$ A( z; U. H' k

    & O6 X& `1 o6 P: K

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png
    0 l! _: a3 B. X2 x3 ^; q. G6 t
    图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。
    ( n1 H' D3 z' \1 o
    $ v: C) b, l1 B. c; @# ]4 l计算芯片4 R" a% n2 k$ h
    计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。
    + t4 s5 ?  ?5 P  k
    * Y  R5 d4 C6 O8 O计算芯片的主要组件包括:  i1 p1 B3 a- y4 Y& x% @
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎
    4 ?. i) ?' ^5 ]9 [' J

    1 [+ e/ W1 H0 l+ F9 p8 D5 T+ v
    ) e$ ?$ F7 b' Z6 R" M0 |( A3 P; T) b. l

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png
    9 v/ L7 F, S) w3 V, f- T
    图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。+ M" w" e* ]% L6 V0 R: i

    ; ?+ f0 Y! c+ Q4 V) f! c, }内存侧缓存& O; t) V  E) i8 ~, d0 S
    Lunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。
    9 u* |& l. d* V/ F* Y. a) Z& i6 h, O! y$ V
    增强型E核心集群1 T6 ]7 i) _$ ?4 t' a2 B4 P8 n2 n  |
    Lunar Lake的高效核心(E核心)集群得到了显著改进:
    4 B* L2 f# A0 B& w% o( l! O
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电5 g+ J6 I" u& V
    ) b" ?9 Z8 D' J8 k. q8 N* Y
    供电和功耗管理
    , T+ u- z& Y* U9 {3 O. H" _Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制
    , G& a2 {) v- C[/ol]2 R; ~; _- N3 U
    性能核心:狮湾(Lion Cove); k3 M& R6 j+ j
    Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。# W* t3 Y# u" ]  i
    & w, a2 D) C4 V# b, d7 @* f
    狮湾(Lion Cove)的主要特点包括:
    + ?* t; F* \1 @8 Z3 p) W" C6 W$ c
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理
    : X& M3 F7 \  B% ?# ~

    + r; d/ o5 H4 }* x
    + ^$ {. `  \$ h. j9 i- W. \

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png

    - n* {9 |  g' Q0 T图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。! f6 p6 w$ t! I8 r% e# K8 w
      [& X4 |- a" I& i7 g6 i, V
    高效核心:天际(Skymont)# J6 v. d4 J4 G1 T6 f
    与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。
    ' s8 h: ^) [+ E! ~
    ; _0 z+ J0 D. T天际(Skymont)的主要特点包括:# @6 @" j1 D6 D1 |3 Z
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量
    : M9 F' ~8 a) Z$ ~* Q  T
    1 U# b' V4 A# ^. z

    3 N7 u! T7 m* B: ^0 }' L# n

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png

    ( W0 T1 g! Z0 x7 G& V& d% c6 _# |图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。
    / F3 t& [7 q. e$ u9 A9 Z' r
    2 k. D9 P+ U( f4 J. l: e下一代Xe2 GPU& ?8 T, W! _' b0 e- e: w' B4 `
    Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。. q( w% v  ^) l9 I% C) o" n
    主要改进包括:5 ^6 z) g7 X+ y
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS
    7 \0 k1 T' T5 \5 p4 l8 v$ g

    - ^: ~- b: L+ U( }: e- w9 G2 f
    . e1 a; S* _/ z  h& O3 F1 S

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png
    : C% E! M& R6 T9 Q9 a6 }; F
    图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。0 f  O/ |$ {5 [

    7 |2 v8 ?$ d3 G, g* w5 c! w% D; A下一代NPU 4
    2 E+ Q4 O6 [1 x* v0 Y$ OLunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。4 t- C1 o+ V: w+ U4 F( S+ f. s
    ) m( j7 c- b7 M6 e
    NPU 4的主要特点包括:
    + [# y1 @  x$ x1 f
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS
    7 T) _( T: P, t1 ?% Y: h- d# G

    9 q; ]3 y8 D" O2 P( H+ A4 U  d' S/ n$ p

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png
    3 t( o" }3 u$ s
    图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。* o: A0 s* U$ E- y* O& a3 a
    ! ]# Q* x0 Y3 {  L$ b- e+ c" |+ I6 i
    连接性Lunar Lake将先进的连接功能直接集成到封装中:3 D% G4 R  b7 M# b7 e
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.09 K* L4 w2 Z; {

    5 g6 u+ D2 G1 |& ?% }# L, x( v" Z9 ]2 o0 Q* ]- `) E5 O

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png

    0 p7 g: y6 k1 u3 A8 d( I, W, T图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。
    7 G2 U, q' B8 k5 c! e( z% U; Z' j( G, s4 f4 j, X
    结论( {$ T0 G" [8 w# h: [- b
    英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。# v* k' d/ E7 M3 D* u. O

    + J6 t* |6 V) V7 O6 O# r封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。
    ! G4 g# \9 |) D% ^; Z7 a! |" C! V8 e3 J( L; _6 C
    参考文献
    3 |0 [7 Y+ e) T$ _/ ][1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.
    # g2 j* X5 X: u8 t
    $ L' W9 I' W: Y" r- END -
    5 K. k. u3 n' v' o
    ' v  K$ W5 U  P软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。. G0 o3 A, p) I
    点击左下角"阅读原文"马上申请' g& S! L; t) B% m, g) D
    ( L: |" B7 [2 D5 f' g& k
    欢迎转载5 a4 B" z: w+ r5 A: J
    1 U+ q9 U3 G" ~. A3 _0 p; f7 A. W
    转载请注明出处,请勿修改内容和删除作者信息!8 ]) ]8 K* |" Y7 b2 t

    6 L3 b% t* c) B
    4 q9 c7 U9 x) m& j2 g# h3 h
    6 _, `: p* f+ L( c  W, X6 ]4 B

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif

    $ W: h9 i' r, t* d+ w  X5 n6 \. t
    关注我们
    4 \" E) ?8 }5 ~# G- }
    , Q3 N1 ]  |# I; w# m  z; [& h; r  n

    & p  l/ s6 u5 A! E3 h! p  q% H

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
      t0 `) B1 v4 B7 u3 ~, p: U

    : G8 u: H% K6 H+ D/ P, k

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png

    ; U+ r. D- E  P) g
    6 [+ K' R0 M( ?- v

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png
    ; K0 P, {! _! o: K
                          ' h- y3 I& f: g. Y6 Y

    * m% V5 K. {" V( v; K1 Z6 \3 a

      Z0 D. \1 L) a8 S; `
    " ]) i( p$ v5 X6 g( H2 Z关于我们:
    ) f* f" u# q5 T4 `! m' _; ]深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。1 n! V, g8 ]% b  b- O

    ) t- g( R: s# [+ o# _http://www.latitudeda.com/1 r4 Y; y: `6 C( _9 p
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表