电子产业一站式赋能平台

PCB联盟网

搜索
查看: 206|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

983

主题

983

帖子

9792

积分

高级会员

Rank: 5Rank: 5

积分
9792
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言
1 `+ ~" |; X; @5 {2 r% [- B本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。
- c6 B( ~: i0 J- f% C/ D$ I/ q: D% i9 G4 f

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png

6 b% p3 A- r7 c# k+ {图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。
" a  A( d* a3 n; g, F9 }
$ P; V! W% c$ O$ Q+ Z7 W1 R: Q
+ g- O: N) u/ t% G1 |+ V
先进封装和内存集成! Z. T* ~* V6 J+ y4 t9 ]% @
Lunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。6 i( T' {8 i; y; \# V
, X! n, e/ ]2 s) ~; U

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png
* B7 l$ _1 E6 D  g% c( L
图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。
4 u. ]8 g' ~; a6 z) l' `. R0 K% @! ~
. z, ^7 {- n6 G  L+ ?Lunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:
+ n7 D4 e9 F. f  e. E
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积
    ( @- d$ |  l+ Q$ [0 |

    % V* [( @3 d* Q. G; v架构框架0 d( _& N$ k2 T& Q
    Lunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。
    ; W9 c) p. K: M- z) g' U/ R: J/ ^0 M5 e, X" A. ], C

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png

    8 m  z# h6 i4 x: N+ v4 O! G2 A图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。0 a7 \3 U* D! m/ m4 ?$ v  |: d& J
    ) J, V2 D9 i1 L" b2 p4 f3 v7 k4 m- V
    计算芯片
    ) }) o$ s9 u/ |. c# S计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。4 u. n2 b9 Z( |

    7 H. Y1 _2 K  H# e' H计算芯片的主要组件包括:
    # q2 z5 Y/ O9 B( y4 T% ?
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎
    ! ^" D5 O7 f5 r. z/ e
    8 W. p2 p* y1 e3 l

    # ^1 q# u! U! B! u3 [1 T- E) N0 I5 `

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png

    ; Z/ f: K9 N( E% T7 E' Q/ |& e  B图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。
    7 a0 `1 ~1 S  s) [1 P/ H, M: s' |8 f# O& {; ?: @, D2 j
    内存侧缓存
    $ W+ I1 F# _. \1 r& V  i, wLunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。3 Z& s8 b9 ?/ L5 r2 W

    * Z) z; H. {3 d. D8 K/ d增强型E核心集群
    9 o4 k/ l. ^6 T0 y- y3 LLunar Lake的高效核心(E核心)集群得到了显著改进:
    1 I! S& ?  x* N* E' |) I, o
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电
    " a: U* k7 B- Z2 O2 G

    " k4 O# z5 L" [; v. G  z供电和功耗管理
    7 v, P( y2 B  A0 y( {3 k9 |Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制
    & H1 h  O- s! H. v% b[/ol]7 l4 {7 P# G+ X7 G. J. C% H
    性能核心:狮湾(Lion Cove)( q: G, b. s; v
    Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。% i  w1 p7 \3 K6 T# I1 O+ C: W

    : d* }% ?& h2 o# T7 d; X3 P狮湾(Lion Cove)的主要特点包括:! l4 z# L9 @9 i2 R9 M8 A3 o
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理
    ' I( `# }) g: d( _! c

    ) y/ p- q: n) t3 s% K& p8 r! I- \% [

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png

    ' {# {/ L2 t' M0 F' D6 U图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。
    2 Y; S. }0 _$ z, k; f, q# d
    - \9 `: H) x# A' {  Q0 P/ y高效核心:天际(Skymont)
    + d3 Y" M% K' m  N5 ?1 S" j1 W) P与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。
    + }, |) _" @, L% d' o- ?8 [' Z, w, P& m6 V
    天际(Skymont)的主要特点包括:. q& K& J5 \: I4 k  l2 W
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量
    " W$ y. m) k* ~4 a0 X+ U" j; g

    6 k5 f- C: [+ O. E
    3 ~8 d8 r; H2 a2 L& Y4 l

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png
    / H# N# O0 d( u( K, L, O5 N
    图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。) W) P* B/ y: x  n1 r- ?( [

    3 j* }/ H- {0 _7 p下一代Xe2 GPU+ A/ z, p* }" H. J
    Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。
    1 g/ L8 K3 W2 N- s9 h主要改进包括:( G8 Q' j7 S) S8 j3 Y4 B5 C! P2 |
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS
      `( ]$ T' S8 o
    & n& i$ N9 F  r2 b* B

    + J- J2 E& ~5 W+ @0 |7 p; x

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png

    - ^. j6 B/ r( V* Q2 d' [( {! c图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。
    : S3 z8 |, V" |% ^- Q, f, `! f0 b6 K6 O4 W7 P% J8 `# T
    下一代NPU 4
    & ~) N: e8 s3 w+ H! K' x3 OLunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。2 I1 j7 I7 ~9 g  U* U2 J
    + u) Y/ ^+ h+ y( g% y7 |
    NPU 4的主要特点包括:
    0 g# a' n' ~8 p2 G7 r5 g" w
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS$ L3 M  N7 V# {  J5 q, U. h8 z
    * }& s/ A3 ]7 B5 O7 G, [& m$ f/ y

    ( S9 O4 T: r; ]* p9 w& G

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png
    # y) e2 H' H6 z
    图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。
    ) |9 \  [# e; R+ ]% u4 d& L) @* Z4 T+ u% c" Y
    连接性Lunar Lake将先进的连接功能直接集成到封装中:
    $ f$ T0 m& a! \1 J
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.0
    ( @" O0 x5 |9 [+ S

    9 I: \. S( x; i, g% J: G
    : V6 |, o1 S3 d( y

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png

    + }  X. {4 q# j2 p( @图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。# }1 N) z0 p! |9 w
    . [9 J! Y" X1 _3 |# E: x$ {% g
    结论
    3 E8 I4 O$ U# T% \$ d' ^英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。
    % t# X  E/ O: M8 a5 N  i% c- L# s" i, m: f, u4 w
    封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。
    + @- }% b: F& L# ^$ B% A/ z3 [" z  B) z/ w2 x/ h  p3 Z  U/ R
    参考文献
    " b) F% @2 f: n[1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.
    ; \0 N0 C% S! f9 K6 k' m3 d - b" J8 s6 g# _/ @4 C$ r5 F) I- t
    - END -
    4 F2 G5 P7 ?( k+ P6 A  F% c! E" A9 K  x9 e& h7 ]
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    " u0 [/ S* {) F+ g, @. H点击左下角"阅读原文"马上申请
    8 n' l- D0 g' T# z4 f) M& R( B- x. v: W; ~' |+ X2 J
    欢迎转载
    4 Q- _1 j' P, w2 |. K) p' r! A( `8 P
    转载请注明出处,请勿修改内容和删除作者信息!
    ! Y  B1 W0 p& J' O1 S" g' g4 m- K

    7 s9 f- J4 w0 ^8 ~- P4 A& h

    ' g: K; w% V" q( }! k$ O" ?7 \2 c2 j

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif
      i+ `+ S% S+ f8 s0 {% V, K

    ) m( h4 G+ h9 }& t1 A# \1 Q关注我们3 e1 ?5 T4 B. E' W/ A5 x5 [) `& z7 W

    9 G% o2 }: H) ~- m; Z3 J
    - ~! p* i1 N4 V% w1 |3 H

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
    5 p% b: C- _, g& E- o7 {

    ; W) X2 u+ m; `5 \; I' e

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png

    & D8 U! R( t- u1 w+ |2 s
      ?% ]& O+ t% m. ?, |3 K9 f

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png
    6 x" l: \5 }9 A2 b
                          ' n# c! I$ e  z9 p+ f4 ~  x
    - Y9 q8 d; Q3 A0 o1 j
    - J& d/ W7 }$ Q) x

    ; Q& ^4 A' Q  |- m9 R# v" }4 J' x关于我们:
    - M2 ?' \2 H$ @# w8 z5 ^深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    % E+ i* K2 T) U. R# M4 r6 f3 ?% _% r7 l# Y6 t' M
    http://www.latitudeda.com/
    ( d0 N; g( x, ^; w9 [8 b1 P(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表