电子产业一站式赋能平台

PCB联盟网

搜索
查看: 205|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

978

主题

978

帖子

9715

积分

高级会员

Rank: 5Rank: 5

积分
9715
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言, {. e0 E: M/ R  F- l, d# p
本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。' {; T4 W$ x  t

6 D+ E6 T7 k+ n$ O3 _, ~

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png

' ?: X% }9 C) O7 f/ Q图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。$ N3 }1 l: i0 n5 x
9 _- V" J; _1 R: P  \- _0 f

: m2 I$ }( D- |2 J先进封装和内存集成
1 k( A- q- Q  @+ n9 W7 e2 ?Lunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。
3 C0 j9 p6 {, d, X/ f3 k( p9 C3 Z5 S

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png

$ U" j( A+ ?$ G8 ]图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。
0 b: i3 f0 _8 h! n; T5 ^& l9 {$ f% y: ]4 k1 A& @' |
Lunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:& Q8 j) J' |' _2 j( h
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积" d. t% n3 C0 t% I" ^

    - U1 k& w( C% J5 F架构框架
    5 t; H& ^3 @3 D% \2 |" b/ h' V( j' ?0 VLunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。
    ; p7 N$ {) f5 H, N+ [+ r8 s( i
    * t2 _5 [! y  Q7 |; H/ u6 r0 [

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png
    $ W8 @# o2 F6 z& {1 E6 W3 ?/ r
    图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。
    # G( G  o6 ~1 i  r4 g
      Z' |2 \9 K- F% x! F4 d9 P% s$ {计算芯片
    0 J' N! ?" m/ p3 ?计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。) ~1 L- T* c% B% ~
    2 k4 C0 ~8 W- u4 E8 C( `& _
    计算芯片的主要组件包括:; x6 {- E$ C% h" u3 u
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎
    / E" F) d5 c6 w* V
      S0 _$ I4 b8 P* L5 J1 [
    # a# G: T2 _/ C! }. C9 }, e& R

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png

    - k1 B6 Z+ ~! O  F/ y图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。
    2 q3 o( r9 Y- ^& x4 I& V9 R
    6 h- e8 K) Y0 w) f3 N) U内存侧缓存# |6 G" V$ z% J
    Lunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。
      G5 L; D8 x9 Z" r
    , w8 p3 S- S. w- b. p增强型E核心集群' u8 g8 F: x8 v2 ]1 Q
    Lunar Lake的高效核心(E核心)集群得到了显著改进:
    0 S. z" ?- w9 A( k0 J
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电4 u" G: F5 m! ^* t7 B# p
    2 q7 J. B3 o+ ]* A
    供电和功耗管理) ^0 I- w6 P. y# h
    Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制1 L3 D- |3 v1 N+ L1 l( B$ ?
    [/ol]" B, h( l7 J& c- y! ~
    性能核心:狮湾(Lion Cove)
    " c% e$ i) [0 N7 \Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。
    " N% n/ E; g& R. K* W
    % m' V4 y1 }( A; P; i8 c" S$ m/ w! v狮湾(Lion Cove)的主要特点包括:
    . s- S, [* l# R$ R! K/ j
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理. I2 D- E$ e( m0 d- l. o
    ! E- W( X+ J" w! |
    ' W* x- [* X( G

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png

    8 i- x5 X% g3 @* `( O' a+ I图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。+ m2 u3 I. C2 d% W7 x
    + i2 e' N6 \! E+ Y( O7 [
    高效核心:天际(Skymont)
    ) P/ {) Y  a( G% c与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。
    4 U5 b1 g+ e9 y! K% W+ Q) |. u, x" w4 j  h/ _
    天际(Skymont)的主要特点包括:
    ' c; z3 [: k$ K+ _- B
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量
    3 P7 @2 u7 E  c# e" I6 J' x4 t+ d

    1 [+ h- n+ k7 X9 U# d& b& F- P$ `- g( z" H7 c, w% H0 {

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png

    # @7 Y3 @: h2 E. b: L/ [图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。# m+ s; }$ R; \! ^% H3 S

    $ g/ a$ v2 }+ W! F! `3 n- Z" E下一代Xe2 GPU
    * h  T- z3 j3 w* ?Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。7 C0 ^9 v0 Z& @7 H
    主要改进包括:
    . c, B" n8 J4 S( `5 n; Q- b7 I
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS! E9 K4 A4 Z2 B# b& S* t. z

    / P# c  L  r$ ~8 G9 J$ R( P; D% F' J% ]! J

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png
    ( k6 A, Q1 z) f3 Y8 ^
    图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。2 E* ]( C+ k( n- k3 y

    4 S! Q6 E" E  e6 X) H/ l8 a% [下一代NPU 47 M- i& {$ a% K5 x6 A
    Lunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。
    + W" h5 r% H: J4 _( t/ h; `  Q
    4 S; _+ [1 r( X" bNPU 4的主要特点包括:
    0 {, P, x  g: _4 l2 @9 ^- b
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS' L3 ?2 }! h! ~7 }# R

    . H& O9 h# K$ b8 _8 l- M
    & m. h4 G) F" K

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png

    + V1 A2 w# j+ M6 b" `# j: y) N图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。7 k0 Y! m( ]+ t
    * E! A; a& `. ]+ N
    连接性Lunar Lake将先进的连接功能直接集成到封装中:
    9 T/ p% H2 W3 T. J3 ~# P
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.0/ L  G# Q( ]; D0 K6 I7 I
    $ X% e& S- \# t! c8 m! F# }
    + b9 a' R4 N5 u# U) X' {8 p

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png

    , e( v; f7 U% L- ~( }: F  z图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。1 ]' k5 |1 b0 ^! U( w; ]5 A

    ' `4 g! H4 t% L# T, l: o( ~结论% R" [( R/ R- c
    英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。3 P  {) u+ z8 d2 U
    # r' v, X1 ?8 y  y' ]- i
    封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。
    1 V3 k. S" ~+ [& a% {" b( K( O4 Y; Z& ]0 a7 z) u
    参考文献6 `- Q/ A( R" k  n+ m) J
    [1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.) I( |9 L$ q, u- c
    , R0 j1 i( }1 e+ [
    - END -+ Y3 ?! y4 k; ~# _4 |$ G! \

    ) _* w8 @) Q, E/ q4 ^软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。. k6 o+ q% ^  N$ v
    点击左下角"阅读原文"马上申请, g+ K" {  ^9 u

    ! n9 U2 H; T9 }* s: }, P# p1 @+ e欢迎转载; U+ {/ r% ^9 A5 d& f+ d
    ; H/ \# E4 u# \1 v
    转载请注明出处,请勿修改内容和删除作者信息!& g- ?, h6 w# j. S, g6 j+ G
    * a4 m5 a4 z% x! b  m3 x
    6 j7 [* Y5 H3 A  |& N: |
    , k8 B# J% |7 y- p

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif
    * S7 o  N" T1 |$ L# ^  S: S* l
    6 J; }4 b- X" Z% F! B  d
    关注我们
    - {7 s% J5 @: Q! T5 U0 U0 s/ E+ d8 g& R$ u6 s$ u6 h5 s- j, F

    ( a- G: K* H4 R$ J2 F" a* ?$ m

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
    . c$ p& Z6 ?- r4 K2 h/ l

    9 U' j7 Y4 ~, {, i! T  A/ s

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png

    - f3 O% T) Q0 q+ I% z

    6 _0 m5 A/ B0 |! Q  ~# M

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png

    $ O/ W: j8 ]- E0 p
                          - W5 Z( i# x" X& P0 ^6 E

    ; z1 W, |5 @# x) ?% C. m' e, k
    4 E: _: X- h7 a

    : N: @/ D# d8 H: P- r; u( ~关于我们:
    ' w* {: s) G/ L5 A/ R  U3 f深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。* v& A/ O; p' |. ~) {8 G

    6 L# u3 O; n$ A6 ]1 n6 y/ g6 xhttp://www.latitudeda.com/% e1 _1 D7 d/ r# c, r0 e
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表