电子产业一站式赋能平台

PCB联盟网

搜索
查看: 63|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言
- \9 Q& _( Y' e& m本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。; q% f8 a( D: ~+ R4 ?, ^# _
9 W& Z4 z# `8 N

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png
  C" ?+ F1 m- O: Q# n' F
图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。
: t9 J7 a3 V# d- c7 `8 H6 t+ d: {
8 g# S6 n7 g. |1 ~
8 l7 ]: X) S' `
先进封装和内存集成( q0 E/ Z3 H, Q* I
Lunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。
4 t+ F6 j/ t! Y4 `
4 R- L! i7 B% b* ]( |8 g7 G1 ]

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png
' D: q, I8 B  f
图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。) G, a0 _5 s8 f2 n9 i5 }; X

) N+ L- x7 u0 \5 T% a. pLunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:
; H. U6 S$ p" ^$ I7 z
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积
    , c2 O. z. |6 |7 F2 @; q. x
    % F  ?, S* t% ^# q8 A) H" h
    架构框架( V$ g: Q6 x, {! G
    Lunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。
    6 }' S% M% ^! A1 \
    3 }: N. N1 k' b7 u8 e; W% D" T, R

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png

    % Z. ~: m  O/ m1 q0 o图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。
    3 N; ~5 w& B2 ~2 j) _$ p
    5 o0 j! I. Y$ p计算芯片9 s4 u3 H' f9 v, d1 ]5 F7 \
    计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。
    1 [& _3 i! Q3 l: p9 f
    8 n; B' |- `, c7 D计算芯片的主要组件包括:& R  ^3 r+ g5 _/ a
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎$ W9 t/ T! }  Q9 k0 ]; i4 p
    1 f4 d5 x5 D7 V) g9 l0 i& Z4 x7 o
    , e- T' [# ?  U

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png
    7 W9 z4 M8 v' g/ w
    图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。; @$ R! c1 k) Z- k+ W6 {

    ! M( f5 E$ |8 |/ X内存侧缓存
    ( r$ ~9 G! w6 tLunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。
    # A; Q$ Z" X7 r4 q$ `- }  }) Z# F4 L1 ^4 `* m( k, A
    增强型E核心集群
    , S7 K1 s+ h8 x6 QLunar Lake的高效核心(E核心)集群得到了显著改进:! n  {, W& h$ }+ U3 P
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电
    ( ?0 A; T: K$ `6 z% i) J) }
    / U1 f* ^- F4 ~
    供电和功耗管理9 r3 n4 V8 K! M
    Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制( s' D* w- s7 e  p! B5 y
    [/ol]' f3 z' m( X8 S! y- a, R/ a9 s
    性能核心:狮湾(Lion Cove), [) L, _" w) @) Q  M( s& [2 B
    Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。
    : H' t2 E+ g! F% z6 a; W2 E3 c* `4 z/ _3 W0 p' o
    狮湾(Lion Cove)的主要特点包括:
    # d/ Y5 q5 x$ y
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理/ m. F  A0 R7 \1 |7 B, z+ Y) k6 h
    1 E9 C$ U6 U1 N# k# M* i

    % w$ _. y  A  j' \) e4 C( h6 L( }

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png

    : ?/ t( I$ C$ e图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。
    , ]' A) P0 h- v' c8 d( n" m
    6 F$ u% q! @3 i高效核心:天际(Skymont)
    $ X2 r# `" G% f- g5 z4 ~5 t( c与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。- s7 \: [/ f( Q' H) n9 j

    $ C; x4 k/ q4 o8 G# L天际(Skymont)的主要特点包括:4 H( `/ t: }  C( k2 N( O
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量- o  g: I' A" b, i/ U8 s. T

    , R, V' J7 _2 U3 L+ C5 d& B, |# u; M) B% E) ^

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png
    4 O6 i2 _6 [( A4 b7 E' z
    图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。' g# G8 t4 [* O1 k2 }* M# Y# i

    ' @: ~2 V! C/ N' Q0 `! @下一代Xe2 GPU5 G( I5 S/ Z8 `, E
    Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。$ O' g4 e# g6 j5 P) Q
    主要改进包括:4 [0 v) T+ d& }
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS
    * a  i% y& H% Q/ E! w

    6 n/ a: z' H! M
    + F$ B6 N9 ~5 b/ w% P# J. W" w! R

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png
    $ r9 Z. }) L1 w4 x. B
    图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。
    # }% |- X+ |# J6 n9 B! r2 c* G! w% {, {5 \" {
    下一代NPU 4: p$ b' G6 k: r1 v4 n7 B8 D
    Lunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。
    ! p. I4 G# j9 n* B7 i& Q5 x( V
    % C4 [" \* U5 ~$ q) a  o- I0 JNPU 4的主要特点包括:
    5 \, B$ K7 T( I3 O  P4 x3 k
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS" S% e/ d. `) E3 w  l
    1 K* f* w: j% Y& P7 V1 K% Y

      `1 ?$ t. Y( b; e4 L+ P( F

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png

    2 ~0 t2 L' C! z) {  u: @7 p0 ^图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。
    4 E3 ~% X1 }. G5 w# y0 _; z) v$ G6 z6 T* Q/ I, m
    连接性Lunar Lake将先进的连接功能直接集成到封装中:
    8 m5 B2 u) n  ]
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.0$ j4 ]7 O. r1 |" ~. k) _8 A; F
    % S* P/ i  A4 `( N& v

    2 o2 O. M% N. i4 N

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png
    1 ^1 P7 F, Z1 k. f! }% R6 X
    图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。2 W2 a- ~9 p2 z2 b6 ~0 A3 P
    % U3 ]0 ]$ ^5 D# j" ~+ G4 u
    结论& P# E8 n6 ?3 E8 b. k
    英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。
    1 I: F& {) a  l: j
    * ?; [. N5 W1 F! n* E封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。
    . v( l( b- j1 e- w# L$ y9 L( |; B; n. m7 t" h& e# D' ?2 k
    参考文献
    - [2 x! T+ Z1 J  ?8 a5 J[1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.
    * w/ ]% E1 l, z" T6 n) a6 o% } 1 O: a/ y8 o: @8 e' o1 U3 D
    - END -
    ' Z' C. Q7 M7 _5 w1 G
    . m" l$ ~( G) i1 v7 P软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。, S& p' Q4 {+ s  O" _4 u
    点击左下角"阅读原文"马上申请
    ( f% r5 M: m+ f7 z2 V# D( T9 Y; C
    欢迎转载
    6 J4 |7 r7 R$ p+ L3 B
    * }  D$ T+ @9 h% R: v) M& J- a. X转载请注明出处,请勿修改内容和删除作者信息!
    7 Z4 m4 z3 {) F. _' Y6 a# r+ H
    ) V0 C4 P* n* b3 q! Q8 `9 r4 {, s; J" e9 s2 O4 h1 b1 c

    # W. \; N6 {# w  H

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif
    " E7 F% t+ [  b. b$ L2 Z

    6 e5 A. ^* d" X关注我们, j' H8 [" {" L4 M- v$ H
    ) g6 j6 `0 Q. w$ @

    0 d( u. i( @$ q7 k5 ?& ]

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
    ; R# F, }: @% n( |: g- f% f

    $ I* p- V& Q; F+ j0 t

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png
    2 ~4 p, v# @6 B5 [; |! g
    6 A. O; i; e- K' }

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png

    1 U/ K( E1 p2 x, I
                          * E( S* a7 }0 d8 r" q, ~: `9 S

    * Z- \( s# B) m( J  g& }
      t9 g' L$ }' ~0 i# ?# Y/ u0 v# c/ _. w
    7 X/ Y9 S9 Q  i1 K# M, h1 N
    关于我们:" U! y3 ^" S- `+ v8 ?2 A+ c
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。- K2 K1 p2 v; b- O! Q7 t) g6 _

    ( O3 k( Z7 x. ^) Q/ Lhttp://www.latitudeda.com/: Y4 x8 d6 }1 \3 \9 d/ w
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表