电子产业一站式赋能平台

PCB联盟网

搜索
查看: 232|回复: 0
收起左侧

Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

[复制链接]

1056

主题

1056

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11032
发表于 2024-10-10 08:02:00 | 显示全部楼层 |阅读模式
引言
! C% A! c0 \9 o, `) L本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。
  n+ X+ ^3 u3 B' ?, |0 ~. w6 p4 z/ z# z2 @1 l- z4 i/ |" _$ {" w# g

tkvyhnvndhz64072298216.png

tkvyhnvndhz64072298216.png

+ H6 Q) V2 D' L3 k图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。1 A8 s' o0 F" }/ s& q4 J
6 A+ O& O; M4 H# t9 ]0 M

9 T% T- X4 M7 |; K5 {先进封装和内存集成
: W$ j1 V) r0 E# J8 GLunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。( @6 F5 [7 M( ~! m. X, M

. {+ r" I" [) ~; o

a54euqcenvs64072298316.png

a54euqcenvs64072298316.png

+ n4 W$ f; `, E$ C; T! r- F图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。/ L8 ]/ v. H. T+ d2 ^
/ u6 r# o) W5 x5 H6 ^8 ]
Lunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:
+ O" S% }* ?0 _
  • 支持LPDDR5x DRAM
  • 最高32GB容量,支持双列
  • 每芯片最高8.5GT/s传输速率
  • 支持16位x4通道
  • 物理层功耗降低40%
  • 节省高达250平方毫米的面积
    # d6 c! T0 {  s+ d+ D5 |

    9 z( K0 ]- \9 f3 L; ~0 w0 w架构框架
    # ^0 ?/ g$ P5 ^; t# HLunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。
    5 H5 q) A& q1 e
    ' K2 j. E* b5 q1 I& c4 V4 m2 F0 L" Z

    jtdebbnc1hv64072298417.png

    jtdebbnc1hv64072298417.png
    9 a: c6 b+ e* u, k9 h1 F4 s
    图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。
    6 u1 K; ~7 ^) r2 H# w
    2 [8 E6 [; ?, c" u0 ^6 M计算芯片0 i, M$ j1 V7 q8 n4 x
    计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。
    9 p3 n: s5 M( H6 K& `
    ) i! W* G3 p' b# l  ^( Z计算芯片的主要组件包括:
    ' k* f) \7 ~/ P0 s# C$ w2 H
  • 新型片上网络(NoC),具有增强的缓存功能
  • 优化的内存延迟
  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)
  • 性能核心(P核心)和高效核心(E核心)
  • 媒体和显示引擎
    ; ]0 F* O: B7 ?2 p1 B( U/ P5 h3 K

    # Y  r3 c3 S" o! N% c6 J1 E# Z
    % p9 e0 Q4 x0 k# i

    i1z1rsoap1l64072298517.png

    i1z1rsoap1l64072298517.png

      e  S) p' p* k5 o图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。
    6 Y( C8 n4 f' O6 J: U' V. M
    ' U  H; Q8 A6 F/ H: ~% p3 \* S内存侧缓存# l& a7 a5 g( y0 @
    Lunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。& c* i! h* R# r& o

    - `! K$ ~' k4 a9 o增强型E核心集群
    8 w4 N) x; r8 j& G; YLunar Lake的高效核心(E核心)集群得到了显著改进:3 B. p7 w, {3 z3 t
  • L2缓存增加到4MB
  • 采用先进制程,提高频率和功耗特性
  • 内存侧缓存改善功耗和延迟
  • 相比上一代,核心数量翻倍
  • 独立供电
    2 n& @, I/ H5 [$ a
    5 C+ Z' D7 w" {7 |0 }9 X% }
    供电和功耗管理
    ' b! R. Q4 x, ^: E8 ULunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:
  • 采用4个电源管理集成电路(PMIC)进行供电
  • 更多电源轨
  • 增强的遥测功能(IMON)
  • 动态电压ID
  • 升级的功耗管理,英特尔线程调度器专注于效率
  • 改进的"睡眠"状态,提高功耗和延迟性能
  • 针对不同负载类型优化的功率平衡器
  • 基于机器学习的工作负载分类和频率控制
    & ^* q0 I1 r3 }( L7 J! ?  c[/ol]: K' F7 y: f9 ]3 b
    性能核心:狮湾(Lion Cove)" G$ ]9 o2 R7 g3 p- @8 c, e
    Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。! C8 G% F, F7 Z
    / I9 |# g' Q- s+ l6 Z- J+ ?
    狮湾(Lion Cove)的主要特点包括:0 @4 L7 R! V- H
  • 针对PPA(性能、功耗和面积)优化
  • 更精细的时钟间隔
  • 分离的乱序执行引擎
  • 更宽的调度能力
  • 增强的内存子系统
  • 基于AI的功耗管理9 L/ @; i$ F! m1 k( {
    4 y2 u& [' [5 o6 _: {
    2 r9 C+ {* B! K, a

    fpwq0ci1mrv64072298617.png

    fpwq0ci1mrv64072298617.png
    3 Z' F4 x9 Q6 Q" ^# W
    图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。
    4 P' e" u. T/ I+ i5 x5 T. {; }' v6 d8 D$ q2 \
    高效核心:天际(Skymont). I, x; S- B# a7 t
    与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。( n5 N: q3 |! B+ L: i% M4 z
    : o: o# h( L+ A1 [8 p$ u
    天际(Skymont)的主要特点包括:
    ( c2 Q9 ~7 b; L- ]1 g
  • 增强的预测能力
  • 96B并行取指
  • 更宽的分配和退休单元
  • 26个分发端口
  • 4MB共享L2缓存
  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量3 Q9 O! k( }* g& ?/ d7 m

    5 {& f' O0 q  c" U6 M$ R7 W
    6 w& F4 @: K1 @$ r

    1gf0ulniivh64072298717.png

    1gf0ulniivh64072298717.png

    , _3 i* N' r* S  q图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。
    * i& G! A9 l) r/ ?( g# `+ _. W" q$ k& W/ s8 d1 k' q
    下一代Xe2 GPU! ?- Z' a! y% T( W
    Lunar Lake采用了新的Xe2 GPU架构,在图形性能方面实现了重大进展。! B4 o4 H% y: m: x1 P
    主要改进包括:8 {# Z4 B' G! ]; ?; |! _5 P
  • 新的向量引擎,优化效率和AI吞吐量
  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟
  • 8MB L2缓存
  • 增强的Xe超级采样(XeSS)内核
  • 8个第二代Xe核心
  • 更大的光线追踪单元
  • AI性能高达67 TOPS% K+ y4 O# y5 m

    7 O" v( r/ N7 ?" @7 p2 F5 K( h
    1 |8 t3 e$ f& L2 i) ]

    njqd4pku52o64072298818.png

    njqd4pku52o64072298818.png

    5 ^* k& I6 o( j& Y- m+ P- F9 m图7:显示了新一代Xe2 GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。
    " r. E. N8 Z& L1 T) k
    . \6 C& k/ b# y2 ^+ @& V1 N. Y, _下一代NPU 4
    2 Q, c7 ~' L- f6 ]Lunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。3 E# j' @. z" g8 S# T3 C
    9 _- K& h  f& F* Q$ ~. O1 @. j
    NPU 4的主要特点包括:5 O& n2 |* ^$ w/ l% d, \7 E( @$ @
  • 效率优化的MAC(乘加)阵列
  • 原生激活函数和数据转换支持
  • 增强的SHAVE DSP,用于加速LLM和转换器操作
  • 用于LLM的嵌入式标记化
  • 相比上一代带宽翻倍
  • 12个神经计算引擎
  • AI性能高达48 TOPS
    ' H" }) _/ Q, `5 K( Y

    0 t; U! F$ t0 q/ @
    6 w5 h, f: c2 D. U

    iuwhihqawad64072298918.png

    iuwhihqawad64072298918.png

    ) q% e& A/ N& K7 \1 L5 W# _  a图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。$ W! A$ k, j9 C9 J6 s. T
    9 I: ]. E- P3 v! q* ?
    连接性Lunar Lake将先进的连接功能直接集成到封装中:
    % e$ p4 q3 s, l  N0 D6 ~9 r
  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s
  • 英特尔蓝牙5.4,提供高效和高清音频
  • Thunderbolt 4,速度达40Gb/s
  • 支持PCIe Gen 5.0和Gen 4.0
  • 支持USB 3.0和2.0
    : _+ Z- f1 K3 j1 S0 `8 _; p6 Q. v3 b( Y9 d
    . w6 n/ A% y/ i8 |

    : ~6 c% W0 v! [; z# G9 q, u! b

    m5wsrjcjioo64072299018.png

    m5wsrjcjioo64072299018.png
    ; j& ]! E+ p; p% d( K9 _& H
    图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。' v3 \8 ^) E- i. t6 }4 x
    * l' Y% _5 w# l2 U
    结论3 R3 ^1 _) [; g3 d$ Q
    英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。
    0 A/ c6 y, y, f( b- y2 i9 `* t1 K
    ; k1 `2 |" P$ J封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。! M+ z& [$ a) a: Q# c) ~0 h

    3 b  o/ ^0 k% \参考文献
    % B$ _7 ]) O+ ?2 W- i[1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.& E. t# r: Z# `* t" y8 A
    7 U- p# w% w" O# k3 d, J
    - END -: g2 b$ ~" g3 f6 ~8 i% B1 b4 }
    7 n$ I! ~" ]; C. N4 t6 f8 h7 y
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    % y1 Y; m  Y3 S点击左下角"阅读原文"马上申请! ^0 z/ O6 t+ m- y: X$ L1 `. o, G
    % m1 _! g+ t4 i  G6 K1 n
    欢迎转载" [9 W) x, @5 S+ k
    ( J9 J# i" D, N+ U0 s6 l1 F
    转载请注明出处,请勿修改内容和删除作者信息!
    3 A3 {! o' i9 W  t! I2 T& N7 ?% w8 ^) Z  N. h

    7 w5 e4 ?$ M5 {% O' H9 g5 H5 l

    , {1 D% S, }- ^2 x) Q

    qrkeqvrfiiq64072299118.gif

    qrkeqvrfiiq64072299118.gif
    7 T! _! Y$ j3 X( i" q' y6 j# L6 i8 {7 s
    % g6 c# a9 Q. g# k4 s) ^; I
    关注我们6 ]4 |! x+ L5 N( H: ~& U; \
    4 D) X" I  c* n5 B  F
    1 d$ e5 B& a- E3 _/ u. c' ?

    dnppj4ki0pq64072299218.png

    dnppj4ki0pq64072299218.png
    - |  ?$ S; C( h2 o/ \$ Y! g

    0 k  }! Z3 h$ K& l

    mctu1ode3iq64072299318.png

    mctu1ode3iq64072299318.png

    7 }- Q5 M! U6 I. w

    6 D4 V+ a1 s# a

    5qbt1nyci1w64072299418.png

    5qbt1nyci1w64072299418.png

    % s4 Z+ K+ R5 b
                          0 ]% y3 ?& Z$ o  ]0 {* [

      H! }& n' Q/ U) @4 F

    # ?9 U% T! h% @- L: c1 |
    % r) k1 N. w; s. U6 a关于我们:
    0 c6 ^+ s  }" y1 U$ `2 @深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。' K! H: |$ f1 k( R. F, i

    ; o& Q5 `: f5 }) b  qhttp://www.latitudeda.com/
    2 K9 R2 {. d9 g( @(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表