引言
# m- O: X; C1 }1 f* x) Y5 Y在人工智能领域快速发展的今天,对高效且强大的计算解决方案的需求前所未有地高涨。本文FuriosaAI开发的RNGD张量收缩处理器,这是突破性技术,旨在应对大语言模型(LLMs)和生成式AI时代的可持续AI计算挑战。
. A* f# z; A0 E0 J& N# v: ?: E8 h& v
yawrfnvugic64042710159.png
3 M! G* k9 H; L图1:显示FuriosaAI成立、RNGD开发里程碑和首次LLM演示的时间线。+ m* i9 V! Y, O7 f r$ G
0 W- z4 N# @3 G' }
RNGD处理器代表了AI加速技术的重大进步。FuriosaAI的使命是"使AI计算可持续,让地球上的每个人都能接触到强大的AI"。为实现这一目标,他们创造了一款在保持能源效率的同时还能提供出色性能的芯片。
& E% ]" r" m+ A7 p- c% A4 e6 f" d; E9 ]% j) i( A! B
让我们深入了解RNGD处理器的主要特性:% J% Q8 B* d8 @
fa3mtsaanqd64042710259.png
- D. N6 O0 X' G6 n+ X图2:RNGD处理器的详细规格,包括FLOPS、内存容量和功耗。
y4 [# `& U( E$ b
9 a$ N) Y; @( y# eRNGD拥有512 TFLOPS的计算能力,这是通过8个处理元件实现的,每个元件能够达到64 TFLOPS(FP8)。处理器配备了48 GB的内存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上带宽。借助两个HBM3模块,内存带宽达到1.5 TB/s。
7 T% n" Z7 H7 K" Y4 F. E Z6 z# ], Z% G- g; U+ U
RNGD的突出特点是能够在150瓦功率范围内处理高性能LLM工作负载。这使得其适用于空气冷却的数据中心,有效解决了AI计算中日益增长的能源消耗问题。
! D5 E: n5 F5 I8 U& j/ H) t
l1zgyzhyiam64042710300.png
2 |& X' u3 Y2 `- f7 v; ^图3:RNGD芯片架构的详细视图,包括SoC和HBM3组件。
+ O9 o' T8 F+ m5 @* H7 y
/ H2 v, i0 r( w. }" ?9 \RNGD采用台积电5nm工艺技术,芯片面积为653 mm2,晶体管数量达400亿。芯片设计使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封装技术,这种技术允许将SoC与两个HBM3内存堆栈集成在一起。1 P+ Y! J( ~8 b7 g
: n; r3 Q L I. [5 p( C早期性能数据显示了令人鼓舞的结果:
* u! U# A7 ?5 { d! w' P* L% X
pvfpbbxxet464042710400.png
& i. ]+ K# c5 r& T4 T
图4:比较RNGD与NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。* V0 s* i7 W5 m2 i2 f0 M0 ^# f( x
; o7 a1 x' b( Q7 z$ N
根据这些初步基准测试,在运行GPT-J 6B MLPerf基准测试场景时,RNGD的每瓦性能比NVIDIA L40S高出60%。2 z0 ?9 H+ x) f7 ]: `
$ S, e0 t9 ^4 ?4 LRNGD效率的关键在于其创新的张量收缩方法,这是深度学习模型中的核心计算。大多数商用深度学习加速器使用固定大小的矩阵乘法作为原语,而RNGD提高了硬件-软件接口的层次,将整个张量收缩作为原语来加速。
: N9 s7 }1 l% ]. z6 X
ljkximxkhz364042710500.png
2 [0 e; h4 u* E5 L
图5:图解说明张量收缩是深度学习中的核心计算。( T! b. P0 h9 F
8 T: w' z3 {+ s f
这种方法实现了更高的性能和能源效率,同时提供了支持所有深度学习模型的灵活性。RNGD引入了低级einsum记法作为原语,将张量收缩与显式内存布局和调度相结合。% }+ S! m7 u* v. y9 h! @3 Q
uz1ir0nypzi64042710600.png
. p% I( v6 n) f4 E8 ?2 e& E5 ^
图6:说明RNGD如何将整个张量收缩作为单个原语操作处理。
, i; A( X3 l* d6 k+ Q) u4 z' S1 N0 d
RNGD的架构能够高效地进行计算的空间和时间编排,提高了利用率和效率。这对推理任务尤为重要,因为推理任务的批处理大小可能会有很大变化。
- f+ o4 g" f4 y! f9 p
vngatfm4nwh64042710700.png
8 @5 p- F; S# H* p# v1 E% H ?
图7:RNGD处理器的详细架构图,显示互连网络和处理元件。5 ], u0 B" d8 b- J
* V( U. p6 V% S0 n为了支持大型模型的多卡配置,RNGD实现了基于PCIe的芯片间通信。这允许通过直接点对点通信减少卡之间的延迟。) f; J! X0 r6 V2 U4 \
h5m5ogor5ja64042710801.png
) ^9 n% K1 i% a+ o( M
图8:展示多个RNGD卡与主机CPU之间基于PCIe的通信图。! J" H9 l' V# `+ n7 r. c# J6 n
4 N2 r- @, D& \9 P5 r! Q( H
RNGD还支持SR-IOV(Single Root I/O Virtualization)多实例支持和虚拟化,允许虚拟机使用多达8个虚拟功能。
& A0 |! O1 r, g! f- b
6 A2 i9 Z3 R1 L! O$ p在软件方面,FuriosaAI开发了全面的LLM软件栈,以充分发挥RNGD硬件的潜力:
! g0 a: z% C: B' T% Q
ljelpdng5ul64042710901.png
; V/ \( M" y6 g' o; M
图9:Furiosa LLM软件栈的图表,从PyTorch模型到RNGD硬件。 j% O0 C% y: X) y" n3 Y! N
$ h! t' @( a: x! I
这个软件栈包括PyTorch 2.0集成、支持各种精度格式(FP8、INT8等)的量化工具包、多卡上的张量/流水线/数据并行性、先进的DNN编译器,以及最先进的服务优化。8 l) r+ U a7 i0 D5 z& m
) O0 n6 g$ F) g! \; `) S
Furiosa编译器在实现端到端模型效率方面发挥着关键作用:
- t2 I% H$ P5 Q, P- O# @, b
q1qmkcgr0i164042711001.png
^3 z' l; x7 u) Q图10:显示RNGD上优化张量操作的编译过程流程图。6 }* j" @! R l2 z* L$ r! t! e
8 ]4 S! F! @% E( |( Z2 ~编译器为给定的降维张量形状找到最佳策略,使用性能和功率估算器来探索策略空间。此外,还执行图级优化,如算子融合和内存分配拆分合并调度。
- f7 K$ g4 h$ w' f3 N( x6 {) g) n& w; C& r
为了最大化服务性能,FuriosaAI开发了实现先进优化的服务框架: U' [5 I" i! j2 `: r
lsk0024yrx064042711101.png
- N% I5 d0 a# J0 J9 L$ W4 s; z图11:Furiosa服务框架图,展示其组件和优化。
, b9 F$ Z" n1 _1 g% z8 _8 ?
3 d5 ^5 ?. F. T1 _. o, D该框架包括PagedAttention和分块KV缓存管理,利用Furiosa编译器和运行时进行高吞吐量服务,支持连续批处理。/ E% V) ~4 w6 M& t, p& O1 q
# x! u& w+ P! O3 E; _7 Y5 O7 h
为了高效量化,FuriosaAI提供了一个端到端的自动化量化工具:' G2 v$ v$ y- E. h8 J7 u
vria2myrbcx64042711201.png
: {2 @# U% u. M/ Z! J y图12:Furiosa量化器概览,这是自动化的基于图的量化工具。$ X' V! k% f" [" c9 v5 V% {5 n
' {* P& I& e# U5 y$ R& h" @6 P这个工具使用图模式搜索支持任意定制的LLM模型,并提供各种量化方案,包括BF16、INT8、FP8和INT4选项。
" e( z" _' @+ I( Y
& H& |. w& X7 k' M4 V. i6 ~. mRNGD的开发采用了先进的方法和工具:
; G+ a# d+ o9 @
woxvpvfr1jm64042711302.png
( A3 g) j7 \2 I5 [
图13:展示RNGD创建过程中使用的先进开发方法的信息图。8 k! x! j( @; r+ o6 c
% f' r* V7 C7 {% c; {3 O1 p: G
这些包括使用Rust和Chisel等高效语言,基于Kubernetes和Tekton CI的可扩展工具和基础设施,以及复杂的测试用例生成和验证流程。
0 v& M' e+ k8 c
( k) T6 z0 N/ @* c! e* tRNGD张量收缩处理器代表了AI加速器技术的进步。通过专注于可持续计算并利用创新的硬件和软件优化,FuriosaAI创造了强大的解决方案,适用于大语言模型和生成式AI时代。随着对高效AI计算需求的持续增长,像RNGD这样的技术将在使先进AI能够应用于更广泛的场景并服务于更多用户方面发挥关键作用。1 W7 r- X+ @5 b+ d* r6 b
9 e9 y l+ }* d8 e, o7 b2 C9 E9 G3 b+ ^
参考文献
( t( |8 V, u6 Q[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.; K+ n- Z R0 l; c+ Q" o4 ~! s$ g# \
% a; q: Y2 h$ F; L- END -
) j% a( Y3 x0 _5 w& K9 [6 W# E r) K! N% o' w8 x# @
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
4 b( t* J) G2 \5 {点击左下角"阅读原文"马上申请3 l1 D2 e _3 A9 _9 p( k
- u& k; j/ B5 s8 z3 M+ p$ s欢迎转载/ X+ o4 _7 F6 T) N8 F# Z/ z# b
6 q8 `. t) ?; y
转载请注明出处,请勿修改内容和删除作者信息!
' \* R2 I1 J' A) u: B4 A# f S1 h
1 I# g+ z( K# \ B ^* t2 r5 K6 A4 I; o- |8 g7 s
( k1 j' b* u8 m, R- N* Q
gv3vhov5rai64042711402.gif
) P+ [1 j8 T5 C$ l7 x. `* a( E1 Z! e( q" c
关注我们0 v$ @1 j( U, V
" P0 e2 D/ n2 s
5 z4 Z% X/ |% H5 o* K5 |! l& }
yfnag5ly02464042711502.png
) \6 e! ]7 j, F |
8 Y T9 ~) V9 ^* L; X
y1ml43djqh364042711602.png
5 N+ V9 o' _9 P4 h) N! y4 b
|
6 J# i2 C6 ]' O2 b0 c6 L) S
nnjmle55o0364042711702.png
4 w$ b9 x) e7 w, Z5 N) \* y" U8 a0 e" T
|
/ X2 H* u. Q1 E4 M8 I- Q( r' `* `0 t. R; Y5 U/ v
' d& _2 C; c' E0 t7 j; x. g# Y( b0 C, X
关于我们:+ }6 T' ~: V" @/ L
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
/ U4 Z3 ?: M P5 g7 L* g, I- W/ D7 f& F1 J# B- |
http://www.latitudeda.com/3 Q7 @9 A$ K! s4 G& O( K
(点击上方名片关注我们,发现更多精彩内容) |