|
引言
% \6 G( Z% u& @! I& ` t' H& t7 w本文介绍Tenstorrent公司推出的突破性产品Blackhole。作为一款独立的AI计算机,Blackhole在人工智能领域展现出强大的潜力[1]。我们将探讨其架构、微架构、扩展能力以及软件生态系统,深入理解这款创新产品的特点和应用前景。' T9 E# |: k- x6 ~: ^; m
j/ G$ O, J& T( }$ ?
架构概览
& K, Y5 g9 s- o/ U3 L ^Blackhole代表了Tenstorrent AI硅芯片路线图的最新一代产品。它在前代产品Grayskull和Wormhole的基础上,在性能和功能方面都有显著提升。
: T. h5 e) t1 A. B0 b6 o
3 h# o9 K) [. r+ u# }
rl3bgdyofbh6403234345.png
' o* [ q' ] s图1展示了Tenstorrent的AI硅芯片路线图,清晰地显示了从Grayskull到Blackhole的演进过程。
3 H7 H( q" O7 [ L; r3 l" Z, t" h! r$ A9 T$ B
Blackhole的主要特点包括:: l! ~* w1 j A9 ?* S. W
140个Tensix++核心6纳米制造工艺745 TOPS(FP8)性能512 GB/s GDDR6内存带宽PCIe Gen5x16接口10x400 Gbps以太网连接16个RISC-V CPU核心$ A. T8 c: W5 b) Y
& U7 p- F! V) M. c# J1 z& `
Blackhole的架构旨在为AI工作负载提供全面的解决方案,将高性能计算与高效的数据移动和存储能力相结合。( u' W9 O/ n! }" b/ g
+ y- h% [) s+ t) g
22nmhxpz5oc6403234446.png
! ?/ v) }- l: @& y/ E
图2展示了Blackhole的布局,显示了Tensix核心、DRAM核心、以太网核心、PCIe核心和RISC-V CPU的分布情况。
- E6 K; I' p" {1 ]$ L7 k
7 x' ]& E7 F4 U微架构:全RISC-V可编程+ Z* W+ K0 D [8 G% ?6 w0 k: T
Blackhole最显著的特征之一是全RISC-V可编程架构。这一设计选择为芯片的各个组件提供了灵活性和效率。
& Q$ d' c" q- @. Y2 W
* c6 V' `1 ?* ?) A: xBaby RISC-V- i6 e+ O3 n$ S* ~2 a/ M* M
Blackhole集成了752个Baby RISC-V核心,每个核心提供:
4 V4 @: M/ C. L7 l+ u8 b) u32位计算能力整数乘法器和除法器浮点支持(FP32 / BFLOAT16)128位向量能力(每个Tensix一个)4 KB指令缓存8 KB数据暂存内存8 s; m( {' I. z$ z& G% `7 R! V W
% V( @4 N5 C9 O$ y' p5 p8 }- _0 L6 V5 d3 y% \' ^
jxih5scxtlu6403234546.png
/ T4 m: w7 H+ b8 y e+ v5 }图3展示了Baby RISC-V在Blackhole架构中的布局,说明了在计算、数据移动和存储操作中的作用。
J* H- {4 f2 {) L. ^! F9 h5 v8 N. k! z1 m, _1 i5 g/ J
Big RISC-V- x6 F9 T1 x% Q& g% s
作为Baby RISC-V的补充,Blackhole配备了16个Big RISC-V核心,组织成4个集群,每个集群4个核心。这些核心运行Linux系统,作为AI加速器的片上主机。每个Big RISC-V核心包括:' r% N* v& {% h/ u
64位、双发射、顺序执行计算能力每个CPU 2 MB的L3缓存每个CPU 128 KB的L2缓存每个CPU 32 KB的L1 I-缓存(2路组相联)每个CPU 32 KB的L1 D-缓存(4路组相联)( i$ {2 A" ]$ F- x0 Z/ U$ o/ s
' b+ \5 R- R4 c. }
Tensix核心:Blackhole的核心
6 I. W. F' h: R/ V$ U) m' _ ?Tensix核心是Blackhole的主要计算单元,结合了强大的数学引擎和灵活的RISC-V可编程性。
6 t c* D2 x* V, P; k9 A
: h% o0 l8 ^/ O' M% X$ g6 [+ O
gu5hym5pfb36403234646.png
( M& k/ f, A; @* X3 M9 `% |图4展示了Tensix核心的布局,显示了RISC-V核心、路由器和内存的分布。
4 s4 O8 u5 l' h7 ?& E# o3 e Y& A$ W) h+ x' x: Y, L
数据移动
/ r) y) A& H% {' R$ L. k4 ~Blackhole在AI数据移动模式方面表现出色,在各种操作中提供了令人印象深刻的带宽:- e7 l* ^$ R& ]& I# A& S
SRAM本地/分片:94 TB/sSRAM邻居(Halo):47 TB/sSRAM行/列/网格多播:24 TB/sSRAM收集/分散(3跳):16 TB/sSRAM收集/分散(10跳):5 TB/sDRAM行:512 GB/s以太网列:1 TB/s
8 [0 ^8 H* h8 P% q% y3 |0 c: T% y4 T1 `+ n1 f
这种优化的数据移动架构特别适合AI工作负载中常见的矩阵乘法、卷积和分片数据布局。- Q8 z/ S6 J# U! {" G
2 u' n. Y+ i$ N3 z; ~0 k计算能力! l. |7 A5 t7 R D
Tensix核心包含两个主要的计算引擎:& T. U( A# N7 m: A8 G0 S' x& u" j
1. Tile数学引擎(Tile Math Engine):% U) ~6 i+ }. D$ U
支持多种数据格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT8. D1 h0 i# R* |) B4 m
在FP8操作中可提供高达745 TFLOPs的性能9 q5 Q4 u7 t a c; F
提供丰富的矩阵指令集架构,包括矩阵乘法、点积、元素级操作和转置9 C% G) r% d* U" H+ B3 }$ A6 S
1 O5 A& A8 a3 q; G' D2. 向量数学引擎(Vector Math Engine):# Z# J0 m( [( r
支持FP32、INT16和INT32操作
X* ^/ F5 T8 _7 {4 `/ ]提供通用向量指令集架构,用于元素级操作、排序、重排和查找表
! ?1 _4 i& b6 |& t% O% Z. D
7 y& V, W" n0 S0 k" b+ T% |# v
0mnj4qqqxlw6403234746.png
2 g* q/ g1 d9 I4 Z/ u w图5展示了Tensix核心的计算能力,显示了Tile数学引擎和向量数学引擎。
% R8 H8 \! d4 u+ n: Y' a
1 ]- [. b; B7 Q! y扩展能力
" A$ L% L4 M* E6 G0 ZBlackhole的设计考虑了扩展性,利用强大的以太网连接创建大规模AI系统。; Q! F' V+ _9 @* O- B
* B2 C, H, |' z# Z
gntwodq3jnh6403234847.png
2 Y1 J* M/ t* n8 R& L$ N9 Q8 l
图6展示了Blackhole基于以太网的扩展能力,显示了多个芯片如何在网格拓扑中连接。
" x* H5 Q1 p6 w; T/ ~7 S) y% G8 h; ~* L7 u4 N8 N
Blackhole Galaxy是一个由32个芯片组成的4x8网格配置,展示了该架构的可扩展性:
3 \6 ?+ C: `" j8 OZ维度I/O:32 x 200 GB/sY维度I/O:16 x 200 GB/sX维度I/O:8 x 200 GB/sGalaxy总I/O:11.2 TB/s) p8 s& H4 ~6 t
3 u) I7 o$ e$ y' `" W
这种扩展能力使Blackhole能够通过在多个芯片上分配计算来应对最具挑战性的AI工作负载。
7 Y: p9 _+ U+ X, [; H% S. p; w( b6 j% l$ V2 z" I' G
软件生态系统:TT-Metalium
2 D" u: e) h0 H& q1 S为了充分利用Blackhole的能力,Tenstorrent开发了专门为AI和扩展操作构建的软件框架TT-Metalium。
& ~% j9 m% J$ Q, {% C0 P+ t& v- K1 t; [ k, Y
TT-Metalium的主要特点包括:
( l/ _/ Y# T7 ?: J* w1 x0 i原生多设备内核和运算符使用普通C++编程,具有专用的数据移动和计算内核API直接优化数据移动和计算重叠完全控制SRAM和DRAM中的数据布局和持久性支持不同核心运行不同内核,核心之间直接数据流原生多设备内核,具有融合和重叠的计算和芯片间通信% H4 [. G$ r" i A1 m3 X- l/ ]
9 g, I5 `7 i3 W7 }4 ~, ?
+ m3 i: u, l; }! J: W: ]
4ff3hbnupww6403234947.png
( f& p5 M8 g. N4 y$ h% a4 b图7比较了TT-Metalium的编程模型与传统GPU编程,突出了其在AI工作负载方面的优势。 z4 G% V# Z/ d4 G; z0 `
% c- \! F! R" n. i& n8 sTenstorrent还开发了广泛的开源软件生态系统,以支持Blackhole和其他AI加速器:
2 r; j5 `* v2 K- c6 ^1 z4 u' G9 GTT-Forge:集成到各种框架中,用于原生模型导入TT-MLIR:新的基于MLIR的编译器TT-NN:优化运算符库,具有ATen覆盖率和类似PyTorch的APITT-Metalium:低级编程模型和入口点
4 t+ ?# N; ^7 ^7 S9 P
% q y" B P5 u/ a- `
8 g' t& {6 Q# w4 ?; ^
azlmt1kk42p6403235047.png
4 G6 {( q0 A/ b6 T4 I Y3 k9 p) Z图8展示了支持Blackhole和其他Tenstorrent产品的全面软件生态系统和集成。
1 n$ J) h/ ]9 |- \
6 r( o; H9 C7 F8 [7 V( U6 l+ Y结论
! M! r. k& V! E* ?! Q3 C3 mTenstorrent的Blackhole提供了专为现代AI工作负载需求设计的强大、可扩展和灵活的架构。凭借全RISC-V可编程设计、令人印象深刻的计算能力和优化的数据移动,Blackhole有望加速各个领域的AI研究和应用。/ K( W9 T Q9 a: [
: I# {) e. i( q$ o6 V/ qBlackhole的硬件创新与TT-Metalium软件生态系统的结合为开发人员和研究人员提供了一个全面的平台,用于推动AI的边界。随着该领域的不断发展,Tenstorrent的Blackhole已准备好满足下一代AI模型和应用日益增长的计算需求。
( b8 z) F3 w, C' F+ g. e
2 f/ W3 F. Z- s' u: M# D7 V9 {+ H参考文献- T+ M, ]* i+ ?
[1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.# f* c& u* g- W$ c
0 }$ d+ b; x; j( W/ y
- END -
$ ?& k5 g$ [# X) c# Q9 d$ t- n5 v+ B
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
( ^: o% j. s, u+ ^ Y& F6 v, H点击左下角"阅读原文"马上申请
% L: ~0 o0 p7 t- S9 H
* }* j& h: V# h/ P0 Z) d7 T, S7 s欢迎转载1 h- r5 B( I' X0 B" \
$ ?" N2 P8 s0 R; s+ e+ Q转载请注明出处,请勿修改内容和删除作者信息!; c* F5 c7 ?# ^& }5 }0 w9 l
i7 ?1 [ F' _/ F3 q! ?' u5 Y( r0 D m7 m+ B7 y
( h8 H" [* M7 b9 z" T! x
c0ewma5srs06403235147.gif
* K3 S$ I N: |% o1 Y8 Q
@6 K& X4 Q, b5 `2 K) a关注我们, r1 ?9 E1 b) D6 M
: e% E3 u* a+ a, Q6 _
# [7 E1 ]4 x/ J, f* j& `
1tyhqznx5ct6403235247.png
* P9 K" M5 O, |- d. D* G2 R | ' t/ W) g( m7 Q& d# X
ddoar00czsq6403235347.png
8 g7 v/ Q: p6 X# y% } |
& B+ K5 n4 ~( M( U
uy0zymgo1qd6403235447.png
, O" j$ D. w2 H$ h, o, y
|
6 H! D, Y" x6 C: J& m) ]0 z* r4 W
c4 S: w1 M: M8 H8 k0 }
4 O2 W2 O- t/ F& ]. Q5 J# m
关于我们:
. A0 c% q9 a- z( C- Z+ |深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
1 ^! x7 Z( `$ ` `& n
1 C- ]+ P# j, `' \* S Vhttp://www.latitudeda.com/6 e) i7 Y2 k0 w- w3 M7 [
(点击上方名片关注我们,发现更多精彩内容) |
|