电子产业一站式赋能平台

PCB联盟网

搜索
查看: 88|回复: 0
收起左侧

Hot Chips 2024 | Tenstorrent的Blackhole独立AI计算机

[复制链接]

587

主题

587

帖子

4741

积分

四级会员

Rank: 4

积分
4741
发表于 2024-10-14 08:00:00 | 显示全部楼层 |阅读模式
引言
% \6 G( Z% u& @! I& `  t' H& t7 w本文介绍Tenstorrent公司推出的突破性产品Blackhole。作为一款独立的AI计算机,Blackhole在人工智能领域展现出强大的潜力[1]。我们将探讨其架构、微架构、扩展能力以及软件生态系统,深入理解这款创新产品的特点和应用前景。' T9 E# |: k- x6 ~: ^; m
  j/ G$ O, J& T( }$ ?
架构概览
& K, Y5 g9 s- o/ U3 L  ^Blackhole代表了Tenstorrent AI硅芯片路线图的最新一代产品。它在前代产品Grayskull和Wormhole的基础上,在性能和功能方面都有显著提升。
: T. h5 e) t1 A. B0 b6 o
3 h# o9 K) [. r+ u# }

rl3bgdyofbh6403234345.png

rl3bgdyofbh6403234345.png

' o* [  q' ]  s图1展示了Tenstorrent的AI硅芯片路线图,清晰地显示了从Grayskull到Blackhole的演进过程。
3 H7 H( q" O7 [  L; r3 l" Z, t" h! r$ A9 T$ B
Blackhole的主要特点包括:: l! ~* w1 j  A9 ?* S. W
  • 140个Tensix++核心
  • 6纳米制造工艺
  • 745 TOPS(FP8)性能
  • 512 GB/s GDDR6内存带宽
  • PCIe Gen5x16接口
  • 10x400 Gbps以太网连接
  • 16个RISC-V CPU核心$ A. T8 c: W5 b) Y
    & U7 p- F! V) M. c# J1 z& `
    Blackhole的架构旨在为AI工作负载提供全面的解决方案,将高性能计算与高效的数据移动和存储能力相结合。( u' W9 O/ n! }" b/ g
    + y- h% [) s+ t) g

    22nmhxpz5oc6403234446.png

    22nmhxpz5oc6403234446.png
    ! ?/ v) }- l: @& y/ E
    图2展示了Blackhole的布局,显示了Tensix核心、DRAM核心、以太网核心、PCIe核心和RISC-V CPU的分布情况。
    - E6 K; I' p" {1 ]$ L7 k
    7 x' ]& E7 F4 U微架构:全RISC-V可编程+ Z* W+ K0 D  [8 G% ?6 w0 k: T
    Blackhole最显著的特征之一是全RISC-V可编程架构。这一设计选择为芯片的各个组件提供了灵活性和效率。
    & Q$ d' c" q- @. Y2 W
    * c6 V' `1 ?* ?) A: xBaby RISC-V- i6 e+ O3 n$ S* ~2 a/ M* M
    Blackhole集成了752个Baby RISC-V核心,每个核心提供:
    4 V4 @: M/ C. L7 l+ u8 b) u
  • 32位计算能力
  • 整数乘法器和除法器
  • 浮点支持(FP32 / BFLOAT16)
  • 128位向量能力(每个Tensix一个)
  • 4 KB指令缓存
  • 8 KB数据暂存内存8 s; m( {' I. z$ z& G% `7 R! V  W

    % V( @4 N5 C9 O$ y' p5 p8 }- _0 L6 V5 d3 y% \' ^

    jxih5scxtlu6403234546.png

    jxih5scxtlu6403234546.png

    / T4 m: w7 H+ b8 y  e+ v5 }图3展示了Baby RISC-V在Blackhole架构中的布局,说明了在计算、数据移动和存储操作中的作用。
      J* H- {4 f2 {) L. ^! F9 h5 v8 N. k! z1 m, _1 i5 g/ J
    Big RISC-V- x6 F9 T1 x% Q& g% s
    作为Baby RISC-V的补充,Blackhole配备了16个Big RISC-V核心,组织成4个集群,每个集群4个核心。这些核心运行Linux系统,作为AI加速器的片上主机。每个Big RISC-V核心包括:' r% N* v& {% h/ u
  • 64位、双发射、顺序执行计算能力
  • 每个CPU 2 MB的L3缓存
  • 每个CPU 128 KB的L2缓存
  • 每个CPU 32 KB的L1 I-缓存(2路组相联)
  • 每个CPU 32 KB的L1 D-缓存(4路组相联)( i$ {2 A" ]$ F- x0 Z/ U$ o/ s
    ' b+ \5 R- R4 c. }
    Tensix核心:Blackhole的核心
    6 I. W. F' h: R/ V$ U) m' _  ?Tensix核心是Blackhole的主要计算单元,结合了强大的数学引擎和灵活的RISC-V可编程性。
    6 t  c* D2 x* V, P; k9 A
    : h% o0 l8 ^/ O' M% X$ g6 [+ O

    gu5hym5pfb36403234646.png

    gu5hym5pfb36403234646.png

    ( M& k/ f, A; @* X3 M9 `% |图4展示了Tensix核心的布局,显示了RISC-V核心、路由器和内存的分布。
    4 s4 O8 u5 l' h7 ?& E# o3 e  Y& A$ W) h+ x' x: Y, L
    数据移动
    / r) y) A& H% {' R$ L. k4 ~Blackhole在AI数据移动模式方面表现出色,在各种操作中提供了令人印象深刻的带宽:- e7 l* ^$ R& ]& I# A& S
  • SRAM本地/分片:94 TB/s
  • SRAM邻居(Halo):47 TB/s
  • SRAM行/列/网格多播:24 TB/s
  • SRAM收集/分散(3跳):16 TB/s
  • SRAM收集/分散(10跳):5 TB/s
  • DRAM行:512 GB/s
  • 以太网列:1 TB/s
    8 [0 ^8 H* h8 P% q% y
    3 |0 c: T% y4 T1 `+ n1 f
    这种优化的数据移动架构特别适合AI工作负载中常见的矩阵乘法、卷积和分片数据布局。- Q8 z/ S6 J# U! {" G

    2 u' n. Y+ i$ N3 z; ~0 k计算能力! l. |7 A5 t7 R  D
    Tensix核心包含两个主要的计算引擎:& T. U( A# N7 m: A8 G0 S' x& u" j
    1. Tile数学引擎(Tile Math Engine):% U) ~6 i+ }. D$ U
    支持多种数据格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT8. D1 h0 i# R* |) B4 m
    在FP8操作中可提供高达745 TFLOPs的性能9 q5 Q4 u7 t  a  c; F
    提供丰富的矩阵指令集架构,包括矩阵乘法、点积、元素级操作和转置9 C% G) r% d* U" H+ B3 }$ A6 S

    1 O5 A& A8 a3 q; G' D2. 向量数学引擎(Vector Math Engine):# Z# J0 m( [( r
    支持FP32、INT16和INT32操作
      X* ^/ F5 T8 _7 {4 `/ ]提供通用向量指令集架构,用于元素级操作、排序、重排和查找表
    ! ?1 _4 i& b6 |& t% O% Z. D
    7 y& V, W" n0 S0 k" b+ T% |# v

    0mnj4qqqxlw6403234746.png

    0mnj4qqqxlw6403234746.png

    2 g* q/ g1 d9 I4 Z/ u  w图5展示了Tensix核心的计算能力,显示了Tile数学引擎和向量数学引擎。
    % R8 H8 \! d4 u+ n: Y' a
    1 ]- [. b; B7 Q! y扩展能力
    " A$ L% L4 M* E6 G0 ZBlackhole的设计考虑了扩展性,利用强大的以太网连接创建大规模AI系统。; Q! F' V+ _9 @* O- B
    * B2 C, H, |' z# Z

    gntwodq3jnh6403234847.png

    gntwodq3jnh6403234847.png
    2 Y1 J* M/ t* n8 R& L$ N9 Q8 l
    图6展示了Blackhole基于以太网的扩展能力,显示了多个芯片如何在网格拓扑中连接。
    " x* H5 Q1 p6 w; T/ ~7 S) y% G8 h; ~* L7 u4 N8 N
    Blackhole Galaxy是一个由32个芯片组成的4x8网格配置,展示了该架构的可扩展性:
    3 \6 ?+ C: `" j8 O
  • Z维度I/O:32 x 200 GB/s
  • Y维度I/O:16 x 200 GB/s
  • X维度I/O:8 x 200 GB/s
  • Galaxy总I/O:11.2 TB/s) p8 s& H4 ~6 t
    3 u) I7 o$ e$ y' `" W
    这种扩展能力使Blackhole能够通过在多个芯片上分配计算来应对最具挑战性的AI工作负载。
    7 Y: p9 _+ U+ X, [; H% S. p; w( b6 j% l$ V2 z" I' G
    软件生态系统:TT-Metalium
    2 D" u: e) h0 H& q1 S为了充分利用Blackhole的能力,Tenstorrent开发了专门为AI和扩展操作构建的软件框架TT-Metalium。
    & ~% j9 m% J$ Q, {% C0 P+ t& v- K1 t; [  k, Y
    TT-Metalium的主要特点包括:
    ( l/ _/ Y# T7 ?: J* w1 x0 i
  • 原生多设备内核和运算符
  • 使用普通C++编程,具有专用的数据移动和计算内核API
  • 直接优化数据移动和计算重叠
  • 完全控制SRAM和DRAM中的数据布局和持久性
  • 支持不同核心运行不同内核,核心之间直接数据流
  • 原生多设备内核,具有融合和重叠的计算和芯片间通信% H4 [. G$ r" i  A1 m3 X- l/ ]
    9 g, I5 `7 i3 W7 }4 ~, ?

    + m3 i: u, l; }! J: W: ]

    4ff3hbnupww6403234947.png

    4ff3hbnupww6403234947.png

    ( f& p5 M8 g. N4 y$ h% a4 b图7比较了TT-Metalium的编程模型与传统GPU编程,突出了其在AI工作负载方面的优势。  z4 G% V# Z/ d4 G; z0 `

    % c- \! F! R" n. i& n8 sTenstorrent还开发了广泛的开源软件生态系统,以支持Blackhole和其他AI加速器:
    2 r; j5 `* v2 K- c6 ^1 z4 u' G9 G
  • TT-Forge:集成到各种框架中,用于原生模型导入
  • TT-MLIR:新的基于MLIR的编译器
  • TT-NN:优化运算符库,具有ATen覆盖率和类似PyTorch的API
  • TT-Metalium:低级编程模型和入口点
    4 t+ ?# N; ^7 ^7 S9 P

    % q  y" B  P5 u/ a- `
    8 g' t& {6 Q# w4 ?; ^

    azlmt1kk42p6403235047.png

    azlmt1kk42p6403235047.png

    4 G6 {( q0 A/ b6 T4 I  Y3 k9 p) Z图8展示了支持Blackhole和其他Tenstorrent产品的全面软件生态系统和集成。
    1 n$ J) h/ ]9 |- \
    6 r( o; H9 C7 F8 [7 V( U6 l+ Y结论
    ! M! r. k& V! E* ?! Q3 C3 mTenstorrent的Blackhole提供了专为现代AI工作负载需求设计的强大、可扩展和灵活的架构。凭借全RISC-V可编程设计、令人印象深刻的计算能力和优化的数据移动,Blackhole有望加速各个领域的AI研究和应用。/ K( W9 T  Q9 a: [

    : I# {) e. i( q$ o6 V/ qBlackhole的硬件创新与TT-Metalium软件生态系统的结合为开发人员和研究人员提供了一个全面的平台,用于推动AI的边界。随着该领域的不断发展,Tenstorrent的Blackhole已准备好满足下一代AI模型和应用日益增长的计算需求。
    ( b8 z) F3 w, C' F+ g. e
    2 f/ W3 F. Z- s' u: M# D7 V9 {+ H参考文献- T+ M, ]* i+ ?
    [1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.# f* c& u* g- W$ c
    0 }$ d+ b; x; j( W/ y
    - END -
    $ ?& k5 g$ [# X) c# Q9 d$ t- n5 v+ B
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    ( ^: o% j. s, u+ ^  Y& F6 v, H点击左下角"阅读原文"马上申请
    % L: ~0 o0 p7 t- S9 H
    * }* j& h: V# h/ P0 Z) d7 T, S7 s欢迎转载1 h- r5 B( I' X0 B" \

    $ ?" N2 P8 s0 R; s+ e+ Q转载请注明出处,请勿修改内容和删除作者信息!; c* F5 c7 ?# ^& }5 }0 w9 l

      i7 ?1 [  F' _/ F3 q! ?' u5 Y( r0 D  m7 m+ B7 y
    ( h8 H" [* M7 b9 z" T! x

    c0ewma5srs06403235147.gif

    c0ewma5srs06403235147.gif
    * K3 S$ I  N: |% o1 Y8 Q

      @6 K& X4 Q, b5 `2 K) a关注我们, r1 ?9 E1 b) D6 M
    : e% E3 u* a+ a, Q6 _

    # [7 E1 ]4 x/ J, f* j& `

    1tyhqznx5ct6403235247.png

    1tyhqznx5ct6403235247.png

    * P9 K" M5 O, |- d. D* G2 R
    ' t/ W) g( m7 Q& d# X

    ddoar00czsq6403235347.png

    ddoar00czsq6403235347.png

    8 g7 v/ Q: p6 X# y% }

    & B+ K5 n4 ~( M( U

    uy0zymgo1qd6403235447.png

    uy0zymgo1qd6403235447.png
    , O" j$ D. w2 H$ h, o, y
                         
    6 H! D, Y" x6 C: J& m) ]0 z* r4 W
      c4 S: w1 M: M8 H8 k0 }
    4 O2 W2 O- t/ F& ]. Q5 J# m
    关于我们:
    . A0 c% q9 a- z( C- Z+ |深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    1 ^! x7 Z( `$ `  `& n
    1 C- ]+ P# j, `' \* S  Vhttp://www.latitudeda.com/6 e) i7 Y2 k0 w- w3 M7 [
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表