晶圆级引擎革新生成AI推理技术

逍遥设计自动化 · 发表于昨天 08:00

引言
在人工智能领域快速发展的今天，生成式AI已成为热点话题。本文旨在帮助读者了解晶圆级AI技术如何推动生成推理的革新。我们将深入探讨Cerebras Systems公司的突破性技术，看它如何通过晶圆级引擎（Wafer-Scale Engine，WSE）实现超越GPU的惊人性能[1]。

Cerebras晶圆级引擎
Cerebras的核心创新在于其晶圆级引擎，这是迄今为止生产的最大芯片。

zkb54uhwt0d6403229216.png

图1：Cerebras晶圆级引擎与传统GPU的尺寸对比，展示了其巨大规模。

最新的WSE-3具有以下令人印象深刻的规格：

4万亿晶体管

46,225平方毫米的硅面积

900,000个AI核心

125 Petaflops的AI计算能力

44 GB片上内存

21 PB/s内存带宽

214 Pbit/s架构带宽

采用台积电5nm工艺

这些规格远超最先进的GPU。与NVIDIA的H100相比，WSE-3具备：

57倍的芯片面积

52倍的核心数量

880倍的片上内存

7,000倍的内存带宽

! \: q) q- C t5 ^' @
内存带宽优势
限制生成推理速度的一个关键因素是内存带宽。传统GPU架构在这方面面临瓶颈，因为生成令牌需要多次通过模型，每次都要从内存中读取所有参数。

unfwfoirn3l6403229316.png

图2：Cerebras WSE-3与Nvidia H100的内存带宽对比，突显了巨大差异。

Cerebras的晶圆级架构提供了巨大的内存带宽优势：

WSE-3：21 PB/s

H100：0.003 PB/s

这7,000倍的内存带宽增加对生成推理性能产生了革命性影响。

晶圆级集成vs多GPU解决方案虽然多GPU解决方案试图通过在单个服务器中集成多个GPU来聚合内存带宽，但这种方法存在显著缺点：

ueauuoctfhh6403229416.png

图3：多GPU和晶圆级集成的对比，展示了内存带宽、IO带宽和功耗的差异。

晶圆级方法提供：

800倍的内存带宽

33倍的跨芯片IO

6倍低的功耗

此外，多GPU解决方案由于互连带宽和延迟开销而存在扩展效率问题。随着GPU数量的增加，内存带宽利用率显著下降。

puwxlghwcac6403229517.png

图4：图表显示了在DGX系统中增加GPU数量时内存带宽利用率的下降。

单芯片上的流水线执行
Cerebras的巨大内存带宽实现了独特的执行模型：

p0d3zkjhjxk6403229617.png

图5：晶圆级引擎上流水线执行的图示，展示了模型的不同层如何映射到芯片的各个区域。

在这个模型中：

模型层被映射到特定的晶圆区域

权重和KV缓存存储在区域内存中

每个晶圆区域一次处理一个令牌

相邻区域实现流水线阶段之间的低延迟通信
[/ol]
这种方法允许极快的令牌生成，因为整个过程发生在单个芯片上，阶段之间的延迟最小。
: X. V9 y. G' v% O

大型模型的可扩展性
对于超出单个WSE容量的模型，Cerebras提供了可扩展解决方案：

g53nkapi2bs6403229717.png

图6：图表展示了如何将较大的模型映射到多个晶圆级引擎上。

通过将模型层分布在多个WSE上，Cerebras可以容纳最大的语言模型，同时保持高性能。晶圆间通信经过优化，以最小化延迟和带宽需求。

高吞吐量和低延迟
与GPU面临延迟和吞吐量之间的权衡不同，Cerebras的架构能够同时实现高单用户速度和高多用户吞吐量：

bjdhrdmhb1j6403229817.png

图7：GPU和Cerebras系统的延迟vs吞吐量权衡对比图，显示了Cerebras在这两个指标上的卓越性能。

WSE可以同时支持多个用户，每个用户并行访问模型，而不会牺牲个人性能。这得益于晶圆上可用的大量内存带宽。

提示处理优化
Cerebras通过高效的提示处理进一步优化性能：

o2lfgd0c0s06403229918.png

图8：图示展示了Cerebras如何通过同时利用多个流水线阶段来优化提示处理。

通过在不同流水线阶段并行处理多个提示令牌，Cerebras实现了更高的单用户提示速度并最大化吞吐量。

未来改进
Cerebras正在持续研究技术以改善性能并支持更大的模型：

推测性解码

KV缓存优化

量化

稀疏性

更多即将到来的技术

这些改进有望进一步推动AI性能的边界。
F: [( Z/ S. j% a" A

Cerebras推理服务
为使这一突破性技术更易获取，Cerebras推出了推理服务：

oy5hig40yq36403230018.png

图9：Cerebras推理服务界面的截图，显示可用模型和定价层级。

该服务提供：

Llama3.1-8B，速度为1,800令牌/秒

Llama3.1-70B，速度为450令牌/秒

免费层每分钟30个请求，每日100万令牌限制

付费层提供有竞争力的定价

未来服务将增加更大的模型，如Llama-405B、Mistral Large 2、Cohere Command R，以及定制微调模型。

结论
Cerebras的晶圆级引擎技术代表了AI硬件的范式转变，为生成推理提供了前所未有的性能。通过解决内存带宽瓶颈并在大规模上实现高效的流水线执行，Cerebras正在为AI应用开启新的可能性。随着技术的不断发展，我们可以期待AI性能的进一步提升，为各行各业的更复杂和响应更快的AI系统奠定基础。

参考文献
[1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

4 w$ n! @ a, x# P% C

xdsmq4ljvvw6403230118.gif

关注我们

ageyh1452lr6403230218.png

34vohyi4mvw6403230318.png

0tpz35msta16403230418.png

9 a a- z* ^& @0 f6 Y6 F* g3 p

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

晶圆级引擎革新生成AI推理技术

发表回复

精选推荐