最近提交IPO的AI芯片新宠Cerebras在硅谷引起了热潮。
其芯片在小模型场景下,推理速度最高可达H100的20倍;而超大规模模型(如400B参数级别),Cerebras CS-3系统的单用户响应速度约为B200的2.4倍。
那么Cerebras究竟是如何做到的呢?它是否会成为英伟达的杀手呢?
我们需从算力演进的本质开始。
AI算力的演进,正在从“算力本身”转向“通信与系统结构”。在这条演进路径上,Cerebras Systems提供了一种完全不同的答案:不是优化分布式,而是尽可能消灭分布式。
一、两条路线:消灭通信 vs 优化通信
当前AI算力本质上分为两种架构哲学:一条是以NVIDIA为代表的路线:
多芯片(GPU),高速互连(NVLink / CPO),scale-out(横向扩展)
另一条是Cerebras路径:单芯片做到极限(wafer-scale)
片内网络替代跨节点通信,scale-up(纵向放大)
核心区别是:一条在解决“如何连接更多芯片”,另一条在解决“如何不需要连接”。
二、为什么这条路现在才成立
wafer-scale并不是新概念,80年代就有人尝试,90年代商业化失败。原因是:
良率无法承受
没有容错机制
软件无法支撑
行业因此形成共识:小die + 高良率 + 分布式。
Cerebras的突破在于三件事同时成立:
1)容错机制工程化
2)片上网络成熟
原文表示