每年的 Nvidia GTC 大会都会带来技术范式转移概念,作为全业界的新技术标杆。各家在 GTC 之后都会改 roadmap 去抄作业。
AI 芯片下一波结构性趋势转变的机会在哪里?
这几个月范式转移带来的结构性转变机会之一,就是 AI 异构推理,而以 Cerebras 为首的 SRAM 路线初创,就这样走到了新趋势前沿。
AI 推理的三个阶段
生成式 AI 推理的不同阶段 workload 特点,主要分成三个部分:
1. Prefill
计算强度特别高,对 memory 带宽速度要求不高,对 memory size 要求中等偏高。
2. Decode 阶段的 Attention 部分
计算强度中等,对 memory 带宽速度要求特别高(对 KV cache 的反复读写),对 memory size 要求特别高,因为 batch size 的变大造成了 KV cache 的线性增长。
3. Decode 阶段的 FFN 部分
计算强度中等,对 memory 带宽速度要求特别高(模型权重的反复读取),对 memory size 中等偏高(模型权重)。
SRAM 路线的特点
SRAM 路线的芯片特点很清楚:
除了 memory 带宽做到了极致,其他方面都是严重缺陷。本质上是用计算强度和 memory size 做不大这两个劣势,换取了极致的 memory 带宽速度。
SRAM 在三个阶段的适用度
Prefill
SRAM 计算强度无法做的很高,因为整个芯片上的 SRAM 面积占用太大,计算模块面积受限。所以 prefill 是弱项。
Decode Attention
SRAM memory 带宽要求高能达到,但是 SRAM memory size 很小达不到 batch 的要求。所以 SRAM 做 attention 只能满足一半需求。
Decode FFN
SRAM memory 带宽要求高能达到,memory size 要求中等,SRAM 芯片通过互联通信的优化,能勉强解决 memory size 的问题。虽然代价很高,但 ROI 在某些场景下还是能算得过来的。
结论:Cerebras 单独做全栈走不通
Cerebras 如果单独做全栈 AI 推理(prefill + decode ATTN + decode FFN),经济上是走不通的,没有未来。
因为 Cerebras 成本非常惊人。即便是他们毛利率压的如此之低,每台 CS-3 系统的隐含租金还是要 $41.96/小时,是 B200 的差不多十倍租金。更不要说 CS-3 还得很多片连起来做 LLM 推理,租金要再乘以很多倍。
想象一下,一两个用户 agent flow 做 coding 任务花了 1~2M context length,就得耗费 230 万美元一整个 Cerebras 的 44GB SRAM 来做 KV cache。这是什么样的奢侈服务。
Nvidia 的解法
Nvidia 在 GTC 已经清晰指出了这一点。
解法非常简洁而优雅:decode 阶段的 FFN 部分交给 SRAM 路线,其他部分交给传统 HBM GPU。
把整个 pareto frontier 往右上角推进了很多。Rubin + LPX 最高速度突破 1000 token/s 的同时,还能让整体 throughput 仍然能保持一定的商业价值。
如果在 Blackwell 要跑到 400~500 token/s 高速,只能同时处理很少的几个请求,这对 GPU 资源是巨大的浪费。而现在就算是跑到 1000 token/s,也能保持一定的 batch size(吞吐量)了,终于也能产生商业价值了。
在 400 token/s 的速度下,Rubin + LPX 把吞吐提升了 35 倍——典型的 token 经济学。
异构推理已成趋势
这个解法在 GTC 公布标准答案之后,甚至更早在收购 Groq 的 LPU 之后,大家就已经开始做异构推理这个方向抄作业的努力了:
- Google TPU 找了 Marvell 做 SRAM 部分
- AWS Trainium 找了 Cerebras 做 SRAM 部分
- 字节 AI ASIC 找了 高通 做 SRAM 部分
未来一定会看到越来越多类似的消息。
SRAM 路线的长期可持续道路
Cerebras 长期发展的关键在于和 AWS Trainium 的 disaggregate inference 能整合到什么程度。
如果只是目前爆出的 Trainium 做 prefill 和 Cerebras 做 decode 分离,技术上实现难度要小得多,但是这样经济上仍然不划算,只能是战略布局。
而走 Nvidia 路线,深度整合两家优势,需要不少时间的技术整合,难度不小,但回报是值得的:
- 解法一:Trainium 做 prefill 和 decode attn,Cerebras 做 decode FFN
- 解法二:Cerebras 做草稿模型,Trainium 做验证
无论是哪种解法,市场竞争力都大太多了。
核心判断
和主流 AI ASIC 这样的合作方式,是减小了 SRAM 路线的市场规模 TAM 吗?
不,这才是 SRAM 路线的公司唯一的长期可持续化增大市场规模的道路。
因为 AI 异构推理趋势一定是未来,提前在这个增长的未来蓝图中找到属于自己的拼图位置,才能跟着市场一起增长。
SRAM 路线公司一旦融入任何主流 AI ASIC 的异构推理环节,身价都会暴涨,因为出货量的 TAM 完全不是一个数量级了。
不然的话,AI 异构推理在 token 速度(不是 throughput)这个维度上,一定会持续的蚕食 SRAM 路线的速度优势,SRAM 路线 AI 全栈推理沦为昂贵的玩具是注定的结局。