内容说明
本文原文帖子已无法抓取完整文章页,以下内容基于推文摘要整理:
核心发布
独立开发者 Andy 宣布其 rvLLM 项目在 N=64+ batch 规模下性能超越 vLLM。同时将包扩展到 TPU 平台,三个模型的 benchmark 已公开:
- Gemma 4 31B-Dense
- 26B-MoE (4B Active)
- 4B-Dense
vLLM 0.19 用于 GPU 和 TPU 对比测试。
关键观点
作者特别感谢了 Dwarkesh,并引用其 CUDA 护城河论点:
"CUDA is a spider's web" (CUDA 是一张蜘蛛网)
作者认为自己在这件事上被 Dwarkesh 说服了,承认 CUDA 的生态锁定效应是真实存在的。他没有展示 v7 数字,但暗示性能优势确实存在。
开放态度
作者在帖子里明确欢迎建设性批评:
- 如果你能证明他的 benchmark 结果有误,非常欢迎
- 如果你专业做推理,DM 他,他愿意帮助尝试
- 如果发现错误,通过 PR 或 GitHub issue 告诉他
下一步计划:继续支持他所有有算力积分的模型。