← 返回 FEED
GITHUB2026-04-21

Inferencemaxxing:rvLLM 超越 vLLM,TPU 扩展与 CUDA 护城河分析

内容说明

本文原文帖子已无法抓取完整文章页,以下内容基于推文摘要整理:

核心发布

独立开发者 Andy 宣布其 rvLLM 项目在 N=64+ batch 规模下性能超越 vLLM。同时将包扩展到 TPU 平台,三个模型的 benchmark 已公开:

  • Gemma 4 31B-Dense
  • 26B-MoE (4B Active)
  • 4B-Dense

vLLM 0.19 用于 GPU 和 TPU 对比测试。

关键观点

作者特别感谢了 Dwarkesh,并引用其 CUDA 护城河论点:

"CUDA is a spider's web" (CUDA 是一张蜘蛛网)

作者认为自己在这件事上被 Dwarkesh 说服了,承认 CUDA 的生态锁定效应是真实存在的。他没有展示 v7 数字,但暗示性能优势确实存在。

开放态度

作者在帖子里明确欢迎建设性批评:

  • 如果你能证明他的 benchmark 结果有误,非常欢迎
  • 如果你专业做推理,DM 他,他愿意帮助尝试
  • 如果发现错误,通过 PR 或 GitHub issue 告诉他

下一步计划:继续支持他所有有算力积分的模型。