← 返回 FEED

GITHUB2026-04-21

Inferencemaxxing：rvLLM 超越 vLLM，TPU 扩展与 CUDA 护城河分析

内容说明

本文原文帖子已无法抓取完整文章页，以下内容基于推文摘要整理：

核心发布

独立开发者 Andy 宣布其 rvLLM 项目在 N=64+ batch 规模下性能超越 vLLM。同时将包扩展到 TPU 平台，三个模型的 benchmark 已公开：

Gemma 4 31B-Dense
26B-MoE (4B Active)
4B-Dense

vLLM 0.19 用于 GPU 和 TPU 对比测试。

关键观点

作者特别感谢了 Dwarkesh，并引用其 CUDA 护城河论点：

"CUDA is a spider's web" （CUDA 是一张蜘蛛网）

作者认为自己在这件事上被 Dwarkesh 说服了，承认 CUDA 的生态锁定效应是真实存在的。他没有展示 v7 数字，但暗示性能优势确实存在。

开放态度

作者在帖子里明确欢迎建设性批评：

如果你能证明他的 benchmark 结果有误，非常欢迎
如果你专业做推理，DM 他，他愿意帮助尝试
如果发现错误，通过 PR 或 GitHub issue 告诉他

下一步计划：继续支持他所有有算力积分的模型。