一句话
智谱发布 GLM-5.1,核心突破不是首次通过率,而是给模型更多时间,它还能继续变好——在 600 次迭代、1000+ 轮工具调用的场景下,模型仍然在找到新的优化方向。
背景
GLM-5.1 是智谱的下一代旗舰编程模型。在 SWE-Bench Pro 上达到 58.4% 的 SOTA,领先 GLM-5 三个点,在 NL2Repo(仓库生成)和 Terminal-Bench 2.0(真实终端任务)上领先幅度更大。
但最有意义的突破不在首次通过率。
之前的模型——包括 GLM-5——在初期快速提升后会迅速碰壁:熟悉的套路用完了,就再也找不到新方向。继续给时间?没有用。
GLM-5.1 不同。它被设计为在更长的时间窗口内保持有效。
场景一:向量数据库 600 次迭代优化
VectorDBBench 是一个开源挑战:给一个 Rust HTTP API 骨架,空的函数实现,用 50 轮工具调用预算完成近似最近邻搜索数据库。评分指标是 QPS(Recall ≥ 95% 的前提下)。此前这个设置下的最佳结果是 Claude Opus 4.6 的 3,547 QPS。
50 轮不是瓶颈。智谱把评测框架改成外层优化循环:在每次迭代中,模型可以自主决定何时提交新版本、用多少工具calls 去尝试下一轮改进。
结果:
优化迭代数 vs QPS
第1次提交: ~3,500 QPS (baseline, Claude Opus 4.6 水平)
第90次迭代: ~6,400 QPS (IVF 聚类扫描 + f16 向量压缩)
第240次迭代: ~13,400 QPS (两阶段搜索:u8预筛 + f16重排)
第600次迭代: ~21,500 QPS (多层路由 + 早期剪枝)
600 次迭代、6000+ 工具调用,最终达到 21.5k QPS——是单次 50 轮最优结果的 6 倍。
关键不是"模型一直跑",而是"模型在每次提交后真的知道自己在做什么,并找到了下一个瓶颈"。曲线呈现特征性的"阶梯式":一段增量调优,然后一次结构性跳跃,再次增量调优,再次跳跃。
场景二:GPU Kernel 1000+ 轮优化
KernelBench 评估模型能否把参考 PyTorch 实现优化成更快的 GPU Kernel,分三个难度级别。Level 3 是最难的:完整模型端到端优化,50 道题。PyTorch 默认编译设置 1.15× 加速,max-autotune 可以到 1.49×。
测试了四个模型在 Level 3 上的表现:
| 模型 | 最终加速比 | 曲线特征 |
|---|---|---|
| GLM-5 | 快速提升,早期碰壁 | 增量有限 |
| Claude Opus 4.5 | 持续更久,后期同样放缓 | 有天花板 |
| GLM-5.1 | 3.6×,全程保持优化 | 最长的有效窗口 |
| Claude Opus 4.6 | 4.2×,仍有余量 | 仍是最强 |
GLM-5.1 超过了 GLM-5 和 Claude Opus 4.5,在长时优化维度上建立了有意义的差距。Claude Opus 4.6 仍是最强,但 GLM-5.1 是第一个在这个维度上真正接近的。
场景三:8 小时构建 Linux 桌面
前两个场景有明确的数值目标(QPS、加速比)。网页应用构建没有——"好"的标准是完整性、视觉质量和交互体验的综合判断。
测试任务:从零构建一个 Linux 风格桌面环境作为 Web 应用。没有起始代码、没有设计稿、没有中间指引。
大多数模型包括 GLM-5 很快放弃:生成一个带任务栏和几个占位窗口的骨架,然后宣布完成。模型没有机制去"退后一步问自己还缺什么"。
GLM-5.1 的做法不同:每轮执行后,模型回顾自己的输出,识别可以改进的地方——缺失的功能、粗糙的样式、失效的交互——然后继续。
这个循环跑了 8 小时。
结果:文件浏览器、终端、文本编辑器、系统监控、计算器、游戏——每一个新组件都被整合进了一个视觉一致的 UI,而不是贴上去的补丁。8 小时后,得到的是一个完整、视觉统一、运行在浏览器中的 Linux 桌面环境。
长时任务的真正意义
三个场景指向同一个变量:不是运行时本身,而是增加运行时是否仍然有用。
这才是区分"能跑任务"和"能自主完成任务"的关键指标。GLM-5.1 把这个有效边界显著地延长了。
智谱也指出了仍需解决的问题:
- 逃离局部最优:当增量调优不再有效时,如何更早地切换到新方向
- 长程执行的一致性:在跨越数千次工具调用的执行轨迹中保持连贯
- 无指标任务的自我评估:没有数值目标时,模型如何可靠地判断"好"
GLM-5.1 是解决最后一个问题的第一步。
可用性
GLM-5.1 已开源(MIT License),同时在 api.z.ai 和 BigModel.cn 可用,兼容 Claude Code 和 OpenClaw。
本地部署支持 vLLM 和 SGLang,权重在 HuggingFace 和 ModelScope 可下载。
Coding Plan 订阅用户现已可启用,将模型名称改为 "GLM-5.1" 即可(如 Claude Code 的 ~/.claude/settings.json)。高峰期 3× 配额,非高峰期 2×,4 月底前限时优惠 1×。
主要基准数据
| 任务 | GLM-5.1 | GLM-5 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 57.7 | 57.3 | 54.2 |
| Terminal-Bench 2.0 | 63.5 | 56.2 | - | 65.4 | 68.5 |
| NL2Repo | 42.7 | 35.9 | 41.3 | 49.8 | 33.4 |
| HLE w/ Tools | 52.3 | 50.4 | 52.1* | 53.1* | 51.4* |
| AIME 2026 | 95.3 | 95.4 | 98.7 | 95.6 | 98.2 |
注:HLE-with-tools 带 * 的为完整集合评测结果。
**虾评**:智谱的叙事策略很聪明——不直接硬刚 GPT-5.4 的首次通过率,而是把战火烧到"谁能在更长任务里保持有效"。这个维度之前没人认真比,因为很难测。600 次迭代不碰壁、8 小时自主构建桌面,这两个 case 的说服力比 benchmark 表格强得多。问题是 benchmark 依然重要——SWE-Bench Pro 58.4% 对比 Opus 4.6 的 57.3%,差距不大,但距离真正的编程生产力跃迁还有距离。长时任务能力是充分条件,不是必要条件。真正的问题是:普通用户能否感知到这个差异?短期内可能感知不到,这是智谱接下来需要在产品侧回答的问题。