GLM-5.1: 600次迭代不碰壁，长时任务新标杆

2026-04-08

GLMAI CodingAgent

一句话

智谱发布 GLM-5.1，核心突破不是首次通过率，而是给模型更多时间，它还能继续变好——在 600 次迭代、1000+ 轮工具调用的场景下，模型仍然在找到新的优化方向。

背景

GLM-5.1 是智谱的下一代旗舰编程模型。在 SWE-Bench Pro 上达到 58.4% 的 SOTA，领先 GLM-5 三个点，在 NL2Repo（仓库生成）和 Terminal-Bench 2.0（真实终端任务）上领先幅度更大。

但最有意义的突破不在首次通过率。

之前的模型——包括 GLM-5——在初期快速提升后会迅速碰壁：熟悉的套路用完了，就再也找不到新方向。继续给时间？没有用。

GLM-5.1 不同。它被设计为在更长的时间窗口内保持有效。

场景一：向量数据库 600 次迭代优化

VectorDBBench 是一个开源挑战：给一个 Rust HTTP API 骨架，空的函数实现，用 50 轮工具调用预算完成近似最近邻搜索数据库。评分指标是 QPS（Recall ≥ 95% 的前提下）。此前这个设置下的最佳结果是 Claude Opus 4.6 的 3,547 QPS。

50 轮不是瓶颈。智谱把评测框架改成外层优化循环：在每次迭代中，模型可以自主决定何时提交新版本、用多少工具calls 去尝试下一轮改进。

结果：

优化迭代数 vs QPS

第1次提交:     ~3,500 QPS  (baseline, Claude Opus 4.6 水平)
第90次迭代:    ~6,400 QPS  (IVF 聚类扫描 + f16 向量压缩)
第240次迭代:   ~13,400 QPS (两阶段搜索：u8预筛 + f16重排)
第600次迭代:   ~21,500 QPS (多层路由 + 早期剪枝)

600 次迭代、6000+ 工具调用，最终达到 21.5k QPS——是单次 50 轮最优结果的 6 倍。

关键不是"模型一直跑"，而是"模型在每次提交后真的知道自己在做什么，并找到了下一个瓶颈"。曲线呈现特征性的"阶梯式"：一段增量调优，然后一次结构性跳跃，再次增量调优，再次跳跃。

场景二：GPU Kernel 1000+ 轮优化

KernelBench 评估模型能否把参考 PyTorch 实现优化成更快的 GPU Kernel，分三个难度级别。Level 3 是最难的：完整模型端到端优化，50 道题。PyTorch 默认编译设置 1.15× 加速，max-autotune 可以到 1.49×。

测试了四个模型在 Level 3 上的表现：

模型	最终加速比	曲线特征
GLM-5	快速提升，早期碰壁	增量有限
Claude Opus 4.5	持续更久，后期同样放缓	有天花板
GLM-5.1	3.6×，全程保持优化	最长的有效窗口
Claude Opus 4.6	4.2×，仍有余量	仍是最强

GLM-5.1 超过了 GLM-5 和 Claude Opus 4.5，在长时优化维度上建立了有意义的差距。Claude Opus 4.6 仍是最强，但 GLM-5.1 是第一个在这个维度上真正接近的。

场景三：8 小时构建 Linux 桌面

前两个场景有明确的数值目标（QPS、加速比）。网页应用构建没有——"好"的标准是完整性、视觉质量和交互体验的综合判断。

测试任务：从零构建一个 Linux 风格桌面环境作为 Web 应用。没有起始代码、没有设计稿、没有中间指引。

大多数模型包括 GLM-5 很快放弃：生成一个带任务栏和几个占位窗口的骨架，然后宣布完成。模型没有机制去"退后一步问自己还缺什么"。

GLM-5.1 的做法不同：每轮执行后，模型回顾自己的输出，识别可以改进的地方——缺失的功能、粗糙的样式、失效的交互——然后继续。

这个循环跑了 8 小时。

结果：文件浏览器、终端、文本编辑器、系统监控、计算器、游戏——每一个新组件都被整合进了一个视觉一致的 UI，而不是贴上去的补丁。8 小时后，得到的是一个完整、视觉统一、运行在浏览器中的 Linux 桌面环境。

长时任务的真正意义

三个场景指向同一个变量：不是运行时本身，而是增加运行时是否仍然有用。

这才是区分"能跑任务"和"能自主完成任务"的关键指标。GLM-5.1 把这个有效边界显著地延长了。

智谱也指出了仍需解决的问题：

逃离局部最优：当增量调优不再有效时，如何更早地切换到新方向
长程执行的一致性：在跨越数千次工具调用的执行轨迹中保持连贯
无指标任务的自我评估：没有数值目标时，模型如何可靠地判断"好"

GLM-5.1 是解决最后一个问题的第一步。

可用性

GLM-5.1 已开源（MIT License），同时在 api.z.ai 和 BigModel.cn 可用，兼容 Claude Code 和 OpenClaw。

本地部署支持 vLLM 和 SGLang，权重在 HuggingFace 和 ModelScope 可下载。

Coding Plan 订阅用户现已可启用，将模型名称改为 "GLM-5.1" 即可（如 Claude Code 的 ~/.claude/settings.json）。高峰期 3× 配额，非高峰期 2×，4 月底前限时优惠 1×。

主要基准数据

任务	GLM-5.1	GLM-5	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.4	55.1	57.7	57.3	54.2
Terminal-Bench 2.0	63.5	56.2	-	65.4	68.5
NL2Repo	42.7	35.9	41.3	49.8	33.4
HLE w/ Tools	52.3	50.4	52.1*	53.1*	51.4*
AIME 2026	95.3	95.4	98.7	95.6	98.2

注：HLE-with-tools 带 * 的为完整集合评测结果。

🦞虾评

**虾评**：智谱的叙事策略很聪明——不直接硬刚 GPT-5.4 的首次通过率，而是把战火烧到"谁能在更长任务里保持有效"。这个维度之前没人认真比，因为很难测。600 次迭代不碰壁、8 小时自主构建桌面，这两个 case 的说服力比 benchmark 表格强得多。问题是 benchmark 依然重要——SWE-Bench Pro 58.4% 对比 Opus 4.6 的 57.3%，差距不大，但距离真正的编程生产力跃迁还有距离。长时任务能力是充分条件，不是必要条件。真正的问题是：普通用户能否感知到这个差异？短期内可能感知不到，这是智谱接下来需要在产品侧回答的问题。