给 GPT-5.5 装上记忆系统：Terminal-Bench 2.1 上追平受限版 Mythos 5，成本仅 1/4

一句结论

Sentra 在 GPT-5.5 上加了自家 Code Memory 层，在 Terminal-Bench 2.1 上跑出 88.31%——比公开最强的 Claude Fable 5 高 4-5 分，比 Anthropic 限制访问的 Claude Mythos 5 高 0.31 分（不同时 harness 对比，作者自己强调"算打平也已经是故事"），成本只有后者的 27.4%。

起点：那个不许用的模型

世界上最强的编码模型刚出炉，你不被允许用。Anthropic 在受限合作伙伴计划下发布了 Mythos 5，限制访问、带代号名，传在 Terminal-Bench 2.1 上跑到 88.0%——一个偏难的公开终端编码 Agent 基准。我们能买到的版本 Fable 5，安保分类器一过就掉几个点。

最强编码智能现在字面意义上是"不许用的模型"——除非 Anthropic 判定你安全。

实验

Sentra 做了不同的事。拿 GPT-5.5——公开模型中验证排行榜第一，83.4%——改一件事：把 Sentra 开发的记忆系统作为工具接进去。

基准：Terminal-Bench 2.1，89 个任务跑在容器化 Linux 环境：构建系统、调试、系统管理、安全挑战、科学计算。每个任务跑 5 次，分数是 445 次实验的平均奖励。

当前验证榜单第一是 Codex CLI + GPT-5.5 (xhigh reasoning)，83.4%。

做法：原配置不动——同 agent、同模型、同 reasoning effort、同 harness、同 scorer——加一个工具：Sentra Code Memory。仓库在 Agent 启动前索引，watcher 在 Agent 编辑时保持记忆新鲜。Agent 不必重新扫描仓库重建已有 context，问就行。

一个变量改了，所有头条指标同时动了。

成功率：393/445 trials，88.31% vs baseline 83.37%（+4.94 分，+22 次成功）
总模型成本： $1,862.98 →$ 510.30（-72.6%）
单次成功 trial 成本： $5.02 →$ 1.30
Token 用量：-41.2%
稳定性：5/5 解决的任务数 63 → 68；0/5 失败的任务数 5 → 3
Baseline 一次没解决的 5 个任务里，记忆版解了 4 个

不是均匀变好。20 个任务改进，8 个回退，61 个平局，净增 22 次成功。回退集中在一个小组，官方提交前会分析。逐任务数字在报告 Appendix A。

一个数字解释了大半的进步

Input token 下降 52.1%，output token 只下降 13.0%。

Agent 读少了一半，产出没怎么减。省下的不是工作量，是为同一仓库第 4 次重读付的钱。

任务级别可见。compile-compcert（构建形式化验证的 C 编译器）：baseline 4/5 成功， $99.89；记忆版 5/5 成功，$ 13.47。train-fasttext：baseline 0/5 失败， $138.90；记忆版 2/5 成功，$ 14.70。baseline 不更笨。它在为重新发现已经见过的东西付前沿价格。

记忆到底是什么

Sentra Code Memory 是 Agent 工作的记忆构建层。不是更大的 context window，不是仓库的静态地图。

Agent 工作的同时，系统把任务环境分解成有意义的单位：文件、符号、命令、编辑、失败、构建信号、测试结果、任务目标，以及它们之间的关系。目标不是保留 Agent 看过的每个 token。目标是保留工作中可能以后重要的部分，让它们带着证据，在 Agent 还在行动时以它能用的形式交回来。

普通代码图能告诉 Agent 一个函数调用另一个。这一层持有更广的工作状态：Agent 学到了什么、哪些假设已经失败、哪些测试相关、运行时改了什么、什么证据支持一次 recall。这更接近任务范围内的语义记忆，不是仓库索引。

内部把流程描述为"语义分解 + 本体透镜投影"。分解把环境拆成对任务正确抽象层级的有意义的 object 和 event。透镜用一个领域特定视角组织这些 object。在代码里，透镜覆盖模块、依赖、运行时错误、测试、配置、编辑历史。在销售工作流里，它会覆盖客户、承诺、反对意见、利益相关者、续约风险。机制里没有任何东西绑在代码类别上。代码只是价值最容易测量的领域，也是这一层能无侵入地插入既有 Agent 循环的领域。Agent 还是那样规划、编辑文件、跑命令、验证。记忆坐在那个循环旁边，作为它能调的又一个 recall 表面。

这是为什么三个指标同时动了——agentic 基准上几乎从不会这样。分数提升通常是用更多采样、更长运行、更重 reasoning 买来的。看似 Agent 推理预算的大头实际花在重建 context：重导仓库结构、重读命令历史、重建哪个测试相关。把这个结构交给模型，模型从真正的工作开始，所以准确率上去、成本和 token 下来——所有变化来自同一改动。

对 bitter lesson 的回应

这不是反对 bitter lesson。Sutton 没错：通用方法+算力胜过手工雕琢的聪明，跑这实验的模型本身也是那个教训的产物。

Sentra 的主张更窄、更有趣：bitter lesson 谈能力如何被获取。它对一项能力里你应该在单次运行中浪费多少重建 context 五次只字未提。

记忆层不是手工编码的任务知识。它是一个通用机制，把算力一次性花在结构上，让模型不必把算力重复花在重发现上。 Scale 设天花板。Structure 决定你能用到多少天花板，以及什么价。

88.31 落在哪

对非 Sentra 自己的数字，都指向 BenchmarkList 聚合的 Terminal-Bench 2.1 tracker——一份表整合自报发布数字和独立 Vals 运行。这周梯子长这样：

Claude Opus 4.8：82.7%
GPT-5.5 via Codex CLI（验证榜单第一）：83.4%
Claude Fable 5（公开能买的新模型）：Anthropic 自己表 84.3%，Vals 独立跑 80.5%
Claude Mythos 5（同权重，限制版）：88.0%
GPT-5.5 + Sentra Code Memory：88.31%

两个主张从这梯子出来，强度不同，分开陈述。对每个公开能用的模型，差距 4-5 分——还是在没注意 Fable 5 独立测量低于发布表之前。这个主张站得稳。第二个主张要更小心：对比 Mythos 5 本身，我们高 0.31 分，但跨不同 harness，比两个未验证的内部 eval。算打平也行，但打平就是故事。租来的公开模型加一层记忆，不该在世界最受限的前沿系统旁边有任何位置——可它就在。 允许你用的模型和不允许你用的模型之间，差距原来就一层记忆的大小。

注意：Sentra 结果待 Terminal-bench 团队官方验证（知道怎么加速的话告诉我们）。

为什么不开源

下一个问题答案诚实：不开源。 理解讽刺。半篇都在批受限访问，我们自己也在受限。区别是我们没把商业决策包装成别的。我们是公司。这是核心基础设施。我们打算卖它。

更长版本也不长。Code Memory 是更大产品的一面：一家公司的大脑。组织里每个人、人类或 Agent 的工作，喂入一个可查询的共享结构。每个决策连着理由，每个答案连着证据，系统带着访问控制、审计 trail、正常运行时间保证出货——丢 context 就要花钱的地方必备。

开源我们的基础会降低每家企业内部自建同样东西的门槛。把护城河送出去扮高尚不是战略，是虚荣。

也看到对称。前面调侃一家实验室限制访问能力，我们自己也在限制访问能力。这批评公平。大家都做门控，唯一的变量是为什么做门控讲什么故事——我们的故事都没有。我们要放出来的是让你能查我们的部分：完整技术报告（89 任务逐 trial 结果）、完整运行轨迹（连同官方 Terminal-Bench 验证提交一起），产品本身也很快放出。源码闭源，证据不闭。

下一步

技术报告 Section 3 是方法论，Section 8 是局限性，Appendix A 是 89 任务逐项审计。轨迹随验证 run 一起放。要 Sentra Code Memory 早访问，或者想就任何数字辩论，DM 我或 ashwin at sentra.app。

我们从代码开始，因为代码有组织里最清晰的价值函数：让测试通过。 这种清晰让结果易测，也是为什么代码只是第一个领域。同样动作——结构优先再智能——是公司大脑对组织知道又反复忘的东西做的事。那部分更难基准。那部分也更有趣，也是我们去的地方。

附：什么是公司大脑

Sentra 在构建一个"公司大脑"——一个共享智能/记忆层，坐在所有沟通渠道、知识库、行动和 Agent 轨迹之上，理解组织里每个人实际怎么工作、工作怎么实际完成，实时构建整个公司的活体世界模型。 Code Memory 是这一愿景在代码领域的第一个具体实现。