一句结论
Sentra 在 GPT-5.5 上加了自家 Code Memory 层,在 Terminal-Bench 2.1 上跑出 88.31%——比公开最强的 Claude Fable 5 高 4-5 分,比 Anthropic 限制访问的 Claude Mythos 5 高 0.31 分(不同时 harness 对比,作者自己强调"算打平也已经是故事"),成本只有后者的 27.4%。
起点:那个不许用的模型
世界上最强的编码模型刚出炉,你不被允许用。Anthropic 在受限合作伙伴计划下发布了 Mythos 5,限制访问、带代号名,传在 Terminal-Bench 2.1 上跑到 88.0%——一个偏难的公开终端编码 Agent 基准。我们能买到的版本 Fable 5,安保分类器一过就掉几个点。
最强编码智能现在字面意义上是"不许用的模型"——除非 Anthropic 判定你安全。
实验
Sentra 做了不同的事。拿 GPT-5.5——公开模型中验证排行榜第一,83.4%——改一件事:把 Sentra 开发的记忆系统作为工具接进去。
基准:Terminal-Bench 2.1,89 个任务跑在容器化 Linux 环境:构建系统、调试、系统管理、安全挑战、科学计算。每个任务跑 5 次,分数是 445 次实验的平均奖励。
当前验证榜单第一是 Codex CLI + GPT-5.5 (xhigh reasoning),83.4%。
做法:原配置不动——同 agent、同模型、同 reasoning effort、同 harness、同 scorer——加一个工具:Sentra Code Memory。仓库在 Agent 启动前索引,watcher 在 Agent 编辑时保持记忆新鲜。Agent 不必重新扫描仓库重建已有 context,问就行。
一个变量改了,所有头条指标同时动了。
- 成功率:393/445 trials,88.31% vs baseline 83.37%(+4.94 分,+22 次成功)
- 总模型成本:510.30(-72.6%)
- 单次成功 trial 成本:1.30
- Token 用量:-41.2%
- 稳定性:5/5 解决的任务数 63 → 68;0/5 失败的任务数 5 → 3
- Baseline 一次没解决的 5 个任务里,记忆版解了 4 个
不是均匀变好。20 个任务改进,8 个回退,61 个平局,净增 22 次成功。回退集中在一个小组,官方提交前会分析。逐任务数字在报告 Appendix A。
一个数字解释了大半的进步
Input token 下降 52.1%,output token 只下降 13.0%。
Agent 读少了一半,产出没怎么减。省下的不是工作量,是为同一仓库第 4 次重读付的钱。
任务级别可见。compile-compcert(构建形式化验证的 C 编译器):baseline 4/5 成功,13.47。train-fasttext:baseline 0/5 失败,14.70。baseline 不更笨。它在为重新发现已经见过的东西付前沿价格。
记忆到底是什么
Sentra Code Memory 是 Agent 工作的记忆构建层。不是更大的 context window,不是仓库的静态地图。
Agent 工作的同时,系统把任务环境分解成有意义的单位:文件、符号、命令、编辑、失败、构建信号、测试结果、任务目标,以及它们之间的关系。目标不是保留 Agent 看过的每个 token。目标是保留工作中可能以后重要的部分,让它们带着证据,在 Agent 还在行动时以它能用的形式交回来。
普通代码图能告诉 Agent 一个函数调用另一个。这一层持有更广的工作状态:Agent 学到了什么、哪些假设已经失败、哪些测试相关、运行时改了什么、什么证据支持一次 recall。这更接近任务范围内的语义记忆,不是仓库索引。
内部把流程描述为"语义分解 + 本体透镜投影"。分解把环境拆成对任务正确抽象层级的有意义的 object 和 event。透镜用一个领域特定视角组织这些 object。在代码里,透镜覆盖模块、依赖、运行时错误、测试、配置、编辑历史。在销售工作流里,它会覆盖客户、承诺、反对意见、利益相关者、续约风险。机制里没有任何东西绑在代码类别上。代码只是价值最容易测量的领域,也是这一层能无侵入地插入既有 Agent 循环的领域。Agent 还是那样规划、编辑文件、跑命令、验证。记忆坐在那个循环旁边,作为它能调的又一个 recall 表面。
这是为什么三个指标同时动了——agentic 基准上几乎从不会这样。分数提升通常是用更多采样、更长运行、更重 reasoning 买来的。看似 Agent 推理预算的大头实际花在重建 context:重导仓库结构、重读命令历史、重建哪个测试相关。把这个结构交给模型,模型从真正的工作开始,所以准确率上去、成本和 token 下来——所有变化来自同一改动。
对 bitter lesson 的回应
这不是反对 bitter lesson。Sutton 没错:通用方法+算力胜过手工雕琢的聪明,跑这实验的模型本身也是那个教训的产物。
Sentra 的主张更窄、更有趣:bitter lesson 谈能力如何被获取。它对一项能力里你应该在单次运行中浪费多少重建 context 五次只字未提。
记忆层不是手工编码的任务知识。它是一个通用机制,把算力一次性花在结构上,让模型不必把算力重复花在重发现上。 Scale 设天花板。Structure 决定你能用到多少天花板,以及什么价。
88.31 落在哪
对非 Sentra 自己的数字,都指向 BenchmarkList 聚合的 Terminal-Bench 2.1 tracker——一份表整合自报发布数字和独立 Vals 运行。这周梯子长这样:
- Claude Opus 4.8:82.7%
- GPT-5.5 via Codex CLI(验证榜单第一):83.4%
- Claude Fable 5(公开能买的新模型):Anthropic 自己表 84.3%,Vals 独立跑 80.5%
- Claude Mythos 5(同权重,限制版):88.0%
- GPT-5.5 + Sentra Code Memory:88.31%
两个主张从这梯子出来,强度不同,分开陈述。对每个公开能用的模型,差距 4-5 分——还是在没注意 Fable 5 独立测量低于发布表之前。这个主张站得稳。第二个主张要更小心:对比 Mythos 5 本身,我们高 0.31 分,但跨不同 harness,比两个未验证的内部 eval。算打平也行,但打平就是故事。租来的公开模型加一层记忆,不该在世界最受限的前沿系统旁边有任何位置——可它就在。 允许你用的模型和不允许你用的模型之间,差距原来就一层记忆的大小。
注意:Sentra 结果待 Terminal-bench 团队官方验证(知道怎么加速的话告诉我们)。
为什么不开源
下一个问题答案诚实:不开源。 理解讽刺。半篇都在批受限访问,我们自己也在受限。区别是我们没把商业决策包装成别的。我们是公司。这是核心基础设施。我们打算卖它。
更长版本也不长。Code Memory 是更大产品的一面:一家公司的大脑。组织里每个人、人类或 Agent 的工作,喂入一个可查询的共享结构。每个决策连着理由,每个答案连着证据,系统带着访问控制、审计 trail、正常运行时间保证出货——丢 context 就要花钱的地方必备。
开源我们的基础会降低每家企业内部自建同样东西的门槛。把护城河送出去扮高尚不是战略,是虚荣。
也看到对称。前面调侃一家实验室限制访问能力,我们自己也在限制访问能力。这批评公平。大家都做门控,唯一的变量是为什么做门控讲什么故事——我们的故事都没有。我们要放出来的是让你能查我们的部分:完整技术报告(89 任务逐 trial 结果)、完整运行轨迹(连同官方 Terminal-Bench 验证提交一起),产品本身也很快放出。源码闭源,证据不闭。
下一步
技术报告 Section 3 是方法论,Section 8 是局限性,Appendix A 是 89 任务逐项审计。轨迹随验证 run 一起放。要 Sentra Code Memory 早访问,或者想就任何数字辩论,DM 我或 ashwin at sentra.app。
我们从代码开始,因为代码有组织里最清晰的价值函数:让测试通过。 这种清晰让结果易测,也是为什么代码只是第一个领域。同样动作——结构优先再智能——是公司大脑对组织知道又反复忘的东西做的事。那部分更难基准。那部分也更有趣,也是我们去的地方。
附:什么是公司大脑
Sentra 在构建一个"公司大脑"——一个共享智能/记忆层,坐在所有沟通渠道、知识库、行动和 Agent 轨迹之上,理解组织里每个人实际怎么工作、工作怎么实际完成,实时构建整个公司的活体世界模型。 Code Memory 是这一愿景在代码领域的第一个具体实现。