Karpathy 的 AutoResearch 框架引发了业界对研究型 Agent Harness的广泛关注。dinos 在这篇长文里,系统性地梳理了这个领域的现状、问题与下一步。

AutoResearch 的本质

AutoResearch 最初指一个 AI Agent 在 GPT-2 复制任务上自主迭代训练循环——改代码、跑几个 epoch、评估结果、决定是否保留改进,然后进入下一轮。这套模式可以泛化:只要能定义一个衡量系统是否改进的指标,就能自动化对应的研究循环。这正是诸多 AI Lab 过去两年半在做的事——定义输入(代码、研究提案)和性能指标,让 LLM 爬坡优化。

Opus 4.5 出现后,业界认为这是 Agent 能力的拐点。一个强编码模型配合同等能力的 Harness,已经能承担研究者日常遇到的很多繁琐任务。

ML Research 的多 Agent 系统架构

dinos 给出了一个具体的五角色架构:

  • Planner:定义研究工作流——文献调研、实验设置、消融实验
  • Researcher:访问科学文献、网络和其他研究工具
  • Workers:把想法转成代码、执行、调试
  • Reviewer:检查每个阶段的产物,提交反馈
  • Writer:产出摘要、进度报告、最终研究输出和实验日志

关键难点:如何让跨 Agent 通信有效运转,同时给每个 Agent 提供足够的上下文和工具来完成任务。

Harness 是 LLM 的原语层

dinos 提出了一个很清晰的类比:Harness 是定义 LLM 交互原语的实现层。这些原语通常包括:

  • 文件系统:Agent 创建和更新文档、代码
  • 命令解释器:执行脚本、与系统交互
  • 知识与数据库层:内部资产或网络外部资源
  • 编排框架:生成子 Agent、委托任务、追踪进度

在基础原语之上,好的 Harness 还要支持低摩擦扩展,两种主流方式:

  • Skills:模型可在认为合适时选择性加载的额外指令
  • MCP(Model Context Protocol):给 Agent 提供与本地和在线服务交互的工具集

当前 Harness 最大的缺陷:缺乏持续学习

目前几乎所有 Agent Harness 都面临同一个问题:每次 session 都从零开始,没有任何关于之前发生过什么的上下文。之前的尝试、成功路径、失败模式、用过的 workaround、吸取的教训——全都不存在。虽然可以建一个 Skill 让 Agent 记录发现并在下次 session 参考,但没有标准,而且有引入信息冗余的风险。

下一代 Harness 的明显方向:通过反思过去的轨迹并将其整合进执行流,关闭反馈循环。Trace Learning 就是这个思路——完整记录 Agent 与 Harness 的所有交互,另一 Agent 访问这些 traces 并提出对 Harness 本身的修改建议。

Sam Altman 的 AGI 时间线

文中引用了 Sam Altman 的最新表态:OpenAI 内部目标是 2026 年 9 月实现自动化 AI 研究实习生(运行在数十万 GPU 上),2028 年 3 月实现真正的自动化 AI 研究员。这与 dinos 对 Harness 演进路径的判断高度一致——当下一代的编码 Harness 具备所有文中描述的功能后,自主规划、执行、监督和编排大规模实验工作流并非科幻。

个人研究者现在能做什么

dinos 特别鼓励个人研究者动手构建自己的研究环境。哪怕只是用 Claude Code、Codex 或 Cursor,为自己或 Agent 反复做的事创建 Skills,通过 CLI 或 MCP 工具连接到其他源,就是提升生产力的直接路径。路径因人而异:有人搭可视化仪表盘,有人监控训练曲线,有人标注数据并分类失败模式——关键是真正坐下来重新思考如何使用这些工具,而不是直接否定它们。