返回 FEED
CLAUDE2026-06-03

Xudong Han 个人 Agent 合集:30 天把 EvoPaw 养成只懂你的工作系统

Xudong Han 过去 30 多天把自己的个人 Agent EvoPaw 从"能跑起来的毛坯房"迭代成了"每天都在用的工作系统",把日常七八成的重复劳动都接过去了。这是一篇把 30 天整个过程拆开、串起来的完整合集。不讲框架、不讲架构图,只讲一个普通人怎么一步一步把自己的 Agent 长出来。

起点:为什么自己搭 Agent 是主权问题

Xudong 每次聊 EvoPaw,都会被问:"OpenClaw、Hermes Agent、Nanobot 已经做得这么好了,为什么还要自己搭?"

他的答案就一句:因为用现成框架的那一刻,你就把进化的主动权交了出去。

用现成框架,你永远在追新框架、调 prompt、修兼容。框架升级你就得升级,框架不维护你就得重来。看起来你在用工具,实际是被工具牵着走。

而自己搭的好处,能落到四件具体的事:

第一件,模块边界清晰。 想换哪一层就换哪一层——provider、编排、记忆、技能——上层代码基本不动。这种自由度,在现成框架里几乎不可能。

第二件,可以"偷"设计。 读别人的 Agent 学技能自动演化、读另一个学依赖预检、读第三个学多 provider 抽象。一旦你在自己的系统里跑过一遍,看别人的项目就不再是看"一个整体框架",而是一堆可以拆下来、拼回去的零件。

第三件,数据和理解的主权。 Agent 用久了,会慢慢长出对你的"理解":你喜欢什么格式、你怎么拆任务、你最近在焦虑什么。这些不是文件,是长期互动里涌现出来的"二阶资产"。平台 Agent 很难完整迁移——你花一年喂养出来的默契,换平台可能一夜归零。

第四件,门槛真的已经低到离谱。 2026 年有了 Claude Code、Codex 这类 Vibe Coding 工具,你不需要是程序员。改一行 prompt、让 AI 帮你写一个 Skill、加一个记忆文件——一步步就能把这个系统变成只属于你自己的样子。

他的具体起步建议:先用现成工具跑两周,感受"有 AI 助手在线"是什么体验;然后带着挑剔去用它,把所有别扭的地方都记下来,从这些痛点开始动手。起点不是终点。

15 天从 0 到日常使用的五步流程

如果你下定决心要自己搭,下面这套流程是他自己跑下来觉得最顺的一条路。

基座选择:Nanobot。 代码干净、轻量、飞书等通道内置、多 provider 支持。在他试过的所有项目里,是最省事的一个。

第一步,挑一个轻量基座。 判断标准很硬:代码行数最好低于 8000 行,agent loop 一眼能看明白,能比较容易地接飞书或 Telegram。重不重要看你能不能改得动,能改得动才能长得久。

第二步,用 Claude Code 装好,把飞书顺手跑通。 飞书强烈走长连接模式,不用公网 IP、不用配 webhook,是体验最舒服的一条路。

第三步,建好脚手架文件。 CLAUDE.md 是项目的说明书,docs/ 下面再放 spec.mdprompt_plan.mdtodo.md这些文件是跨会话的持久化记忆,比任何 prompt 技巧都强。

第四步,把模糊需求逼成清晰 spec。 这是整套流程里最关键的一步,单独在第三章展开讲。

第五步,每加一个功能必须配测试。 同样关键,在第四章展开。

跑完这五步,你会从"用别人的 Agent"变成"拥有自己的系统"。这两件事的差别比想象中要大得多。

进阶玩法也有两个值得提一句:一个是从 Hermes、OpenClaw 这些项目里"偷"好设计——可以是思想级别的重写、模块级别的抄、甚至文件级别的复用;另一个是装上 Codex MCP,让两个模型互审(第七章展开)。

Vibe Coding 的命门:把模糊需求逼成清晰 spec

Vibe Coding 速度优势的前提,是 spec 必须清楚。spec 越糊,AI 跑得越快,你死得越惨。这是 Xudong 交了无数学费之后才反应过来的事。

他自己跑一个新需求,基本是下面这五步(以"飞书群待办总结"为例):

第一步,先填一张表,逼自己说人话。 把痛点写出来、把期望写出来、把自己不知道的地方也老老实实写出来。这一步看起来废,但能拦住 80% 的"想到哪写到哪"

第二步,开 Plan mode(Shift+Tab),让 Claude Code 反复追问你。 边界条件、错误处理、性能要求、跟现有功能有没有冲突——全问清楚。这一步是把脑子里模糊的东西具象化的过程,越被问越能想清楚

第三步,输出 docs/spec.md 用列表、用表格,写得像合同,不要散文。一份能让别人看着实现出来的 spec,才是合格的 spec。

第四步(可选但强烈推荐),让 Codex review 这份 spec。 它能挑出你和 Claude 都意识不到的盲区。

第五步,把 spec 拆成 prompt_plan.mdtodo.md 每一步控制在 2 到 5 分钟、可以独立验收。这样后面动手的时候节奏才稳。

懒人神器他也直接推荐了:obra/superpowers。装上之后,你说"加个功能"它会自动触发 brainstorming skill,硬约束你先把 spec 出清楚再动手。新手装上能少踩 70% 的坑。

测试是换模型、换底层、做大重构的胆量

Vibe Coding 时代,测试不再是"防 bug",而是真相通道。没有测试,你根本不知道 AI 改的这一版到底有没有破坏旧功能。

但要注意一件反直觉的事:让 AI 给自己写测试,天然会作弊。 测试和实现互为镜像,永远绿,看着安心,其实毫无防御能力。

正确的姿势是 TDD 简化版,五步走:先让 AI 根据 spec 写测试(这时候测试是红的);然后你自己 review 这些测试——只测行为,不测实现细节,这一关一定要把好;接着让 AI 写实现,让测试变绿;再加 boundary case 和 adversarial case,故意给函数喂坏数据;最后让 Codex review 一遍这些测试。

superpowers 里有一个 test-driven-development skill 会强制你跑红 → 绿 → 重构的循环,还带一条"铁律":写了实现但没先写测试,就删掉重写。 听起来狠,但坚持两周之后,你会发现真正的杠杆不是测试本身,而是"敢重构"的勇气

Claude Code 8 个关键配置 + Codex 10 个 TOML 配置

下面这两套配置 Xudong 跑了几个月,效果非常明显。花 5 到 10 分钟改完,工具会变得更聪明、更便宜、更可靠、也更安静。

Claude Code 8 个关键配置(粘贴进 ~/.zshrc~/.claude/settings.json):

  • 强制高思考强度(ANTHROPIC_THINKING_BUDGET
  • 关掉自适应思考,防幻觉
  • 子代理切到便宜的 Haiku 模型,账单能砍到 1/5
  • 主模型默认 Sonnet,遇到硬骨头再切 Opus
  • 拉长单次输出上限
  • 开虚拟视口和 diff 渲染,不闪屏
  • 关所有遥测
  • 把 bash 超时放宽到 30 分钟以上

Codex 10 个 TOML 配置(放在 ~/.codex/config.toml):

默认强模型、reasoning effort 拉到 high;审批策略走 on-request,该问的时候问;沙盒走 workspace-write,默认断网;搜索走 cached;关掉 alternate screen、关掉 reasoning event 的实时显示、关掉长期历史落盘、关掉 analytics。

每一项单独看都不起眼,但叠在一起,使用体验是质变。

新手必装的 superpowers 纪律系统

新手做 vibe coding 最大的敌人,不是 AI 不够聪明,而是缺少强制纪律。AI 速度够快,但人控制不住自己想"跳一步"。

装上 obra/superpowers,重点用下面五个 skill 就够了,全部自动触发:

  • brainstorming —— 硬约束你出 spec 再动手
  • writing-plans —— 把 spec 拆成 bite-sized task
  • test-driven-development —— 强制红绿循环 + 铁律
  • systematic-debugging —— 没复现就不许 fix
  • verification-before-completion —— 没真跑过验证命令就不许 claim 完成

第一周严格跟着跑,先把肌肉记忆养出来,再考虑魔改。 剩下那 9 个 skill(worktree、parallel agents 之类)一个月以后再碰,不然容易心力分散。

双模型互审,破解自我盲区

Claude 和 Codex 的训练分布不一样,盲区不重合。让它们互相 review,是目前能找到的性价比最高的 QA 方式。

配置方法很简单:用 MCP 把 Codex 注册成 Claude Code 的工具(反过来也行),整个流程在一个会话里跑就行。

最值钱的四个互审场景

  • spec 互审,专门挑边界、歧义、隐含假设
  • 测试互审,只看测试本身,揪出那些"装样子的测试"
  • debug 二审,让另一方在不看 fix 的前提下独立诊断根因
  • 重要 diff 互审,专门盯破坏接口、吞错、和 spec 不一致这三类问题

里面有两条铁律必须守住:

  • 测试一定要让没写实现的那一方来写
  • Debug 一定要让对方在不看 fix 的前提下独立诊断

只要这两条守住,互审就不会退化成两个模型互相点头。

真正的杠杆是"敢重构"的勇气

Xudong 在结语里说,整个系列说了这么多,其实就一句话:

用现成框架,你永远是用户。自己搭,你才有可能成为主人。

从今天开始,可以做这四件具体的事:

  1. Fork Nanobot 或类似的轻量项目
  2. 装好 Claude Code 或者 Codex,改完那套配置
  3. 装上 Superpowers
  4. 挑一个真实的痛点,按 spec 流程跑一遍

不需要一次做到完美。 一天改一行 prompt、一周加一个 Skill、一个月重构一次底层,它就会一点一点地,变成只懂你的那个系统。EvoPaw 就是这么长出来的。