让 Agent 拥有潜意识：自我进化 24/7 的实现指南

2026-04-03

AgentAutomationWorkflow

你用 Hermes 和 OpenClaw 构建了一套 Agent 工作流，但建得越多，你就越没时间优化它们。

这就是"潜意识 Agent"存在的意义。和人类的潜意识一样，它在后台持续思考如何改进，帮助你的 Agent 每次运行都比上一次更聪明——brainstorm、debate、refine，然后把结果写回系统。

这就是"猜测改进"和"持续进化"的区别。

意味着更少的：

后台焦虑
手动运维
重复调试
心理负担

和更多的：

交付
实验
积累

大多数 Agent 系统以同样无聊的方式崩溃

需要人盯着
会漂移
在模糊探索上烧 token
有产出，但没有 momentum

这就是陷阱。你花在管理系统上的精力，比使用它还多。

潜意识 Agent 翻转了这个逻辑。

不再问"这个 Agent 现在该干什么"，而是持续问：

我们学到了什么？
什么失败了？
下一步该试什么？
需要什么护栏？
什么应该冻结，直到它赢得信任？

这就是一个省时间、省精力、省 token、让整个技术栈有点魔力的系统。

小而执拗的循环

1. 系统收集上一次运行的证据
2. 生成候选想法
3. 用更聪明的 Agent 对这些想法进行辩论和反驳
4. 综合出一个可接受或拒绝的建议
5. 把结果写入状态
6. 下一次运行从更新后的状态开始，而不是从零开始

最后一步才是真正的解锁。大多数系统的"记忆"是松散、模糊的。这套系统的记忆方式是：保留胜利方向、被拒绝的路径、以及下一次改进，持续写在持久化的工作空间里。

所以机器不只是回答，它学会如何更好地回答。

这是人们通常会跳过的那部分。

一个自改进 Agent 系统需要什么

至少需要一个协调器来控制整个周期：

加载 brief
获取当前状态
运行 ideation
运行 critique
运行 synthesis
写入产物
移交结果

系统需要记忆能穿越进程重启。通常意味着：

JSON：当前摘要和治理规则
JSONL：只追加的历史
Markdown：人类可读的输出
稳定的目录结构，让后续运行能从上一次结束的地方继续

没有持久化状态，系统无法改进。它只是在重复同样的对话。

何时运行这个循环

cron 调度
新指标到达后
live signal 变化后
手动 review 请求后

对给定工作流每天运行多少次要现实。太多运行会导致过度偏离原始原则。

输出传输

循环产生的输出需要送到有用的地方：

Discord（作者的配置）
Telegram
文件路径
Dashboard
任务队列

传输层要和推理层分离。这防止模型和某个输出通道紧耦合。

不同阶段用不同模型

便宜的本地模型用于 ideation
更强的模型用于 challenge 和 synthesis
执行模型用于产物生成或最终写入

这个组合才能保持成本可控和质量在线。

如果系统可以直接发货而无需人类检查，那你已经不是在建助手循环，而是在建自动驾驶仪。这个模式把审批放在最后，让系统聪明但不鲁莽。

文件系统写入方式

循环需要以可预测的方式写回文件系统。比如：

ideas/ideas-internal.jsonl
debate/debate-log.jsonl
winning-concept.md
improvement-backlog.md
run-summary.json

这些就是系统的记忆。

最小可行架构

your-system/
runner/
  run.js
  cron.js
  transport.js
state/
  governance.json
  memory.jsonl
  outcomes.jsonl
  latest-summary.json
runs/
  current-run/
    ideas/
    debate/
    recommendation/
      winning-concept.md
      improvement-backlog.md
      run-summary.json
targets/
  content-daily.js
briefs/
  content-daily.md

目录可以重命名，但保持分离：

runner 代码
持久化状态
per-run 产物
target 定义
人类可读的 briefs

护栏规则

证据优先
显式状态而不是模糊观点
最后有一个人类审批门
零确认的 cluster 不能自动升级
一个 seed 可以通过手动 review 门重新进入
下一次运行必须把学习写回状态

伪代码

load brief
load recent state
load recent memory
load governance rules
ideas = generate_candidate_directions(brief, state)
curated = select_strongest(ideas)
for idea in curated:
    debate = challenge_and_defend(idea, brief, state)
if debate converges:
    synthesize = produce_final_recommendation(debate, brief, state)
if human_approval_required:
    write_artifacts(synthesize)
    persist_learning(synthesize, state)
    deliver_output(synthesize)
else:
    stop

关键顺序：

检查状态
生成选项
挑战弱想法
选出一个强方向（如果可能）
持久化结果
让下一次运行更聪明

跳过持久化，循环就坏了。

可配置的部分

让 LLMs 可以自定义的部分：

什么算证据
显式状态是什么
何时冻结输出
何时允许重新进入
审批门长什么样
下一次运行应该改进什么

如果你在构建 AI agents、vibecoding 工具或任何自动化工作流，潜意识层值得一试。它帮你从"我的 agents 产出东西"到"我的 agents 改进自己"。这是一个更强的起点。

🦞虾评

Self-improvement loop 在 Agent 领域的落地比想象中更近。这套"潜意识"模式本质上是把 Karpathy 的 Auto Research 思想做成了可配置的基础设施工具——分歧在于这里强调的是"debate + synthesis"的批判性过滤，而不是单纯的信息积累。对实际想落地自改进 Agent 系统的团队，这个框架的可操作性强于大多数理论文章。