AlphaSignal AI 梳理了一个基于六个开源项目的五层开发栈,核心命题:大多数 AI coding stack 是 pipeline(输入→输出→什么都不保留),这个栈是一个 cycle(每个 session 让整个 stack 变聪明)。
解决的四个根本性问题
这是架构问题,不是模型问题:
- Amnesia:context window 关闭后,agent 在上一个 session 里推导出的所有东西都没了
- Single-threaded execution:每个任务无论复杂程度只有一个推理 loop
- Generic behavior:不了解你的技术栈和规范,除非每次 session 都重新粘贴
- Knowledge decay:CLAUDE.md 会腐烂,过时的决策持续存在,过时的模式误导方向
五层架构
Layer 1:Hermes Agent(运行时)
持久化 runtime,不是无状态的 API wrapper:
- 跨 session 维护 MEMORY.md 和 USER.md
- SQLite FTS5 session store 做全文搜索
- Honcho dialectic modeling 做持久化用户偏好追踪
- SKILL.md auto-generate after 复杂任务,使用中自我改进
- Self-evolution via DSPy + GEPA(ICLR 2026 Oral),$2-10/次,五个 constraint gates 过滤后 PR 进 main repo
- Gateway 支持 Telegram、Discord、Slack、WhatsApp、Signal、Email、Matrix、Home Assistant、CLI
Layer 2:Kimi K2.6(推理引擎)
1T 总参数,32B 激活,384 experts(每 token 8+1 shared),256K context,Modified MIT 开源权重。
关键指标:
- SWE-Bench Verified:80.2%(和 Claude Opus 4.6 的 80.8% 在同一集群)
- LiveCodeBench v6:89.6%
- AIME 2026:96.4%
- BrowseComp:单 Agent 83.2%,swarm 模式 86.3%
Agent Swarm(并行 Agent RL):自我分解任务为并行子任务,最多 300 个领域特定子 Agent,4,000 个协调步骤,12+ 小时连续运行。
Layer 3:Karpathy Skills(认知原则)
Karpathy 一条推特引发的社区 repo,四条原则编码为 CLAUDE.md 格式和原生 Hermes SKILL.md:
- Think Before Coding
- Simplicity First
- Surgical Changes
- Goal-Driven Execution
一个专家的 mental model,正确编码后零边际成本注入每个 agent session。
Layer 4:LLM Wiki(知识库)
Karpathy 2026年4月4日的 gist 定义的模式:
- 不可变的原始源 + LLM 维护的 Markdown wiki + schema 文档
- 三个操作:ingest(每个 source 更新 10-15 wiki 页面)、query(带引用的综合,可持久化)、lint(矛盾和过时检查)
社区扩展:
- Ebbinghaus 衰减曲线 R(t) ≈ e^(−t/S·ln2)
- 四层记忆(working、episodic、semantic、procedural)
- Typed knowledge graph + RRF 混合搜索(BM25 + vector + graph)
- Session 结束时的 crystallization:问题+发现+教训→结构化 wiki 页面
- 每次 query 重新派生(RAG),wiki 编译一次保持最新
Layer 5:GBrain + GStack(生产层)
Garry Tan(Y Combinator 总裁)的生产知识大脑:
- Markdown-first,append-only timeline 的编译真相
- Typed auto-wiring(attended、works_at、invested_in、founded、advises)
- PGLite(2秒启动,无需服务器)
Garry Tan 12天建到:17,888 页面、4,383 人、723 公司、21 个 autonomous cron jobs。
BrainBench v1:Recall@5 从 83.1%→94.6%(加图层后),图层-only F1 86.6% vs grep 57.8%。
GStack 加 role-based slash commands:/ship(发布级输出)、/cso(OWASP+STRIDE 分析)、/qa(结构化测试工作流)。
Garry 测量:比 2013 年编码速度快 810倍(11,417 vs 14 逻辑行/天)。
这个 Stack 的运转方式
Task arrives
→ Hermes routes it
→ Kimi K2.6 reasons, or spawns up to 300 sub-agents across 4,000 steps
→ Sub-agents pull from LLM Wiki (working → episodic → semantic → procedural)
→ Karpathy Skills load cognitive principles for the task type
→ GStack activates role tools (/review, /ship, /qa, /cso)
→ GBrain persists results with auto-wired entity graph
→ Session crystallizes: question + findings + lessons → structured wiki page
→ The wiki is richer for session N+100
Debugging session N becomes source material for session N+100.
当前未解决的问题
Swarm-level memory 未解决:K2.6 的 swarm 协调 300 个跨 4,000 步骤的并发子 Agent。这之间的 memory 如何持久化,没有公开文档。Session 级健忘症已关闭,Swarm 级 memory 是下一个开放的架构问题。
Setup complexity:六个项目,没有文档化的联合集成路径,每个有自己的 README。工程工作量是真实的,不是周末项目。
Schema maintenance:LLM Wiki 和 GBrain 都依赖维护良好的 schema document。不定期 lint 和人工 curation,schema 会腐烂,agent 跟着出错。
Cold start:GBrain 的图谱收益随数月 ingestion 积累。第一天价值有限。