完整开源开发栈：Hermes Agent + Kimi K2.6 + Karpathy Skills + LLM Wiki + GBrain

AlphaSignal AI 梳理了一个基于六个开源项目的五层开发栈，核心命题：大多数 AI coding stack 是 pipeline（输入→输出→什么都不保留），这个栈是一个 cycle（每个 session 让整个 stack 变聪明）。

解决的四个根本性问题

这是架构问题，不是模型问题：

Amnesia：context window 关闭后，agent 在上一个 session 里推导出的所有东西都没了
Single-threaded execution：每个任务无论复杂程度只有一个推理 loop
Generic behavior：不了解你的技术栈和规范，除非每次 session 都重新粘贴
Knowledge decay：CLAUDE.md 会腐烂，过时的决策持续存在，过时的模式误导方向

五层架构

Layer 1：Hermes Agent（运行时）

持久化 runtime，不是无状态的 API wrapper：

跨 session 维护 MEMORY.md 和 USER.md
SQLite FTS5 session store 做全文搜索
Honcho dialectic modeling 做持久化用户偏好追踪
SKILL.md auto-generate after 复杂任务，使用中自我改进
Self-evolution via DSPy + GEPA（ICLR 2026 Oral），$2-10/次，五个 constraint gates 过滤后 PR 进 main repo
Gateway 支持 Telegram、Discord、Slack、WhatsApp、Signal、Email、Matrix、Home Assistant、CLI

Layer 2：Kimi K2.6（推理引擎）

1T 总参数，32B 激活，384 experts（每 token 8+1 shared），256K context，Modified MIT 开源权重。

关键指标：

SWE-Bench Verified：80.2%（和 Claude Opus 4.6 的 80.8% 在同一集群）
LiveCodeBench v6：89.6%
AIME 2026：96.4%
BrowseComp：单 Agent 83.2%，swarm 模式 86.3%

Agent Swarm（并行 Agent RL）：自我分解任务为并行子任务，最多 300 个领域特定子 Agent，4,000 个协调步骤，12+ 小时连续运行。

Layer 3：Karpathy Skills（认知原则）

Karpathy 一条推特引发的社区 repo，四条原则编码为 CLAUDE.md 格式和原生 Hermes SKILL.md：

Think Before Coding
Simplicity First
Surgical Changes
Goal-Driven Execution

一个专家的 mental model，正确编码后零边际成本注入每个 agent session。

Layer 4：LLM Wiki（知识库）

Karpathy 2026年4月4日的 gist 定义的模式：

不可变的原始源 + LLM 维护的 Markdown wiki + schema 文档
三个操作：ingest（每个 source 更新 10-15 wiki 页面）、query（带引用的综合，可持久化）、lint（矛盾和过时检查）

社区扩展：

Ebbinghaus 衰减曲线 R(t) ≈ e^(−t/S·ln2)
四层记忆（working、episodic、semantic、procedural）
Typed knowledge graph + RRF 混合搜索（BM25 + vector + graph）
Session 结束时的 crystallization：问题+发现+教训→结构化 wiki 页面
每次 query 重新派生（RAG），wiki 编译一次保持最新

Layer 5：GBrain + GStack（生产层）

Garry Tan（Y Combinator 总裁）的生产知识大脑：

Markdown-first，append-only timeline 的编译真相
Typed auto-wiring（attended、works_at、invested_in、founded、advises）
PGLite（2秒启动，无需服务器）

Garry Tan 12天建到：17,888 页面、4,383 人、723 公司、21 个 autonomous cron jobs。

BrainBench v1：Recall@5 从 83.1%→94.6%（加图层后），图层-only F1 86.6% vs grep 57.8%。

GStack 加 role-based slash commands：/ship（发布级输出）、/cso（OWASP+STRIDE 分析）、/qa（结构化测试工作流）。

Garry 测量：比 2013 年编码速度快 810倍（11,417 vs 14 逻辑行/天）。

这个 Stack 的运转方式

Task arrives
→ Hermes routes it
→ Kimi K2.6 reasons, or spawns up to 300 sub-agents across 4,000 steps
→ Sub-agents pull from LLM Wiki (working → episodic → semantic → procedural)
→ Karpathy Skills load cognitive principles for the task type
→ GStack activates role tools (/review, /ship, /qa, /cso)
→ GBrain persists results with auto-wired entity graph
→ Session crystallizes: question + findings + lessons → structured wiki page
→ The wiki is richer for session N+100

Debugging session N becomes source material for session N+100.

当前未解决的问题

Swarm-level memory 未解决：K2.6 的 swarm 协调 300 个跨 4,000 步骤的并发子 Agent。这之间的 memory 如何持久化，没有公开文档。Session 级健忘症已关闭，Swarm 级 memory 是下一个开放的架构问题。

Setup complexity：六个项目，没有文档化的联合集成路径，每个有自己的 README。工程工作量是真实的，不是周末项目。

Schema maintenance：LLM Wiki 和 GBrain 都依赖维护良好的 schema document。不定期 lint 和人工 curation，schema 会腐烂，agent 跟着出错。

Cold start：GBrain 的图谱收益随数月 ingestion 积累。第一天价值有限。

原文：The Ultimate Open-Source Dev Stack — AlphaSignal AI