阿里云工程师「阿里妹」发布了「项目深度解析」系列第 4 篇,聚焦 Agent 时代的知识工程。前文分别解析了 OpenClaw、Claude Code、Hermes Agent,这篇从 Knowledge Engineering 角度切入——一个被讨论较少但决定 Agent 上限的关键维度。
为什么知识工程重要
Prompt Engineering 教模型「完成什么样的任务」,Knowledge Engineering 教模型「应该知道什么」以及「如何运用已知信息」。
Agent 的 Context 不仅包含对话指令和历史记录,更核心的组成部分是外部注入的知识:
- 经验性知识:完成特定任务的策略、步骤、隐性经验(在 Hermes/OpenClaw 体系中封装为 Skill)
- 事实性知识:领域客观信息、文档、FAQ 等静态数据
自动沉淀 Skill 的机制取决于模型自己的判断,触发时机和可控性较低。真正推动 Agent 自进化的,是能让知识库「自动梳理、自动组织、自动更新、自动进化」的体系。
知识体系演进三阶段
作者回顾了阿里云智能客服的知识体系演进,折射出整个行业的范式变化:
阶段一:传统智能知识库(2016-2022) 人工分类、打标、归档,树状或标签体系。关键词匹配召回,高度依赖人工维护,灵活性差。
阶段二:RAG 时代(2023-) 前置小模型检索 + 后置大模型生成。解决了海量知识存储和召回,但有三个问题:
- 模型能力断层:前置检索模型语义理解有限,容易漏召/误召
- 搜索独立性:每次交互独立检索,上次找到答案下次仍要重新搜
- 知识未沉淀:Agentic RAG 用昂贵推理成本弥补检索能力不足,仍无法解决沉淀问题
阶段三:Agent 时代 LLM Wiki 和 GBrain 的核心优势是「一次学习,永久可用」:消除重复搜索、全链路大模型参与、知识累积效应形成飞轮。
LLM Wiki:编译型知识
Andrej Karpathy 的 LLM-Wiki 核心思想:不是查询时从原始文档检索,而是让 LLM 渐进式构建和维护一个持久的 Wiki——结构化、相互链接的 Markdown 文件集合。
这与 RAG 的本质区别,作者用了一个精准类比:
| 对比项 | 传统 RAG | LLM Wiki |
|---|---|---|
| 知识检索 | 每次查询重新检索原始文档 | 知识被提前编译到 Wiki 中 |
| 交叉引用 | 运行时发现 | 已经建立好了 |
| 知识矛盾 | 每次重新发现 | 已经被标记 |
| 综合分析 | 每次重新推导 | 随每个来源添加而丰富 |
三层架构:
- Raw Sources:只读存档区,原始输入
- The Wiki:LLM 生成的结构化知识页面(LLM 完全拥有这一层)
- The Schema:定义系统如何运行、更新、校验的元指令(如 CLAUDE.md 或 AGENTS.md)
三个操作形成闭环:
- Ingest(摄入):新来源触发深度处理,一个来源联动更新 10-15 个 Wiki 页面
- Query(查询):LLM 定位相关页面综合出带引用的答案;高质量答案可归档为新页面
- Lint(维护):定期健康检查,识别矛盾、清理过时声明、发现孤儿页面
Karpathy 的实践方式:LLM Agent 开在一侧,Obsidian 开在另一侧。LLM 根据对话做编辑,用户实时浏览结果——跟踪链接、查看图谱视图、阅读更新页面。Obsidian 是 IDE,LLM 是程序员,Wiki 是代码库。
Obsidian-Wiki:工程化增强
Obsidian-Wiki 在 LLM-Wiki 基础上做了多项工程化增强:
Delta 追踪:用 .manifest.json + SHA-256 哈希追踪所有已摄入来源,扫描时分类为 new/modified/touched/unchanged/deleted,避免重复处理。
来源可信度边界:来源文档被视为不可信,LLM 永远不应执行来源中的命令,防止通过恶意文档注入指令。
溯源标记系统:每条知识标记来源可靠性——^[extracted] 直接提取、^[inferred] 基于推断、^[ambiguous] 存在歧义。
自动知识摄入:从 Claude、Codex、OpenClaw、Hermes 等 Agent 的历史记录自动提取隐性知识,打破数据孤岛。优先级:Memory 文件 > 近期笔记 > 会话记录。
局限性:纯 Markdown 存储意味着无复杂查询能力;规模天花板明显(数百到低千页面);无自动化调度;弱结构化图谱(缺乏类型化边);非实时实体检测。
GBrain:混合检索 + 知识图谱
Garry Tan 的 GBrain 在 LLM-Wiki 基础上引入更厚重的工程化实践。
架构哲学:Thin Harness, Fat Skills Harness 做薄,主要精力在丰富 Skills 上。这与很多主流把重点放在 Harness Engineering 的思想不同。
潜在空间 vs 确定性
- 潜在空间(Latent Space):LLM 处理——判断、分析、综合(如「这条信息是否属于某人的页面」)
- 确定性(Deterministic):代码处理——SQL、计算、链接构建(如交叉验证链接、验证引用格式)
混合检索架构:向量过滤 + 文件披露 检索不是「搜索即召回」,而是分层过滤与渐进式披露:
- Chunk 确认:混合搜索(关键词 + 语义向量)快速筛选相关文本片段(约 2KB),确认页面是否相关
- 整页加载:调用 get_page() 获取完整 Markdown 内容
- 分层呈现:优先提供「编译真相」(最新综合摘要),再补充「时间线证据」(历史记录、原始来源)
Benchmark(240 页富文本语料库):
- P@5:GBrain 49.1% vs 仅混合搜索 17.7%(+31.4 pp)
- R@5:GBrain 97.9%
图谱加权的 back-link boost 是效果提升的主要来源。
图谱构建 Pipeline:
- 实体抽取:正则匹配 Markdown 链接和 wikilink,关键词匹配关系动词
- 页面生成:为每个实体自动生成 Markdown 页面
- 关系分类:关键词匹配判断关系类型(works_at、founded、invested_in 等)
- 反向链接强制化:A 提到 B,自动在 B 页面添加指向 A 的链接——「没得商量」
GBrain 拥有完整图数据结构:节点 + 有类型的边 + 可遍历性。支持多跳查询如「查找所有由张三投资且李四任职的公司」。
多模态支持:视频、音频、PDF、截图通过转录、OCR 转化为结构化信息。
选型建议
LLM Wiki 追求极致轻量与透明,适合个人和小规模场景;GBrain 追求工程化稳健与扩展,适合复杂数据和大规模应用。
最佳实践是混合架构:
- 向量检索、关键词索引进行快速初筛(「找得快」)
- 保留大模型对高价值知识的深度阅读、渐进式披露以及离线自我迭代(「答得准」、「记得牢」)
Skill 与知识的动态维护体系,是决定 Agent 能否从「一次次试错探索」进化为「持久化学习更新」的分水岭。