Prukalpa 今年到处讲同一个论点。数据会议、AI 峰会、与 CDO 和 CIO 的内部简报。房间总是分成两半:一半人点头,一半人抱臂,中间某个时刻发生转变。
知识图谱大会是完整展开这个论点的合适地方,因为知识图谱社区在这是 cool 之前就 passionate 这个问题。
诊断:两种真相
先给怀疑者发言权:
- "AI 没有真正改变那么多。"
- "都是炒作。"
- "事情还和以前一样。"
- "AI 投资没多少回报。"
这些话不是错的。Bar exam 表现:2023 年模型在失败,2025 年 top 1%。新颖推理 benchmark:5% 到 87.5%。研究生科学考试:35% 到 87%,domain expert 基线 65%。这些不是 incremental gains,是十八个月窗口内发生的 step-changes。
然而:56% 的 CEO 报告 AI 零财务收益。只有五分之一报告 significant value。MIT METR 随机试验发现使用 AI 工具的经验丰富开发者慢了 19%,而非更快,尽管他们相信自己快了 20%。
两种事情都是真的。能力是真实的。回报没有 materialize。这不是矛盾。这是等待被做出的诊断。
核心公式
Prukalpa 从认知科学开始:认知智力(IQ 测试测量的)只 account for 约 10% 的真实工作表现 variance。只有 10%。
想想你最好的员工。她是房间里 IQ 最高的吗?几乎从来不是。她是积累了最多关于这里事情实际如何运作的上下文的人:你的特定客户、你的特定 edge cases、你的特定"这个客户,我们做得不同"。那是表现。不是原始智力。
翻译成公式:
Performance = Intelligence × Context
它是乘法是有原因的。上下文分数为零使表现为零,无论模型多有能力。 更聪明的模型在 fractured 上下文上操作不会产生更少错误。它产生更 elaborate、更 persuasive、更危险的错误。
过去十年的变化
智力提升了约三个数量级,从 GPT-2 到今天的前沿。上下文 barely moved。它仍锁在 dashboard、员工知识和在公司待得足够久知道尸体埋在哪的人头脑中。
你可以按 API 价格买智力。你无法按任何价格买上下文。
Maya 的故事
Maya 是芝加哥一家汉堡连锁店的客服代表。她处理一位愤怒母亲的九十秒电话——孩子刚刚从标记为无过敏原的订单中暴露于过敏原。母亲 furious。孩子 fine。订单还缺两样东西。Maya 在九十秒内解决整个情况,de-escalate 一位准备发社交媒体的客户,以五星评价结束通话。
关键问题:她如何到达那里。她需要四样东西处理那个电话:
- 知道什么是真的:过敏原政策、退款程序、升级标准
- 知道如何行动的技能:de-escalation 技巧、语气校准、判断道歉何时足够何时不够
- 通过什么工具行动:CRM、订单系统、退款工作流
- 特定情况的上下文:首次客户还是投诉过十七次的人;这个地点的模式还是一次性;想要退钱的母亲还是想知道不会再发生的母亲
她不是带着那个能力来的。她在四个月内 built it,通过每个组织直觉地为人类员工管理、几乎从不想为 AI Agent 管理的序列:文档 → 课堂培训 → shadow senior rep → 在监督下犯错 → 对她做错的 edge cases 获得反馈 → 慢慢构建告诉她情况何时 routine 何时不是的模式识别。
到第四个月,Maya 是 floor 上最好的 rep。不是因为她变聪明了。因为她构建了上下文。
AI 今天是 Maya 第一天
你组织部署的每个 AI Agent——聊天助手、数据分析师、文档处理器——带着非凡能力和零上下文到达。它 general 知道一切,specific 对你的业务一无所知。
它从未 shadow 过 Jamie。它不知道"50-50,客户总是赢"规则。它没有犯过教 Maya 先检查客户历史的退款错误。它从未被纠正、从未被指导、从未积累活在 no wiki、no escalation tree、no onboarding document 中的制度知识。
它是第一天。每一次。
四象限
| 低上下文 | 高上下文 | |
|---|---|---|
| 低智力 | 无用(BI dashboard 时代) | 可靠但有限(规则系统) |
| 高智力 | 危险(大多数生产 AI Agent) | 表现优异(目标,几乎没人到达) |
- 左下:静态报告、固定查询、无推理。大多数企业 BI 住这里。可靠在于不 surprise 你,无用在于不能回答任何不是为它构建的问题。
- 左上:well-tuned 规则系统和经典专家系统。规则正确编码业务。系统一致应用。不能推理规则之外,意味着每个新情况需要人类扩展系统。
- 右下:危险。 模型有能力,但不知道"active customer"在你公司是什么意思、财务团队用哪个 revenue 定义、哪些 exceptions 覆盖官方退款政策。输出自信、articulate、经常错误。危险不是 Agent visibly 失败。危险是它 persuasively 失败。规模化的自信幻觉是把 AI 从投资变成 liability 的失败模式。
- 右上:目标。 Agent 有前沿模型的推理能力和经验丰富员工的 situated knowledge。知道规则。知道规则的 exceptions。知道何时情况需要 exception。这是 AI 投资终于 compound 的象限,也是几乎没人所在的象限。
大多数企业卡在右下的原因不是模型不够聪明。模型 plenty smart。原因是他们十年投资了一个轴而忽略了另一个。修复不是更好的模型。修复是另一个轴。
上下文层:组织的活大脑
上下文层是坐在数据资产和 AI Agent 之间的层,编码 Maya 四个月积累的一切:metrics 和它们的定义、concepts 和 governing 它们的规则、entities 和它们跨系统的关系、skills 和嵌入其中的判断调用、连接所有这一切的数据图。
具体而言:
- 术语层:"qualified lead"在这个组织、对这个 AI Agent 意味着什么
- 实体解析:一个系统中的"customer"、数据仓库中的"account"、CRM 中的"contact"是同一实体
- 业务规则:人类团队花三年编码的 edge cases 和 exceptions,没有新员工在第一天学到
三面墙
墙 1:构建 Agent 只需 5 分钟。添加业务上下文需 5 个月。
每个人都能在一下午 spin up 一个 Agent。能力已民主化,但上下文基础设施没有。五个月时钟在你意识到 Agent 不知道你的组织说"revenue"或"customer"或"resolved"是什么意思时开始。这意味着手动映射四十列到语义模型。写定义说明"active customer"在营销团队和财务团队不同意时意味着什么。编码支持中每个人都知道但没人写下来的退款政策三个 exceptions。
墙 2:Agent 不共享学习。
Agent 1 被纠正时,Agent 2 不知道。你部署的每个 Agent 从零开始——不仅在第一天,而是永远——除非构建了 corrections 传播的基础设施。一个 Agent 有记忆,但一群 Agent 有失忆。第十个 Agent 对你的特定业务知道的不比第一个多。这是每个跳过上下文层的组织的 compounding tax。
墙 3:多 Agent 语义冲突。
多个 Agent 在同一领域工作时,不可避免地以不同方式解释 ambiguous concepts。一个 Agent 的"revenue"是 closed-won;另一个的是 recognized。孤立看,两者都产生 plausible outputs。在 seam 处,当它们 hand off 给彼此,当人类试图 reconcile 它们的 outputs,冲突 surface。Confidently、persuasively、wrongly。你的财务团队整周 reconciling variance 而非做财务。
四个清晰结论
1. 业务运营已编码在你的系统中。 你的组织实际工作方式在你的数据中是 legible,如果你以正确方式阅读。仓库中的 lineage 编码哪些表 feed 哪些报告,因此哪些定义是 load-bearing。分析师写的 SQL 编码产生每个 dashboard 上每个数字的 joins、filters 和业务逻辑。治理团队策划的描述编码每个字段的语义意图。现代 AI 能阅读所有这一切,跨它 synthesize,在几小时内产生你业务语义地图的 first draft——不是几个月。同一上下文工作过去花五个月,现在能在一周内 bootstrapped 并由领域专家以他们的语言在他们关心的条件下 refine。这改变上下文的 unit economics,从 artisanal 到 industrial。
2. 上下文质量 compound。 第一 pass 粗糙。每次 refine 被上一次的 inform。当 AI 生成 draft definition 和人类 refine 它时,下一个 definition 针对 refined 版本生成,质量曲线 climb。数据是 solid:AI-generated context,由人类验证,最终 rated 比从头做的人类 authored context 更高质量,因为 AI 看到整个图而人类只看到字段。这是 flywheel,不是一次性项目。早期认识到这一点的企业现在 meaningfully 领先于没有认识到的。
3. 交互生成上下文,traces 是 gold。 每次 Agent 在生产中操作、人类 review 输出,那个交互是 signal。纠正是数据。批准是数据。"那不是我们这里做事的方式"是数据。大多数组织 discard 这个 signal。真正进步的 capture 它。capture traces 并 feed 回上下文层的企业正在构建公司外无人能复制的 moat。
4. 企业上下文需要生命周期管理。 上下文 decay。你的业务变化。团队 wiki 更新的 metric definition、重组的 product line、quietly expired 的 compliance carve-out。上下文层需要像代码库一样维护。Versioned、tested、governed。如果"active customer"的定义变了,谁批准?哪些 downstream agents 需要被通知?如果新定义 turns out wrong,如何 rollback?如果你今天不能回答这些问题,你还没有把上下文当作基础设施运行。你是在用希望运行它——就像版本控制之前每家公司运行代码的方式。
赌注
上下文将变得和内容在互联网时代一样基础。
2000 年代初,每个组织争先恐后地把内容上线。它起初感觉 optional,然后 urgent,然后 table stakes。你无法没有 web presence、content strategy、digital footprint 运营。
上下文正遵循同样曲线。现在它感觉 optional。三年内 urgent。五年内,没有它你无法运行企业 AI 战略。
知识图谱社区几十年一直在做这项工作:quietly 构建对 ontologies、taxonomies、semantic models、controlled vocabularies、entity resolution 和 lineage 的理解。问事物实际意味着什么、谁决定、那个 meaning 如何跨系统传播的纪律。这是 unglamorous 的工作,从预算中被 cut 或 roll 进数据工程或 push 进被当作 cost centers 的治理团队。但这个社区继续做,因为他们知道它重要。
现在领域其余部分正在到达这个社区多年前就 reached 的结论。"Memory"论文正在 rediscover typed relations。"Context engineering"正在 reinvent W3C 标准中就有名字的东西。每个前沿 lab 都在某种形式上构建 toward 知识图谱实践者一直告诉企业构建的东西。
因为今天构建的系统有 orders of magnitude 更多的 reach 和 consequence,这个纪律比以往任何时候都更重要。关于"customer"意味着什么、"revenue"意味着什么、"decision"意味着什么的根本决策,即将为世界上的每个企业做出。这将由 spent 他们的职业生涯仔细思考 meaning 的人完成,或由刚刚发现其价值的人完成。第一个结果 much better。