AI 同事的上下文之战
Glean 的 Tony Gentilcore 发布了一份硬核基准测试,核心结论:上下文层决定 AI 同事的质量和经济学。
测试方法很干净:统一用 Claude Cowork 作为 harness,Claude Sonnet 4.6 作为模型,只替换上下文层——对比 Glean 的远程 MCP 服务器(基于集中式索引和知识图谱)与市面上通用的 off-the-shelf MCP 工具(Atlassian Rovo、GCP、GitHub、Gmail、Google Calendar、Google Drive、Salesforce、Slack 等)。
在约 175 个企业级查询中:
- Glean 被偏好 ~2.5 倍
- 通用 MCP 工具多消耗 ~30% token
联邦搜索 vs 集中索引
企业上下文 traditionally 有两种解法:
联邦搜索(Federation):每个连接器用自己的检索策略独立查询。问题是:
- 底层搜索质量参差不齐,有的只支持词法检索,有的只支持语义检索
- 工具调用次数爆炸,每个系统单独调,然后靠模型自己归一化和聚合
- 只能看到用户级信号,丢失企业级信号:作者权威性、文档关联性、跨应用排名输入
- 延迟叠加,被最慢的工具调用绑架
联邦搜索的补偿策略是让 AI over-fetch 数据,靠更多 reasoning loop 来合成结果。两者在延迟和 token 上都很贵,而且仍然容易产出不准确的回答。模型上下文窗口固定、注意力有限,over-fetch 会稀释窗口,甚至聚合矛盾或过时的信息。
集中索引(Centralized Indexing):把所有来源的数据摄入并归一化到单一层,实现跨应用信号和统一排名。
Glean 走的是这条路。
Token 经济学的真相
通用 MCP 工具平均多用 30% token,但更有趣的是 token 消耗如何随结果质量变化:
| 场景 | Glean | 通用 MCP |
|---|---|---|
| 稳定输出 | ~42k-44k | 随难度攀升 |
| 需要正确回答时 | ~43k | ~83k(接近翻倍) |
通用工具要赢,靠的是暴力搜索、更多工具调用、更多 reasoning loop——不是更高效的上下文检索。这正是联邦搜索的已知弊端。
四个评估维度
评分者在 5 分制下评估了四个指标:
- 实用性(Utility):哪个回答你真的会在工作中用?衡量需要多少编辑才能投入使用
- 正确性(Correctness):哪个更事实准确、逻辑严谨?是否有验证、引用、最新来源支撑
- 完整性(Completeness):哪个端到端完成了任务?所有子查询是否都被处理、分析是否穷尽、是否可执行
- 工具保真度(Tool Fidelity):系统是否调用了正确的工具?是否成功完成、是否遇到超时/OAuth 重提示等需要人工干预的问题
Glean 在每个类别都击败了通用 MCP 服务器。
任务越复杂,差距越大
按任务复杂度分层(用响应 token 数、reasoning loop 数、读写工具调用数作为代理):
- 简单任务:Glean 赢 66%
- 复杂任务:Glean 赢 73%
设计良好的上下文在需要更多步骤、更多来源时变得越来越重要。
三个实战案例
案例 1:生成 HTML 邮件简报
任务:查找最近的发布帖和客户沟通,总结主要观察和学习,生成一份可分享给设计团队的 HTML 简报。
Glean 找出了 6 个已发布功能,并基于直接的客户引用提炼了关于产品体验的有意义的主题。通用 MCP 只找到 2 个,且缺乏客户信号,产出更浅,需要大量编辑才能给设计团队用。
案例 2:客户反馈主题总结
任务:找出首页最新的客户反馈主题,创建文档总结前 5 个主题并附示例引用。
Glean 跨来源综合数据,识别出客户的核心诉求(如"需要单一视图"、"让搜索功能更容易找到")。通用 MCP 却给出了与首页发布无关的产品请求(如日历事件不显示、数据索引控制),且没有提供具体客户示例,只有支持工单片段。此外,通用工具在执行中遇到错误,阻止了所有相关工具被成功调用。
案例 3:客户告警排查
任务:对某个匿名客户的告警进行深度排查。
通用 MCP 能深入单个客户的特定告警,但没能先广度扫描、找出所有受影响的客户就开始排查。由于查询的主要目的是跨所有受影响客户进行穷尽数据分析,Glean 先呈现完整画面再深入的能力让它更准确、更完整。
Cowork 时代的上下文层
Glean 的集中式索引和知识图谱在质量和效率上都击败了通用 MCP 服务器。随着任务复杂度增加,差距还在扩大。
在企业将 AI 扩展到更长期、更复杂的工作,同时前沿模型成本快速上升的时期,上下文层的设计直接决定了 AI 工作的质量和经济学。
Glean 的模式是:企业一次性索引数据、构建知识图谱,然后用 MCP 把这个上下文连接到所有工作发生的地方——从 Claude Cowork 的个人生产力到 AI-IDE 的工程场景——让投资回报在整个企业中复利增长。
核心启示
MCP 标准化了工具连接,但没有标准化工具质量。真正决定 AI 同事能否产出"拿来即用"结果的,是底层索引的质量、知识图谱的深度、跨应用信号的综合能力。
在 token 成本飙升、模型上下文有限的现实下,花小钱建索引,省大钱买算力——这个 tradeoff 会越来越明显。