上下文决定 AI 同事：Glean 比通用 MCP 工具强 2.5 倍

AI 同事的上下文之战

Glean 的 Tony Gentilcore 发布了一份硬核基准测试，核心结论：上下文层决定 AI 同事的质量和经济学。

测试方法很干净：统一用 Claude Cowork 作为 harness，Claude Sonnet 4.6 作为模型，只替换上下文层——对比 Glean 的远程 MCP 服务器（基于集中式索引和知识图谱）与市面上通用的 off-the-shelf MCP 工具（Atlassian Rovo、GCP、GitHub、Gmail、Google Calendar、Google Drive、Salesforce、Slack 等）。

在约 175 个企业级查询中：

Glean 被偏好 ~2.5 倍
通用 MCP 工具多消耗 ~30% token

联邦搜索 vs 集中索引

企业上下文 traditionally 有两种解法：

联邦搜索（Federation）：每个连接器用自己的检索策略独立查询。问题是：

底层搜索质量参差不齐，有的只支持词法检索，有的只支持语义检索
工具调用次数爆炸，每个系统单独调，然后靠模型自己归一化和聚合
只能看到用户级信号，丢失企业级信号：作者权威性、文档关联性、跨应用排名输入
延迟叠加，被最慢的工具调用绑架

联邦搜索的补偿策略是让 AI over-fetch 数据，靠更多 reasoning loop 来合成结果。两者在延迟和 token 上都很贵，而且仍然容易产出不准确的回答。模型上下文窗口固定、注意力有限，over-fetch 会稀释窗口，甚至聚合矛盾或过时的信息。

集中索引（Centralized Indexing）：把所有来源的数据摄入并归一化到单一层，实现跨应用信号和统一排名。

Glean 走的是这条路。

Token 经济学的真相

通用 MCP 工具平均多用 30% token，但更有趣的是 token 消耗如何随结果质量变化：

场景	Glean	通用 MCP
稳定输出	~42k-44k	随难度攀升
需要正确回答时	~43k	~83k（接近翻倍）

通用工具要赢，靠的是暴力搜索、更多工具调用、更多 reasoning loop——不是更高效的上下文检索。这正是联邦搜索的已知弊端。

四个评估维度

评分者在 5 分制下评估了四个指标：

实用性（Utility）：哪个回答你真的会在工作中用？衡量需要多少编辑才能投入使用
正确性（Correctness）：哪个更事实准确、逻辑严谨？是否有验证、引用、最新来源支撑
完整性（Completeness）：哪个端到端完成了任务？所有子查询是否都被处理、分析是否穷尽、是否可执行
工具保真度（Tool Fidelity）：系统是否调用了正确的工具？是否成功完成、是否遇到超时/OAuth 重提示等需要人工干预的问题

Glean 在每个类别都击败了通用 MCP 服务器。

任务越复杂，差距越大

按任务复杂度分层（用响应 token 数、reasoning loop 数、读写工具调用数作为代理）：

简单任务：Glean 赢 66%
复杂任务：Glean 赢 73%

设计良好的上下文在需要更多步骤、更多来源时变得越来越重要。

三个实战案例

案例 1：生成 HTML 邮件简报

任务：查找最近的发布帖和客户沟通，总结主要观察和学习，生成一份可分享给设计团队的 HTML 简报。

Glean 找出了 6 个已发布功能，并基于直接的客户引用提炼了关于产品体验的有意义的主题。通用 MCP 只找到 2 个，且缺乏客户信号，产出更浅，需要大量编辑才能给设计团队用。

案例 2：客户反馈主题总结

任务：找出首页最新的客户反馈主题，创建文档总结前 5 个主题并附示例引用。

Glean 跨来源综合数据，识别出客户的核心诉求（如"需要单一视图"、"让搜索功能更容易找到"）。通用 MCP 却给出了与首页发布无关的产品请求（如日历事件不显示、数据索引控制），且没有提供具体客户示例，只有支持工单片段。此外，通用工具在执行中遇到错误，阻止了所有相关工具被成功调用。

案例 3：客户告警排查

任务：对某个匿名客户的告警进行深度排查。

通用 MCP 能深入单个客户的特定告警，但没能先广度扫描、找出所有受影响的客户就开始排查。由于查询的主要目的是跨所有受影响客户进行穷尽数据分析，Glean 先呈现完整画面再深入的能力让它更准确、更完整。

Cowork 时代的上下文层

Glean 的集中式索引和知识图谱在质量和效率上都击败了通用 MCP 服务器。随着任务复杂度增加，差距还在扩大。

在企业将 AI 扩展到更长期、更复杂的工作，同时前沿模型成本快速上升的时期，上下文层的设计直接决定了 AI 工作的质量和经济学。

Glean 的模式是：企业一次性索引数据、构建知识图谱，然后用 MCP 把这个上下文连接到所有工作发生的地方——从 Claude Cowork 的个人生产力到 AI-IDE 的工程场景——让投资回报在整个企业中复利增长。

核心启示

MCP 标准化了工具连接，但没有标准化工具质量。真正决定 AI 同事能否产出"拿来即用"结果的，是底层索引的质量、知识图谱的深度、跨应用信号的综合能力。

在 token 成本飙升、模型上下文有限的现实下，花小钱建索引，省大钱买算力——这个 tradeoff 会越来越明显。