The Untrainable：AI 无法触及的价值角落

投资者的 AI 绝望症

2026 年中，一种投资者版本的 AI 精神病正在蔓延：觉得没有什么值得投资，应该把所有钱投进 Anthropic 和 Nvidia 然后回家。Sarah Guo（Conviction 创始人）说她从未有过这种感觉。

她的论点：模型确实在几乎所有可测量的事情上变得更聪明，但这不等于所有价值都被吸收。绝望的逻辑是：如果模型在所有事情上越来越好，那么所有建立在模型之上的公司都是等待被吸收的薄包装，唯一存活的价值是算力和前沿权重。

这个逻辑错在哪里？

软件工程的重新发现

Devin 2024 年发布时解决了 13% 的标准软件基准任务，被大量忽视。一年半后，最佳 Agent 达到 80%+，并在 Goldman Sachs 和美国陆军内部做真实工作。

几乎每个人都得出了同样的错误结论：模型吃掉了软件工程。但 MIT 的 Mert Demirer 等人终于用数字证实了：在 10 万+ 开发者中，最新编码 Agent 将代码产出量提升了约 180%，但实际发布的代码只增加了约 30%。

写作变便宜了。其余部分仍然通过人运行，而且这很重要。

原因：编译器是免费的验证器，测试套件是免费的验证器——所以编码 Agent 最先成熟。但"通过测试"从不告诉你这个改动是否适合一个有着三个未记录存在理由的十年老代码库。这种正确性无法从排行榜读出，也无法从任何东西读出。

2×2 价值矩阵

Guo 提出了一个评估任何工作的框架：

	任务已饱和（可测量）	任务前沿（不可测量）
答案公开	商品 Token（开源模型主导）	实验室赢（免费评估 = 拥有它不算护城河）
答案私有	专注应用赢（用更少 Token 调优单一工作流）	不可训练（真正的价值所在）

"可测量"意味着可以被训练对抗，所以任何可测量的都在走向商品化。方向从不逆转。

不可训练的工作有两个特征：

正确性私有且昂贵：只有在你被信任进入系统后才能验证 AI 是否有用
被围墙隔离：锁在无法进入的系统中

许可与问责：真正的瓶颈

"A better model does not make private ground truth public. It does not hold the license, sign off on the liability, or own the firm's files, and it cannot be the party that gets sued when the answer is wrong."

智能不是瓶颈。许可是。问责也是。

你可以想象一个比任何人都聪明的模型，它仍然需要被允许进门，仍然需要有人在它做的事情上签字。

美国多数医生现在每天打开 OpenEvidence，但再多的算力也买不到这个习惯。实验室明天可以训练一个完美的医疗模型，仍然没有进入医生工作流程或 UCSF 决策流的路径——因为信任是缓慢建立的，基于关系，基于用户的默许，而不是梯度下降能抹去的。

案例：顶级律所的 M&A 实践

一家顶级律所的 M&A 业务每年处理近 1000 笔交易。你不能让数百名助理各自下载客户文件到桌面然后问通用 Agent 处理——出于保密原因和十几个其他原因。即使可以，你学到的是碎片，一个助理的修正，没有整个交易如何流动的视角。

重要的信号存在于交易层面，而交易有形状：NDA、条款书、尽职调查、购买协议、附属文件、交割清单。每个业务领域都有自己的形状，律师和工具都不能跨领域互换。

实际要解决的问题在所有这些之上：像顶级合伙人一样同时运行数百个业务，同时引入新业务、培训助理。这不是一个能写评估的单一任务。

定价即评估

最难卖的是不可商品化的价值——因为公司无法从外部判断 AI 是否会改变其运营。

所以最强企业停止外部证明，直接进去，按结果定价：

Sierra：Agent 解决客户问题时收费，转人工时不收费。价格成为评估，而且有效是因为 Sierra 拥有"解决"的定义权
Cognition 的 Devin：用"性能保证"做同样的事——只有在被信任进入的系统内才能为结果提供保证

推理层也不是纯商品

即使是最被嘲笑为"纯商品"的 Token 服务层，行为也不像商品。最好的 AI-native 公司集中在一两个提供商（Baseten 或 Fireworks），因为每 Token 成本按计划商品化，但真实流量下的可靠性和稀缺算力的保证访问不商品化。

实验室不会饿死你

一个常见反对：实验室是你的供应商，它不会以低于成本的价格运行自有产品把你挤出去吗？

这只有在模型层是单人游戏时才成立。但它显然不是——看起来更像三方半的死斗，加上一群国际玩家落后 6 个月，发展联盟比去年大 5 倍。客户想要供应商之间的竞争，实验室想要市场份额胜过想要任何单一应用死亡。

在实验室正面竞争的市场中观察：消费聊天中，最好的模型从未简单获胜。ChatGPT 通过多年真实竞争保持领先，现在失去份额给 Gemini——靠的是 Android 和搜索，不是更好的模型。Anthropic 被预测市场评为拥有最佳模型，在消费聊天中几乎无足轻重，而是在企业和编码中建立业务。

结论

"Intelligence keeps getting cheaper, and value keeps sliding toward the few places a model can't reach. The untrainable is value with history."

方向是清晰的：智能越来越便宜，价值持续滑向模型无法触及的少数地方。不可训练的是有历史的价值。所以进入其中一个，做不 glamorous 的翻译工作，开始写下"好"意味着什么——因为有人会这么做。今年被引用最多的基准分数是一张即将变得无价值的领土地图，以及一张谁即将失去定义"好"的权利的通知。