避开黄砖路：AI应用层为什么还没死

a16z 的 Joe Schmidt IV 提出了一个创始人反复问他的问题：AI 应用层还有没有机会，还是 OpenAI 和 Anthropic 会吃掉一切？

他的答案是：应用层不是单一机会，关键看你是在黄砖路上，还是在奥兹国的其他地方。

黄砖路是什么

"黄砖路"是 Schmidt 的比喻，指大模型实验室正在投入 extraordinary 资源的路径——代码生成、写作、图像创作等水平通用能力。这些问题的特点是：每多投一美元在预训练和后训练上，产品质量就提升。

实验室最适合这类问题，因为它们拥有模型、更好的利润率、控制力和定价权。Cowork、Claude Code、Codex 都是这条路上的产品。如果你是一家创业公司，用同样的连接器（G Drive、Slack、Salesforce、Notion、GitHub）做类似的 Agent 编排层，没有子 Agent、没有深度配置、没有分发渠道——那你正走在通往 nowhere 的路上。

奥兹国的其他地方

真正的机会在实验室的水平平台够不到的复杂垂直领域。这些业务的特点是：

模型被编织进复杂的工具、自动化和集成网络中
多步骤、多人协作的工作流
涉及遗留系统
需要确定性结果，不允许模糊
与有价值的业务结果直接挂钩

Schmidt 举了两个 portfolio 公司的例子来说明。

案例一：销售——11x 的实践

11x 的 CEO Prabhav Jain 分享了一个关键洞察：从客户真正关心的具体结果出发。

他们的目标是帮助企业生成更多 pipeline。然后分解：哪些活动端到端地驱动 pipeline？每个活动拆成任务，哪些任务可以 Agent 化，哪些需要领域洞察？

11x 处理的任务包括：基于自定义信号的线索挖掘、线索丰富、深度账户研究、CRM 上下文获取、渠道特定消息撰写、线索资格判定 Agent、邮件送达系统。这些都不是一次性 prompt 能解决的，需要深度工程。

Jain 指出一个关键认知：任何真实工作流中大约一半是非 Agent 化的确定性软件，这部分实验室没有优势。另一半 Agent 化的部分仍然需要针对你想要的结果进行调优、训练和约束。领域知识往往不在通用训练数据中，这些技能是从垂直或功能层面从零开始构建的。

更重要的是，这些技能会不断过时，因为商业在演变。所以持续演化工作流和上下文的能力本身就是竞争优势。11x 的正面回复率在几个月内提升了 4 倍，为客户生成了数亿 pipeline。

案例二：保险——FurtherAI 的实践

FurtherAI 的 CEO Aman Gour 提出了一个反直觉的观点：在保险领域，智能不在模型里，而在工作流里。

两个保险公司可能运行看起来相同的流程：提交、审查、报价、绑定。但路径是容易的部分。真正区分它们的是路径内部的一切：哪些风险需要升级、哪些损失信号重要、当两个 appetite 规则冲突时哪个胜出、何时需要人工签字、拉入哪些外部数据、最终决策如何记录。

这些逻辑不在一个干净的规则引擎里。它分散在 SOP、经理审查、承保哲学、公司特定的 appetite 和多年运营经验中。很多没有以模型能直接读取的形式写下来。

FurtherAI 的做法是构建 Agentic Workflows：工作流提供可重复性、可审计性和成本控制；Agent 处理变化性并在 happy path 断裂时恢复；人类留在需要问责的判断环节。

第一天，这自动化了手工工作。但随着时间推移，每次升级都成为信号，每次异常都是反馈，每次人工修正都显示运行手册哪里不完整。工作流从脚本变成了保险公司的运营记忆。这是实验室难以触及的部分——它们不坐在保险公司的生产工作流中，无法学习为什么某个账户被升级、某个风险被拒绝、某个承保员 override appetite guide 却做对了。

为什么实验室不会拥有奥兹国的其他地方

Schmidt 提出了几个防御机制：

数据和学习飞轮

很多知识不在任何训练集中——未成文的行业规范、未记录的标准、从业者头脑中的部落知识。应用公司通过跨客户模式识别和单个客户内部的历史决策积累，形成新进入者无法复制的生产暴露。

管理模型变化和复杂性

实验室内部已经在路由不同模型类别，但它们做不到跨厂商路由、评估竞争对手模型在特定子任务上的表现、或使用开源微调模型在狭窄场景中发挥最佳效果。垂直公司吸收迁移成本，客户获得跨整个市场的最佳智能加每次升级的连续性。

成本优化

全量跑 Opus 4.7 是负毛利率的最快路径。最好的垂直公司跨模型层级路由——前沿模型做最难的任务，中端模型做批量，小型定制或微调模型在获得使用权的地方使用。实验室定价的是地板：最低智能的最低成本。垂直公司卖的是反向：特定工作流实际需要的智能水平的最低美元成本。

治理

成为客户运行 AI 的控制平面具有巨大价值——权限、审计、Agent 被允许做什么、实际做了什么，所有这些汇聚在一个地方。垂直公司可以跨行业提供确定性结果，而水平工具难以做到。它们还吸收终端买家的监管复杂性——法律领域的 FRCP 和律师规则、医疗领域的 HIPAA、金融领域的 SEC 和 FINRA 等。

如何判断你在黄砖路上还是其他地方

Schmidt 提供了三个测试：

工具和步骤测试：工作有多少步骤，需要构建多复杂的工具来支持它？对比水平 AI 搜索 Google Drive（单步骤、单工具、容错）与多步骤法律红线审查（跨多年公司先例的数十个步骤、多工具、需通过合伙人审查、可能在法庭上被质疑）。

系统测试：你在构建客户运行工作的系统，还是坐在客户已有系统之上的工具？系统端到端拥有工作流——数据捕获、治理、完成记录——客户描述实际工作方式时指向的是系统。工具只是给已有工作流增加智能。如果实验室发布直接竞争产品，客户仍然需要你，你在构建系统。如果不需要，你是工具。

对冲基金/P&L 测试：实验室的表现用 benchmark 评判，奥兹国其他地方的表现用客户的 P&L 评判。客户不关心你的模型在 SWE-Bench 或 MMLU 上得分多高，他们关心你的 Agent 是否成交、合同红线是否正确、保单是否绑定正确。

结论

下一代企业软件将在黄砖路之外构建。实验室会继续赢，因为它们拥有模型和水平工具的分发。奥兹国其他地方的公司会赢，如果它们拥有工作系统——工作实际执行的表面、从中流动的数据、以及治理这一切的框架。

模型在底层是可替代的，工作系统不是。