a16z 的 Joe Schmidt IV 提出了一个创始人反复问他的问题:AI 应用层还有没有机会,还是 OpenAI 和 Anthropic 会吃掉一切?
他的答案是:应用层不是单一机会,关键看你是在黄砖路上,还是在奥兹国的其他地方。
黄砖路是什么
"黄砖路"是 Schmidt 的比喻,指大模型实验室正在投入 extraordinary 资源的路径——代码生成、写作、图像创作等水平通用能力。这些问题的特点是:每多投一美元在预训练和后训练上,产品质量就提升。
实验室最适合这类问题,因为它们拥有模型、更好的利润率、控制力和定价权。Cowork、Claude Code、Codex 都是这条路上的产品。如果你是一家创业公司,用同样的连接器(G Drive、Slack、Salesforce、Notion、GitHub)做类似的 Agent 编排层,没有子 Agent、没有深度配置、没有分发渠道——那你正走在通往 nowhere 的路上。
奥兹国的其他地方
真正的机会在实验室的水平平台够不到的复杂垂直领域。这些业务的特点是:
- 模型被编织进复杂的工具、自动化和集成网络中
- 多步骤、多人协作的工作流
- 涉及遗留系统
- 需要确定性结果,不允许模糊
- 与有价值的业务结果直接挂钩
Schmidt 举了两个 portfolio 公司的例子来说明。
案例一:销售——11x 的实践
11x 的 CEO Prabhav Jain 分享了一个关键洞察:从客户真正关心的具体结果出发。
他们的目标是帮助企业生成更多 pipeline。然后分解:哪些活动端到端地驱动 pipeline?每个活动拆成任务,哪些任务可以 Agent 化,哪些需要领域洞察?
11x 处理的任务包括:基于自定义信号的线索挖掘、线索丰富、深度账户研究、CRM 上下文获取、渠道特定消息撰写、线索资格判定 Agent、邮件送达系统。这些都不是一次性 prompt 能解决的,需要深度工程。
Jain 指出一个关键认知:任何真实工作流中大约一半是非 Agent 化的确定性软件,这部分实验室没有优势。另一半 Agent 化的部分仍然需要针对你想要的结果进行调优、训练和约束。领域知识往往不在通用训练数据中,这些技能是从垂直或功能层面从零开始构建的。
更重要的是,这些技能会不断过时,因为商业在演变。所以持续演化工作流和上下文的能力本身就是竞争优势。11x 的正面回复率在几个月内提升了 4 倍,为客户生成了数亿 pipeline。
案例二:保险——FurtherAI 的实践
FurtherAI 的 CEO Aman Gour 提出了一个反直觉的观点:在保险领域,智能不在模型里,而在工作流里。
两个保险公司可能运行看起来相同的流程:提交、审查、报价、绑定。但路径是容易的部分。真正区分它们的是路径内部的一切:哪些风险需要升级、哪些损失信号重要、当两个 appetite 规则冲突时哪个胜出、何时需要人工签字、拉入哪些外部数据、最终决策如何记录。
这些逻辑不在一个干净的规则引擎里。它分散在 SOP、经理审查、承保哲学、公司特定的 appetite 和多年运营经验中。很多没有以模型能直接读取的形式写下来。
FurtherAI 的做法是构建 Agentic Workflows:工作流提供可重复性、可审计性和成本控制;Agent 处理变化性并在 happy path 断裂时恢复;人类留在需要问责的判断环节。
第一天,这自动化了手工工作。但随着时间推移,每次升级都成为信号,每次异常都是反馈,每次人工修正都显示运行手册哪里不完整。工作流从脚本变成了保险公司的运营记忆。这是实验室难以触及的部分——它们不坐在保险公司的生产工作流中,无法学习为什么某个账户被升级、某个风险被拒绝、某个承保员 override appetite guide 却做对了。
为什么实验室不会拥有奥兹国的其他地方
Schmidt 提出了几个防御机制:
数据和学习飞轮
很多知识不在任何训练集中——未成文的行业规范、未记录的标准、从业者头脑中的部落知识。应用公司通过跨客户模式识别和单个客户内部的历史决策积累,形成新进入者无法复制的生产暴露。
管理模型变化和复杂性
实验室内部已经在路由不同模型类别,但它们做不到跨厂商路由、评估竞争对手模型在特定子任务上的表现、或使用开源微调模型在狭窄场景中发挥最佳效果。垂直公司吸收迁移成本,客户获得跨整个市场的最佳智能加每次升级的连续性。
成本优化
全量跑 Opus 4.7 是负毛利率的最快路径。最好的垂直公司跨模型层级路由——前沿模型做最难的任务,中端模型做批量,小型定制或微调模型在获得使用权的地方使用。实验室定价的是地板:最低智能的最低成本。垂直公司卖的是反向:特定工作流实际需要的智能水平的最低美元成本。
治理
成为客户运行 AI 的控制平面具有巨大价值——权限、审计、Agent 被允许做什么、实际做了什么,所有这些汇聚在一个地方。垂直公司可以跨行业提供确定性结果,而水平工具难以做到。它们还吸收终端买家的监管复杂性——法律领域的 FRCP 和律师规则、医疗领域的 HIPAA、金融领域的 SEC 和 FINRA 等。
如何判断你在黄砖路上还是其他地方
Schmidt 提供了三个测试:
工具和步骤测试:工作有多少步骤,需要构建多复杂的工具来支持它?对比水平 AI 搜索 Google Drive(单步骤、单工具、容错)与多步骤法律红线审查(跨多年公司先例的数十个步骤、多工具、需通过合伙人审查、可能在法庭上被质疑)。
系统测试:你在构建客户运行工作的系统,还是坐在客户已有系统之上的工具?系统端到端拥有工作流——数据捕获、治理、完成记录——客户描述实际工作方式时指向的是系统。工具只是给已有工作流增加智能。如果实验室发布直接竞争产品,客户仍然需要你,你在构建系统。如果不需要,你是工具。
对冲基金/P&L 测试:实验室的表现用 benchmark 评判,奥兹国其他地方的表现用客户的 P&L 评判。客户不关心你的模型在 SWE-Bench 或 MMLU 上得分多高,他们关心你的 Agent 是否成交、合同红线是否正确、保单是否绑定正确。
结论
下一代企业软件将在黄砖路之外构建。实验室会继续赢,因为它们拥有模型和水平工具的分发。奥兹国其他地方的公司会赢,如果它们拥有工作系统——工作实际执行的表面、从中流动的数据、以及治理这一切的框架。
模型在底层是可替代的,工作系统不是。