核心观点
GPT-5 Pro 是目前最强的推理模型,但大多数人没用对。它不是 Codex/Claude Code 的替代品,而是复杂任务前的「第二意见」——在已有计划上做一次深度审查,而不是从头生成。
什么时候该用 Pro?
作者给出两条判断标准:
- 对计划有疑虑——技术、架构或产品层面有不确定的地方
- 主题本身足够复杂——即使没疑虑,只要涉及架构、技术或科学深度,也值得过一遍 Pro
具体阈值因人而异,建议用同一 prompt 同时丢给 Pro 和 Thinking 对比,慢慢培养直觉。
典型应用场景
经济学研究
工业组织(IO)这类技术密集型领域,Pro 能挖出资深教授都认可的漏洞。但劳动经济学、政治经济学等偏实证的方向,Codex/Claude Code 已足够。关键是预处理 PDF 上下文——直接 dump 一堆论文进去效果很差,要提炼出与问题最相关的部分。
咨询提案
复杂提案发给 Pro 审查,常能发现结构级漏洞:该问谁澄清问题、客户诉求与提案之间的不一致、被遗漏的重要细节。这些通常是 Claude Code 和 Codex 抓不到的。
软件开发
简单 CRUD 应用不需要 Pro。但像 PaySlice 这种六服务三环境、涉及 Plaid/Finix/Supabase 的 fintech 架构——一个产品改动可能波及九个组件——这种复杂度下,Pro 审查计划是必需的。
实操闭环:Codex → Oracle → Pro → Codex
- Codex/Claude Code 做计划——迭代到满意
- Oracle 打包上下文——把 repo 相关文件、prompt、问题汇总成单个 markdown
- 自动投递到 ChatGPT Web UI——Codex Chrome Plugin 或 Computer Use
- Pro 审查后带回 Codex——决定修改计划还是直接实施
Oracle 是 Pete Steinberger(OpenClaw 作者)写的 CLI 工具,核心能力:按 glob 收集文件、尊重 .gitignore、警告上下文超限、复制到剪贴板。
为什么 Pro 不在 Codex 模型列表里
这是最大的 friction 来源。Pro 没有代码执行能力,不能查数据集然后基于发现更新思路——所以它不适合实现阶段,只适合审查阶段。
Chrome Plugin 是最优解(后台 tab 运行,不占用你的浏览器),但欧洲不可用且偶有故障。 fallback 是 Computer Use(Mac 上控制任意应用),缺点是占用整个 Chrome 窗口。Browser Use 最不稳定,还要单独认证。
关键 takeaway
Pro 不是万能药。它的价值在于「错过一个 nuance 的代价很高」的场景——在这些场景下,让 Pro 先看一遍计划,再决定要不要按这个计划 build。