Nate Herk 在过去一个月里每天使用 Claude Code 和 Codex。不是随便试试,是真实项目、真实 deadline、真实产出。他让两个工具执行完全相同的三个任务,追踪每一个指标。
核心结论
正确答案是"哪个任务用哪个工具",不是"哪个工具更好"。
功能重叠度惊人
两者都有:桌面应用、VS Code 扩展、MCP、skills、hooks、sub-agents、cloud delegation。
差异在于工作流哲学:
- Claude Code:可定制的工作流系统,你可以塑造成自己的工程仪式
- Codex:统一的交付机器,设计用于从"agent 完成"到"代码上线"的完整管道
Claude Code 的独特优势
深度定制能力:
- 30 个 hook 事件(Codex 约 6 个)
- 自动委派 sub-agents(Codex 需要显式请求)
- /ultraplan:云端规划阶段,浏览器内联评论
- /ultrareview:多 reviewer agent 深度代码审查
- /loop:定时循环执行维护任务
- Channels:从 Telegram/Discord/iMessage 推送外部事件到运行中的会话
- Claude Agent SDK:将相同引擎嵌入你自己的产品
- 企业认证:Bedrock、Vertex AI、Microsoft Foundry
Codex 的独特优势
统一交付流程:
- 原生 work trees:每个线程在独立工作副本中运行,可并行
- 应用内浏览器:桌面应用内置浏览器,可直接在页面上留视觉评论
- 产品 QA 流程:自动打开应用、点击、找 bug、记录严重程度和复现步骤
- GitHub 集成:在 PR 评论或 issue 中 @github 触发云端 sandbox
- /goal:定义可验证停止条件的目标,自动执行数小时
- GPT Image 2:内置最强图像生成模型
实测数据
三个相同任务:
- 带品牌标识的研究报告 PDF
- Glido 产品完整落地页
- 交互式营销分析仪表板
总时间:
- Codex:~26 分钟
- Claude Code:~15 分钟
- 总 token:均约 600 万
输出 token 模式(影响上限的关键):
- 仪表板:Claude 83K vs Codex 18K
- 落地页:Claude 80K vs Codex 20K
- 研究报告:Claude 41K vs Codex 16K
Claude 的输出 token 始终是 Codex 的 2-5 倍。 这就是人们更快撞见 Claude Code 上限的直接原因。
质量对比
- 仪表板:Claude 胜。暗色模式、工作日期过滤器、干净悬停状态、渐变漏斗图
- 落地页:Claude 胜。更好字体、滑动横幅、发光效果、实际图标
- 研究报告:接近。Claude 15 页叙事结构更好,Codex 9 页表格分解更一致
模式:Claude 在执行前紧密规划,导致更精致的视觉输出。Codex 迭代更多,在复杂构建上堆叠输入 token。
关键政策差异
OpenAI 允许第三方 harness:Sam Altman 在 5 月 2 日发推认可用 ChatGPT 订阅通过 OpenClaw 路由 Codex。无需单独 API key。
Anthropic 不允许:Agent SDK 文档明确说,除非 Anthropic 特别批准,否则不允许第三方开发者提供 Claude 登录或速率限制。
如果你生活在第三方 agent 工具中,Codex 是目前这个工作流的明确选择。
定价
- Claude Pro:$20/月(含 Claude Code)
- Claude Max 5X:$100/月
- Claude Max 20X:$200/月
- Codex:包含在所有 ChatGPT 计划中,包括免费版
使用建议
Claude Code 适合:
- 复杂前端工作,视觉设计质量重要
- 需要深度规划再执行的任务
- 想要自动委派 sub-agents
- 构建自定义工作流(hooks、skills、channels)
- 需要 Claude Agent SDK 嵌入自己的产品
- 企业环境需要 Bedrock 或 Vertex 认证
Codex 适合:
- 研究密集型任务,从网络拉取信息
- 结构化文档如 PDF 或报告
- 想要单个桌面应用处理 work trees、审查和交付
- 长周期目标 /goal
- GitHub PR 零设置集成
- 项目需要工作流中的图像生成
- 使用第三方 harness 如 OpenClaw 或 Hermes
组合策略:很多人在 Claude Code 中规划,然后让 Codex 审查或执行。