2026 年 Codex 精通指南（构建者课程）

Avid（@Av1dlive）用 Claude Code 12 个月后，切换到 Codex 30 天。他发现这不是"更聪明的自动补全"，而是完整的 Agentic 软件开发平台。

大多数开发者安装 Codex，发两周单句 prompt，得到 mediocre 结果，然后放弃。他们从未设置 AGENTS.md，从未写 Skill，从未用子 Agent。他们只用了 5% 的表面，却根据这 5% 评判工具。

五个表面

Codex 活在五个地方，选择哪个表面决定你如何跟踪它的工作：

CLI：脚本工作流、单任务、无头自动化。代码不离开你的机器。开源，Rust 构建，跨平台。

IDE 扩展：VS Code、Cursor、Windsurf、JetBrains 中的交互式编辑。用 CLI auth，无需单独登录。

桌面应用：多线程工作流、应用内浏览器、Computer Use、Goal 模式、Appshots、自动化。2026 年 2 月 macOS 首发，3 月 4 日 Windows 版。

云端：异步后台任务、并行 PR、睡觉时工作。沙盒容器预加载 GitHub repo，不阻塞本地机器。

应用内浏览器 + Computer Use：UI 验证、前端迭代、端到端测试。Codex 打开本地 dev server，交互、截图、验证代码变更是否产生正确视觉输出。

真实工作流使用多个表面：CLI 做脚本、IDE 做交互功能、云端做并行任务、应用做 Goal 驱动的长期任务。

心智模型：Agent，不是自动补全

工作单元是任务，不是回合。输出是 PR，不是聊天回复。

不要想"写一个做 X 的函数"，要想"实现功能 Y，这是约束，跑完测试"。

WorkOS 的开发者现在每天早上排队 4-5 个 Codex 任务，然后去喝咖啡。回来时 2-3 个完成的 PR 等着审查，处理过去占 30-40% 时间的维护工作。

2026 年 5 月的模型选择：

GPT-5.5（默认）：大多数任务，相同延迟但 token 更少
GPT-5.3-Codex：长自主运行、大重构、并行云端 fan-out；比前代 Codex 专家快 25%
GPT-5.5 Pro：最高推理能力；Pro/Business/Enterprise 专属
Codex Mini：ChatGPT Free 永久免费；适合学习

AGENTS.md：仓库中最重要的文件

AGENTS.md 是区分 mediocre 和 consistent high-quality 输出的单一文件
每次 Codex 会话开始时自动读取
开放标准：Codex、Cursor、Gemini CLI、Windsurf、GitHub Copilot 都读它

解析顺序：~/.codex/AGENTS.md（全局）+ <project>/AGENTS.md（项目级）。AGENTS.override.md 优先级更高。合并限制 32 KiB。

内容：技术栈、构建/测试/开发命令、文件结构约定、样式规则、禁区、发布要求。

不要放：Secrets、模糊指导（"写干净代码"对 Agent 毫无意义）、重复 README 的文档。

保持 500 词以内。Bloat 会把有用上下文推出模型工作记忆。

深度 CLI

四个命令覆盖 95% 日常用例：

codex：交互模式
codex exec "<task>"：非交互式，流式输出到 stdout，完成退出。git hooks、CI pipeline、cron job 的构建块
codex resume --last：从断点继续。每次会话存储
codex cloud：管理异步云端任务

有用 flags：--json（JSONL 事件流）、--model、-C <dir>、--sandbox、--approval

沙盒与审批

三种沙盒模式：

workspace-write（默认）：工作区内读写，常规命令，无网络除非允许
read-only：只读，无写入，无 shell。代码审查和探索
danger-full-access：无限制。几乎不用，留给测试过的自动化

两种审批策略：

untrusted：每个非信任命令前询问
on-request（默认）：自动批准常规沙盒命令，突破沙盒边界前询问

auto_review 子 Agent 根据 AGENTS.md 自动批准或拒绝。适合长期异步任务和 Goal 模式。

Goal 模式

给 Codex 多天目标，让它自己排序工作。2026 年 5 月稳定。

codex goal "Migrate test suite from Jest to Vitest. One PR per package, no PRs over 500 lines. Run tests after each PR. Don't open next PR until previous passes CI. Stop and report when all packages migrate."

管理命令：goal status、goal logs <id>、goal pause/resume/cancel <id>

始终 bounded：max PRs、max lines、CI gates、清晰停止条件。失控 Goal 自信地做错误的事是最坏结果。

Skills：可复用工作流

Skill 是可复用工作流打包为目录：SKILL.md 中的指令 + 可选资源和脚本。

Codex 按名称和描述发现 Skills，仅在任务触发时加载完整指令。50 个 Skills 零上下文成本，直到触发。

存放位置：

个人：$HOME/.agents/skills/（跨项目）
团队：仓库内 .agents/skills/（项目特定，版本控制，共享）

三个每个高级用户应先写的 Skill：

open-pr：标准 PR 工作流
new-feature：读 PRD 和 AGENTS.md，识别可复用组件，输出计划，等待批准，实现，测试，通过 open-pr Skill 开 PR
investigate：诊断不修复。确认复现，读相关代码路径，形成假设，输出假设和验证计划。不实现修复

investigate Skill 最关键：Codex 默认会跳过根因分析直接跳转到修复，而修复往往是错的。强制 investigate-first 是调试输出质量的最大提升。

子 Agent 与并行

子 Agent 是独立隔离的 Agent 实例，运行在自己的上下文中，返回摘要，上下文丢弃。与 Skill 不同（Skill 在主 Agent 上下文中运行）。

三种适用模式：

探索：派生子 Agent 读 30 个文件并总结；读取发生在它的上下文中，不是你的
并行实现：五个独立功能作为五个并发子 Agent，每个有自己的上下文和计划
验证：新鲜 reviewer 子 Agent 不受"刚写完代码"的偏见影响

自定义子 Agent 定义在 .codex/agents/<name>.md。2026 年 3 月支持子 Agent 寻址，用 @<nickname> 与运行中的子 Agent 对话。

Fan-out 模式：N 个子 Agent 并行在独立任务上，结果折叠回来。五个任务在最慢的那个时间内完成。经验法则：如果任务在主上下文中不到 30 秒，直接做。

桌面应用：Computer Use、Appshots、浏览器

Computer Use：Codex 操作 Mac——点击、输入、滚动、打开应用、导航菜单，不窃取光标焦点运行。杀手级用途是行为验证：单元测试通过但 UI 仍 broken。Codex 打开 dev server，点击相关流程，截图结果。

Appshots：Command-Command，最前面的 macOS 窗口直接进入 Codex 线程。捕获截图、可见文本、可访问性文本（通常包括滚动出屏幕的内容）。从"看到错误→切换 Codex→打字提问→截图→拖入→打更多上下文"的半分钟摩擦，变成"看到错误→Command-Command→提问"的五秒。

应用内浏览器：原生 Agentic 浏览器，不是页面预览。打开本地 dev server，点击、填表、检查 DOM 状态、截图、验证补丁是否修复视觉 bug。可直接在渲染元素上加自然语言注释，Codex 在代码库中执行变更并重新加载页面。

云端：规模化异步工作

提交任务，Codex 启动预加载仓库的沙盒，工作、跑测试、开 PR。不阻塞本地机器。

codex cloud submit --task "Add Sentry tags to /lib/integrations/stripe.ts"

并行任务：

codex cloud submit --task "fix typo in pricing page"
codex cloud submit --task "add loading state to SubscriberList"
codex cloud submit --task "update README setup section"
codex cloud submit --task "add Sentry tags to stripe.ts errors"

CSV fan-out：提交任务文件，Codex 分发为并行云端 Agent。

验证：如何真正信任 Codex 输出

生成已解决。验证是瓶颈。

五个并行云端 PR 是五个 ship bug 的机会。没有验证层，吞吐量被你读 PR 的速度封顶。

核心问题是 sycophancy：写代码的模型偏见地认为它是对的。让它审查自己的工作，大多数时候得到 thumbs-up。

两个结构性修复：

auto_review：Codex 内置 reviewer 子 Agent，新鲜上下文，无先前输出投资，更可能 flag 真实问题
跨提供商验证（金标准）：Codex 写，Claude Code 审。跨提供商捕捉特定模型家族的盲点。这是生产代码的 minimum-viable 验证习惯

每个 PR 的 minimum-viable 习惯：用不同模型跑自动审查，再自己打开 diff。先看审查 summary，clean 时才读 diff；然后读 taste，不是 correctness。UI 变更看截图。

十大常见错误

模糊任务。命名具体结果、文件和约束
没有 AGENTS.md。写一个。即使烂的也比没有强
跳过计划。"先产生计划"对任何非琐碎任务
多任务 prompt。一个 prompt 一个任务。并行工作用子 Agent 或云端任务
从 danger-full-access 开始。workspace-write + on-request 是几乎所有情况的正确默认值
太多 MCP 和插件。保持精简。不活跃的禁用
自我审查。用 auto_review 或完全不同的工具
信任编译成功即正确。包含行为验证。UI 变更用 Computer Use
过度并行化。仅并行独立工作。共享文件必须串行化
无界 Goals。Max PRs、max lines、max time、清晰停止条件

结论

用 Claude 12 个月的 breaking point 不是某天糟糕，而是 rate limits、工作流摩擦、桌面应用体验持续阻碍的积累。

过去 90 天深入 OpenAI 生态后，一件事变得清楚：Codex 作为严肃开发者工作流的工作环境感觉更完整。Agentic 模型更强，周围表面更广，一旦 AGENTS.md、Skills、Cloud 和验证 loops 就位，系统更易信任。

这不意味着 Claude Code 没有价值。它意味着 trade-offs 不再合理。