大多数团队把 Claude Code 和 Codex 当成可互换的工具——然后在错误的配置下多花 40-60% 的修正轮次。
问题不是模型。是控制平面。一个持久化记忆并通过 hooks 执行规则,另一个沙盒一切、阻断网络、每次运行重置。
同样的终端,隐藏的架构分裂。
两个工具的基本定位
Claude Code:Anthropic 的 CLI。Opus 4.6,1M token 上下文窗口。直接读取你的文件系统。有 5 层配置栈:CLAUDE.md 层级、hooks、skills、MCP servers、subagents。跨 session 持久化记忆。
Codex:OpenAI 的 CLI,用 Rust 构建。GPT-5.3-Codex 和 GPT-5.4。在沙盒内运行,默认禁用网络。三种审批模式:suggest、auto-edit、full-auto。
Benchmark 差不多,但控制平面完全不同
SWE-bench Verified:Opus 4.6 80.8%,GPT-5.2 80.0%——前五名之内差距 1.3 个点。
Terminal-Bench 2.0:Codex CLI 77.3%,Opus 4.6 74.7%。
区别不是模型。是控制平面。
配置层级
Claude Code 分层 Markdown 文件:
~/.claude/CLAUDE.md # 全局规则(所有项目)
./CLAUDE.md # 项目规则(每个仓库)
./src/CLAUDE.md # 子文件夹覆盖
.claude/settings.json # 权限、MCP servers
加上 skills(自动检测 markdown)、hooks(命令前后自动化)和 MCP servers。CLAUDE.md 无大小限制。每轮重新加载。
Codex 使用并行系统:
~/.codex/instructions.md # 全局规则
codex.md 或 AGENTS.md # 项目规则(遍历目录树)
~/.codex/config.toml # 模型、审批策略、沙盒
也支持 Agent Skills(SKILL.md + 可选脚本)和 MCP servers(STDIO 或 streaming HTTP)。硬约束:project_doc_max_bytes 默认 32 KiB。超出会被静默截断。
执行差异
Claude Code 的 CLAUDE.md 合规率约 70%——模型遵循大多数规则,忽略一些。Hooks 达到 100%,因为它们作为 shell 命令执行,不是建议。
Codex 的执行来自沙盒本身。模型无法违反文件系统或网络限制,无论指令怎么说。
两种信任架构
Claude Code:默认信任,在你设置的权限内。直接读写文件系统。通过 .claude/settings.json 白名单限制访问。风险面更宽。吞吐量更高。
Codex:沙盒优先。macOS 用 Seatbelt profiles,Linux 用 Landlock。默认阻断网络,即使在 full-auto 模式。
三种模式:
- suggest:提议变更,你来应用
- auto-edit:应用文件编辑,命令前询问
- full-auto:在沙盒内运行一切,依然无网络
心智模型:
Claude Code 是带护栏的 Agent。
Codex 是带审批门的沙盒。
失败模式
Claude Code:上下文陈旧时漂移。30 轮后,压缩会丢弃关键指令,Agent 与早期决策矛盾。
Codex:当需要沙盒外信息时卡住——无法获取的依赖、无法触达的文档、无法调用的 API。
配置建议
Claude Code:
- 分层 CLAUDE.md。全局约定在 ~/.claude/CLAUDE.md,项目规则在 ./CLAUDE.md,子系统知识在子文件夹。单个 400 行文件会导致模型降低底部指令的优先级。
- 无关任务之间用 /clear。混合上下文导致漂移。
- 简单任务用 Sonnet。Opus 每 token 贵 1.67 倍。拼写修复和单文件变更不需要那种推理深度。
- 用 auto-edit 开始,不是 full-auto。Review 前 20 次编辑,学习模型倾向,识别 AGENTS.md 需要更具体的地方。
Codex:
- 写真实的 AGENTS.md。没有项目上下文,Codex 会猜约定。团队报告配置良好的指令可减少 40-60% 修正。32 KiB 限制很宽裕。
- 保持任务原子化。沙盒在运行之间重置。多步链需要显式状态交接。如果工作流需要记住 3 个任务前的事,改用 Claude Code。
何时用哪个
Claude Code:多文件重构、代码库探索、跨任务记忆、MCP 编排。任何理解完整项目上下文能产生更好决策的场景。
Codex:隔离 bug 修复、带隔离的代码审查、严格审批工作流、锁定文件系统访问。从头开始是特性的任务。
两者配合:Claude Code 做架构和规划,Codex 做计划的沙盒执行。Agent Skills 可在两个工具和 Cursor 之间移植。
决策规则:
如果 Agent 需要记住昨天的事,用 Claude Code。
如果需要忘记一切,用 Codex。