Claude Code 和 Codex 不是同一个工具

大多数团队把 Claude Code 和 Codex 当成可互换的工具——然后在错误的配置下多花 40-60% 的修正轮次。

问题不是模型。是控制平面。一个持久化记忆并通过 hooks 执行规则，另一个沙盒一切、阻断网络、每次运行重置。

同样的终端，隐藏的架构分裂。

两个工具的基本定位

Claude Code：Anthropic 的 CLI。Opus 4.6，1M token 上下文窗口。直接读取你的文件系统。有 5 层配置栈：CLAUDE.md 层级、hooks、skills、MCP servers、subagents。跨 session 持久化记忆。

Codex：OpenAI 的 CLI，用 Rust 构建。GPT-5.3-Codex 和 GPT-5.4。在沙盒内运行，默认禁用网络。三种审批模式：suggest、auto-edit、full-auto。

Benchmark 差不多，但控制平面完全不同

SWE-bench Verified：Opus 4.6 80.8%，GPT-5.2 80.0%——前五名之内差距 1.3 个点。

Terminal-Bench 2.0：Codex CLI 77.3%，Opus 4.6 74.7%。

区别不是模型。是控制平面。

配置层级

Claude Code 分层 Markdown 文件：

~/.claude/CLAUDE.md          # 全局规则（所有项目）
./CLAUDE.md                  # 项目规则（每个仓库）
./src/CLAUDE.md              # 子文件夹覆盖
.claude/settings.json        # 权限、MCP servers

加上 skills（自动检测 markdown）、hooks（命令前后自动化）和 MCP servers。CLAUDE.md 无大小限制。每轮重新加载。

Codex 使用并行系统：

~/.codex/instructions.md     # 全局规则
codex.md 或 AGENTS.md        # 项目规则（遍历目录树）
~/.codex/config.toml         # 模型、审批策略、沙盒

也支持 Agent Skills（SKILL.md + 可选脚本）和 MCP servers（STDIO 或 streaming HTTP）。硬约束：project_doc_max_bytes 默认 32 KiB。超出会被静默截断。

执行差异

Claude Code 的 CLAUDE.md 合规率约 70%——模型遵循大多数规则，忽略一些。Hooks 达到 100%，因为它们作为 shell 命令执行，不是建议。

Codex 的执行来自沙盒本身。模型无法违反文件系统或网络限制，无论指令怎么说。

两种信任架构

Claude Code：默认信任，在你设置的权限内。直接读写文件系统。通过 .claude/settings.json 白名单限制访问。风险面更宽。吞吐量更高。

Codex：沙盒优先。macOS 用 Seatbelt profiles，Linux 用 Landlock。默认阻断网络，即使在 full-auto 模式。

三种模式：

suggest：提议变更，你来应用
auto-edit：应用文件编辑，命令前询问
full-auto：在沙盒内运行一切，依然无网络

心智模型：

Claude Code 是带护栏的 Agent。
Codex 是带审批门的沙盒。

失败模式

Claude Code：上下文陈旧时漂移。30 轮后，压缩会丢弃关键指令，Agent 与早期决策矛盾。

Codex：当需要沙盒外信息时卡住——无法获取的依赖、无法触达的文档、无法调用的 API。

配置建议

Claude Code：

分层 CLAUDE.md。全局约定在 ~/.claude/CLAUDE.md，项目规则在 ./CLAUDE.md，子系统知识在子文件夹。单个 400 行文件会导致模型降低底部指令的优先级。
无关任务之间用 /clear。混合上下文导致漂移。
简单任务用 Sonnet。Opus 每 token 贵 1.67 倍。拼写修复和单文件变更不需要那种推理深度。
用 auto-edit 开始，不是 full-auto。Review 前 20 次编辑，学习模型倾向，识别 AGENTS.md 需要更具体的地方。

Codex：

写真实的 AGENTS.md。没有项目上下文，Codex 会猜约定。团队报告配置良好的指令可减少 40-60% 修正。32 KiB 限制很宽裕。
保持任务原子化。沙盒在运行之间重置。多步链需要显式状态交接。如果工作流需要记住 3 个任务前的事，改用 Claude Code。

何时用哪个

Claude Code：多文件重构、代码库探索、跨任务记忆、MCP 编排。任何理解完整项目上下文能产生更好决策的场景。

Codex：隔离 bug 修复、带隔离的代码审查、严格审批工作流、锁定文件系统访问。从头开始是特性的任务。

两者配合：Claude Code 做架构和规划，Codex 做计划的沙盒执行。Agent Skills 可在两个工具和 Cursor 之间移植。

决策规则：

如果 Agent 需要记住昨天的事，用 Claude Code。
如果需要忘记一切，用 Codex。