Opus 4.8 来了：如何真正用好这个模型

Opus 4.8 刚刚发布。忘掉 benchmark 吧。

Anthropic 发布的 Opus 4.8 建立在 4.7 基础上，核心提升是更尖锐的判断力、更高的诚实度、以及更长的独立运行时间。

Benchmark 看起来很棒。它们总是看起来很棒。

真正的问题是：这个模型跟你以前的工作方式有什么不同？

读完 Anthropic 的 prompting 文档并测试之后，以下是所有变化以及如何真正用好它。

价格相同，API 限流提升

定价与 4.7 完全相同。Claude Code 中的 API 限流提升了，以处理新 effort 级别下更高的 token 使用量。5 小时滚动窗口和每周会话限制不变。

它今天已经全面可用。相同的 100 万上下文窗口。用 /model 在 Sonnet 和 Opus 4.8 之间切换。

Anthropic 还标记了一个新模型类别叫 Mythos，智能比 Opus 更高。少数组织正在用它做网络安全工作。它需要更强的安全防护才会广泛发布。值得留意。

这是最大的工作流变化

用户现在控制 Claude 在任务上投入多少 effort。在 Claude Code 中，输入 /effort，你会得到一个六级的滑块：

Low
Medium
High（Opus 4.8 默认）
xhigh
Max
Ultracode（exhigh + Workflows）

更高的 effort 意味着更聪明的答案，也意味着烧更多 token。更低的 effort 意味着更快的输出。

还有一个新的 Claude Code 功能叫 Dynamic Workflows，用于超大规模问题。这部分我在自己的视频里单独讲。

诚实性：这次的核心升级

Anthropic 在发布文章中用了整整一节讲诚实性。

模型现在被训练成避免无法支持的声明。不再有人说"这需要 4 小时"结果变成 20 分钟。没人再说"我推送了全部 50 个文件"结果只推了 15 个。

他们用 misaligned behavior evals 来衡量这个——越低越好。Opus 4.8 在这些测试中得分约为 4.7 和 Sonnet 4.6 的一半。

如果你曾经感觉被 Claude 报告假进展的事情 gaslit过，你没有错。4.7 确实有真实的社区反馈。

4.7 最响亮的抱怨

社区对 4.7 最大的抱怨：

感觉懒。 任务上放弃得太早。
过度死板，有安全过度。
Token 燃烧明显比 4.6 差。
有态度。 固执、会在你的想法上 push back 而不是帮忙。

/goal 是懒的创可贴。4.8 把那个意图写进了模型，这样它可以在没有创可贴的情况下维持自主性。

4.8 应该有更好的温度和协作性，更好的工具调用、更好的推理、更好的提问和更好的 token 效率。

五个关键要点

1. Effort 是第一杠杆

4.7 中很多人感觉到的"懒"可能是 effort 不匹配，而不是模型失败。在 extra high 做简单任务，它会 over-engineer 和 over-reason。

Opus 4.8 on Low 和 Opus 4.8 on Extra High 感觉像不同的模型版本。几乎像 4.9。

如果你打开 Claude Code，开始打字，从不碰 effort，你留下了一个巨大的杠杆未使用。

2. 告诉它要做什么，而不是不要做什么

文档中每个示例 prompt 都是正面框架。"Write in this style" 比 "don't use em dashes" 效果好。模型把你的 context 当作一个好奇的队友。负面指令会让它饿。

3. 给出每个指令背后的为什么

不要只说"不要用 em dashes"。说"我想让这个读起来像是我写的，这是我的风格，我从来不用 em dashes，遵循我的 voice"。更多背景意味着更好的 adherence。

4. 它在调用工具之前先推理

它尝试用已有的东西想清楚方法，然后才 spawn 一个 subagent 或读一个 database。

有时候这正是你想要的。有时候你需要它先拉取 context 再思考。这就是为什么在从 4.7 迁移工作流时，prompting 和 effort tuning 很重要。

5. 它自己校准长度

判断复杂度来决定响应长度，而不是固定的 verbosity。简单查找时更短，开放式分析时更长。

早期反应分歧

正面： "one-shotted my hardest task," "strongest coding model yet," "super warm and collaborative," "big benchmark jumps." 有些是真实的，有些是 engagement bait。保持理性怀疑。

混合： 早期 bug 报告随着推出稳定下来。

大多数 4.8 的改进直接对应 4.7 最响亮的痛点。Anthropic 读日志并在反馈循环上训练。这是你想在模型系列中看到的。

关键结论

"更好"的模型不一定对你的特定问题更好。 Benchmark 在测量别人的用例。

去检查你当前的 Opus 4.7 工作流。注意你在哪里不断纠正它。注意它在哪里感觉懒、僵硬或贵。注意你在哪里烧 token 但没有得到太多回报。

然后测试 4.8 是否真的修复了那些确切问题。如果有，迁移。如果没有，pull the effort lever 或者按照 Anthropic 建议重写你的 prompt，可能会给你比模型交换更多的 lift。