返回 FEED
OTHER2026-05-29

Opus 4.8 来了:如何真正用好这个模型

Opus 4.8 刚刚发布。忘掉 benchmark 吧。

Anthropic 发布的 Opus 4.8 建立在 4.7 基础上,核心提升是更尖锐的判断力、更高的诚实度、以及更长的独立运行时间。

Benchmark 看起来很棒。它们总是看起来很棒。

真正的问题是:这个模型跟你以前的工作方式有什么不同?

读完 Anthropic 的 prompting 文档并测试之后,以下是所有变化以及如何真正用好它。

价格相同,API 限流提升

定价与 4.7 完全相同。Claude Code 中的 API 限流提升了,以处理新 effort 级别下更高的 token 使用量。5 小时滚动窗口和每周会话限制不变。

它今天已经全面可用。相同的 100 万上下文窗口。用 /model 在 Sonnet 和 Opus 4.8 之间切换。

Anthropic 还标记了一个新模型类别叫 Mythos,智能比 Opus 更高。少数组织正在用它做网络安全工作。它需要更强的安全防护才会广泛发布。值得留意。

这是最大的工作流变化

用户现在控制 Claude 在任务上投入多少 effort。在 Claude Code 中,输入 /effort,你会得到一个六级的滑块:

  1. Low
  2. Medium
  3. High(Opus 4.8 默认)
  4. xhigh
  5. Max
  6. Ultracode(exhigh + Workflows)

更高的 effort 意味着更聪明的答案,也意味着烧更多 token。更低的 effort 意味着更快的输出。

还有一个新的 Claude Code 功能叫 Dynamic Workflows,用于超大规模问题。这部分我在自己的视频里单独讲。

诚实性:这次的核心升级

Anthropic 在发布文章中用了整整一节讲诚实性。

模型现在被训练成避免无法支持的声明。不再有人说"这需要 4 小时"结果变成 20 分钟。没人再说"我推送了全部 50 个文件"结果只推了 15 个。

他们用 misaligned behavior evals 来衡量这个——越低越好。Opus 4.8 在这些测试中得分约为 4.7 和 Sonnet 4.6 的一半。

如果你曾经感觉被 Claude 报告假进展的事情 gaslit过,你没有错。4.7 确实有真实的社区反馈。

4.7 最响亮的抱怨

社区对 4.7 最大的抱怨:

  • 感觉懒。 任务上放弃得太早。
  • 过度死板,有安全过度。
  • Token 燃烧明显比 4.6 差。
  • 有态度。 固执、会在你的想法上 push back 而不是帮忙。

/goal 是懒的创可贴。4.8 把那个意图写进了模型,这样它可以在没有创可贴的情况下维持自主性。

4.8 应该有更好的温度和协作性,更好的工具调用、更好的推理、更好的提问和更好的 token 效率。

五个关键要点

1. Effort 是第一杠杆

4.7 中很多人感觉到的"懒"可能是 effort 不匹配,而不是模型失败。在 extra high 做简单任务,它会 over-engineer 和 over-reason。

Opus 4.8 on Low 和 Opus 4.8 on Extra High 感觉像不同的模型版本。几乎像 4.9。

如果你打开 Claude Code,开始打字,从不碰 effort,你留下了一个巨大的杠杆未使用。

2. 告诉它要做什么,而不是不要做什么

文档中每个示例 prompt 都是正面框架。"Write in this style" 比 "don't use em dashes" 效果好。模型把你的 context 当作一个好奇的队友。负面指令会让它饿。

3. 给出每个指令背后的为什么

不要只说"不要用 em dashes"。说"我想让这个读起来像是我写的,这是我的风格,我从来不用 em dashes,遵循我的 voice"。更多背景意味着更好的 adherence。

4. 它在调用工具之前先推理

它尝试用已有的东西想清楚方法,然后才 spawn 一个 subagent 或读一个 database。

有时候这正是你想要的。有时候你需要它先拉取 context 再思考。这就是为什么在从 4.7 迁移工作流时,prompting 和 effort tuning 很重要。

5. 它自己校准长度

判断复杂度来决定响应长度,而不是固定的 verbosity。简单查找时更短,开放式分析时更长。

早期反应分歧

正面: "one-shotted my hardest task," "strongest coding model yet," "super warm and collaborative," "big benchmark jumps." 有些是真实的,有些是 engagement bait。保持理性怀疑。

混合: 早期 bug 报告随着推出稳定下来。

大多数 4.8 的改进直接对应 4.7 最响亮的痛点。Anthropic 读日志并在反馈循环上训练。这是你想在模型系列中看到的。

关键结论

"更好"的模型不一定对你的特定问题更好。 Benchmark 在测量别人的用例。

去检查你当前的 Opus 4.7 工作流。注意你在哪里不断纠正它。注意它在哪里感觉懒、僵硬或贵。注意你在哪里烧 token 但没有得到太多回报。

然后测试 4.8 是否真的修复了那些确切问题。如果有,迁移。如果没有,pull the effort lever 或者按照 Anthropic 建议重写你的 prompt,可能会给你比模型交换更多的 lift。