返回 FEED
CLAUDE2026-06-10

Fable 一周深度体验:这是我用过最不像「工具」的模型

tl;dr

Fable(Mythos)是 Berman 用过最不像「工具」的模型。它的能力和定价都指向一个判断:这已经是一个下一代模型。但它有几个真实的怪癖。

The Good:长程任务才是它的主场

Workflow mode 是最大惊喜。 Berman 给它一个「全量代码审查」的任务,看它启动数百个 Agent 并行处理应用里的每一个文件。这些 Agent 找到了 Bug、边界 case、缺失文档和 UX 改进建议——数量远超之前给其他模型相同 prompt 时的产出。

它的自主性高得离谱。比之前任何 Claude 或 GPT 模型都更愿意离开、持续工作数小时。Berman 的感受是:每次启动 Fable,它都带着「要接手一个大项目」的意图,烧掉大量 token 也毫不在意。

能托付给它复杂任务。Berman 表示他对自己用过的几乎所有模型都会有一个「它会不会在这里翻车」的心理边界,但 Fable 打破了这条线。他甚至想象不出什么问题能让它彻底不知所措。它很渴望接手大规模任务。

这就是它的核心差异所在——长视域任务(long horizon tasks)。它的时间边界在哪里,目前根本无法判断。

Quirks:真实的问题

极其冗长。解释会迅速钻进细节深处。 Berman 更新了自己的 claude.md 来约束它,但连这都不够用——他还是得反复要求 Fable 用更简单的方式解释。问题不只是冗长,还有信息密度。他原话是:「它的解释方式让我真心觉得自己像个傻子。」

关于信息密度,Berman 提出了一个重要观察:这个指标被低估了。在固定的 token 预算内传递更多信息,等同于让模型实际上更聪明、更便宜。这也指向一个趋势——未来 Agent 可能会发明自己的超高密度语言。

酷爱确认问题。一个简单的 prompt 会变成:提问 → 总结你的回答 → 确认总结 → 确认 spec → 确认 Agent 策略(并行 vs 串行)→ 最后才开始构建。Berman 希望它直接替他做决定。Anthropic 告知这个问题会通过更新 system prompt 来修复。

速度慢。比之前的 Opus 型号和 GPT 都慢——启动慢,处理问题也慢。这与 Berman 喜欢的 Opus 特性正好相反:Opus 在两个维度都更快:token 吞吐速度,以及找到更短解决路径的能力。Fable 两个都输了。即使是简单任务,它也会爬行——五分钟进去,只有几千 token 输出,计时器在走,输出 token 却静止不动。它追求的是极致的详尽,而那需要时间。

结论

经验之谈:把 effort level 调低,比你以为的还要低。即使在低 effort 设置下,它的能力已经令人印象深刻,仍然会思考很长时间。

所有这些怪癖都是可修复的——模型优化和增加算力可以提速,更精细的 fine-tuning/RL 和 system prompt 调整可以改善冗长和过度谨慎。

verdict:Mythos 极其能干,Berman 还在摸索怎么用它最顺手。它想要他最困难的任务,任何低于这个标准的东西对它来说都不够好。这是全新训练周期的第一次亮相,但它已经是 Berman 用过的最强大的模型。

这是他无法停止思考的一点。