Fable 一周深度体验：这是我用过最不像「工具」的模型

tl;dr

Fable（Mythos）是 Berman 用过最不像「工具」的模型。它的能力和定价都指向一个判断：这已经是一个下一代模型。但它有几个真实的怪癖。

The Good：长程任务才是它的主场

Workflow mode 是最大惊喜。 Berman 给它一个「全量代码审查」的任务，看它启动数百个 Agent 并行处理应用里的每一个文件。这些 Agent 找到了 Bug、边界 case、缺失文档和 UX 改进建议——数量远超之前给其他模型相同 prompt 时的产出。

它的自主性高得离谱。比之前任何 Claude 或 GPT 模型都更愿意离开、持续工作数小时。Berman 的感受是：每次启动 Fable，它都带着「要接手一个大项目」的意图，烧掉大量 token 也毫不在意。

能托付给它复杂任务。Berman 表示他对自己用过的几乎所有模型都会有一个「它会不会在这里翻车」的心理边界，但 Fable 打破了这条线。他甚至想象不出什么问题能让它彻底不知所措。它很渴望接手大规模任务。

这就是它的核心差异所在——长视域任务（long horizon tasks）。它的时间边界在哪里，目前根本无法判断。

Quirks：真实的问题

极其冗长。解释会迅速钻进细节深处。 Berman 更新了自己的 claude.md 来约束它，但连这都不够用——他还是得反复要求 Fable 用更简单的方式解释。问题不只是冗长，还有信息密度。他原话是：「它的解释方式让我真心觉得自己像个傻子。」

关于信息密度，Berman 提出了一个重要观察：这个指标被低估了。在固定的 token 预算内传递更多信息，等同于让模型实际上更聪明、更便宜。这也指向一个趋势——未来 Agent 可能会发明自己的超高密度语言。

酷爱确认问题。一个简单的 prompt 会变成：提问 → 总结你的回答 → 确认总结 → 确认 spec → 确认 Agent 策略（并行 vs 串行）→ 最后才开始构建。Berman 希望它直接替他做决定。Anthropic 告知这个问题会通过更新 system prompt 来修复。

速度慢。比之前的 Opus 型号和 GPT 都慢——启动慢，处理问题也慢。这与 Berman 喜欢的 Opus 特性正好相反：Opus 在两个维度都更快：token 吞吐速度，以及找到更短解决路径的能力。Fable 两个都输了。即使是简单任务，它也会爬行——五分钟进去，只有几千 token 输出，计时器在走，输出 token 却静止不动。它追求的是极致的详尽，而那需要时间。

结论

经验之谈：把 effort level 调低，比你以为的还要低。即使在低 effort 设置下，它的能力已经令人印象深刻，仍然会思考很长时间。

所有这些怪癖都是可修复的——模型优化和增加算力可以提速，更精细的 fine-tuning/RL 和 system prompt 调整可以改善冗长和过度谨慎。

verdict：Mythos 极其能干，Berman 还在摸索怎么用它最顺手。它想要他最困难的任务，任何低于这个标准的东西对它来说都不够好。这是全新训练周期的第一次亮相，但它已经是 Berman 用过的最强大的模型。

这是他无法停止思考的一点。

tl;dr

The Good：长程任务才是它的主场

Quirks：真实的问题

结论

继续阅读