OpenMythos：用 PyTorch 从第一性原理复现 Claude Mythos

Claude Mythos 到底是怎么工作的？这个问题在 Claude 3.7 发布后一直是社区热点，但 Anthropic 从未公开架构细节。swarms 创始人 Kye Gomez 近日发布了 OpenMythos——一个从第一性原理出发、用 PyTorch 理论复现 Claude Mythos 的开源项目。帖子在 X 上获得了 850K 浏览量和 6.7K 点赞。

核心假设：Claude Mythos 是循环深度 Transformer

传统 Transformer 把输入过一次前向传播就输出结果。OpenMythos 的核心假设是：Claude Mythos 采用了一种完全不同的设计——Recurrent-Depth Transformer（RDT），也叫 Looped Transformer。不是堆叠几百层各自独立的 Transformer，而是在一次前向传播内让同一组权重被重复使用多次。

这不是思维链（Chain-of-Thought）。思维链是把推理步骤逐个输出为 token，模型"说出来"；而循环深度 Transformer 的所有推理发生在单次前向传播内的连续隐空间，没有任何中间 token 输出——整个思考过程是"沉默"的。

三段式架构

Looped Transformer 把网络分为三个功能块：

输入 → [Prelude P] → [循环块 R] → [Coda C] → 输出
                  ↑________↓
           （隐藏状态 h 每轮用输入注入 e 更新）

Prelude：标准 Transformer 层，运行一次，负责把输入编码为隐状态
Recurrent Block：同一组权重循环 T 次（最大 max_loop_iters），每次用新的输入注入更新隐藏状态
Coda：标准 Transformer 层，运行一次，把最终隐状态解码为输出

关键在于输入注入机制——每轮循环都会把原始输入 e 再注入进去，防止模型在多轮循环中逐渐偏离原始信号而发散。

为什么这能解释 Mythos 的能力

1. 深度外推

用 5 步推理链训练，用 10 步推理链测试。普通 Transformer 失败；Looped Transformer 成功——因为它可以在推理时运行更多循环。这直接解释了为什么 Mythos 在需要多步推理的数学、规划和复杂论证任务上表现突出：更多的推理循环 = 更深的推理链。

2. 隐空间内的连续思维

每轮循环迭代等价于思维链的一步，但运作在连续隐空间而非 token 空间。这带来了一个关键优势：隐空间内的思维可以同时编码多种替代推理路径，而不是一次只走一条路。模型实际上在每次前向传播内部做类似 BFS 的探索，然后收敛到一个答案。

3. 没有参数爆炸

k 层权重循环 L 次 = kL 层非循环模型的表达能力，但参数量只有 k 层。推理时计算量随循环次数增长，但参数量不增长。这意味着更深的推理能力是"免费"的——不需要更大的模型。

稳定性问题及解决方案

训练循环模型出了名的容易不稳定：隐藏状态 h_t 会随循环次数增长而爆炸，或者训练因注入参数谱范数过大而突然发散。

OpenMythos 分析了可能的解决方案：把循环视为离散线性时不变（LTI）系统，约束注入矩阵 A 的谱半径 ρ(A) < 1，用参数化 A 为连续负对角矩阵 + ZOH/Euler 离散化来实现。这对应了 2026 年的新论文 Parcae——也许是 Anthropic 实际使用的方案。

MoE 提供广度

Looped Transformer 解释了深度，但无法解释宽度——Mythos 能在代码、数学、文学、科学、法律等完全不同领域都表现出色。答案指向 Mixture of Experts（MoE）：每个 FFN 层被替换为细粒度 MoE，路由器选择 top-mK 个 expert 被激活，同时有少量共享 expert 始终激活，用来吸收跨领域通用知识（如语法、基本推理）。

Loop Index Embedding：一个开放问题

每轮循环是否做不同的事，还是机械重复？如果没有位置信号，同一组权重必须同时处理早期模式匹配和晚期精炼。OpenMythos 提出了一个假设：类似 RoPE 的循环索引嵌入——在每轮注入一个代表当前循环深度的 embedding，让同一组权重在不同循环深度时运作在不同的表示状态——这是一个还未被完全证实的想法，但有研究支持。

项目信息

OpenMythos（kyegomez/OpenMythos，MIT 协议）目前 1.4k stars，4月18日创建，极其新鲜。项目用 ~600 行 PyTorch 代码实现了核心架构，支持 MLA 和 GQA 两种注意力模式，提供了完整的配置和训练示例。

真正有意思的地方在于：OpenMythos 不是在复刻 Claude，而是在用公开研究逆向工程它的设计哲学——循环推理 + 稀疏激活 + 共享知识，这是一套比堆参数更聪明的 Scaling 路径。