2026 年开源 LLM 标准架构模板：7 个已收敛的选择

Stanford CS336 课程上，研究者 Tatsu 拆解了最近三年所有主流开源 LLM 的架构，发现了一个令人意外的结论：

90% 的架构选择已经收敛。 你随便挑一个开源大模型，它和其他模型在核心维度上几乎一模一样。

讲师的三句年度总结：

2024 年：大家都在 cosplay Llama2
2025 年：主题是「怎么训得不崩」
2026 年：主题是「怎么扛住长上下文」

以下就是 2026 年开源 LLM 的标准模板。

架构层：已收敛的 7 个选择

1. Layer Norm 挪出残差流（Pre-norm）

原版 Transformer 把 LN 放在残差内部，现代模型几乎都挪到了外面。

原因：keep your residual stream clean，梯度反传更稳定。

2. RMS Norm 替代 LayerNorm

LayerNorm 减均值 + 加 bias 那部分，实际没帮上什么忙。丢掉之后，flops 只省 0.17%，但运行时省到 25%——因为瓶颈在数据搬运，不是计算。

3. 所有 bias 项全删

和 RMS Norm 同理，系统层省内存搬运。

4. 激活函数用 SwiGLU 或 GeGLU

gated linear unit 几乎被所有现代模型采用：

Llama 系 / Qwen / Mistral → SwiGLU
Google 系（Gemma / T5） → GeGLU

两者区别极小，选哪个都行。

5. 位置编码用 RoPE

2024 年之后基本统一。原理是把每对维度按位置旋转一个角度，让 inner product 只依赖相对位置。

6. Transformer Block 串联（不是并联）

GPT-J、Palm 试过并联结构，现在基本被放弃。串联的实现优化得实在太好，并联省的那点系统开销不值得损失表达力。

7. Layer Norm 可以「撒」

哪儿不稳就在哪儿加 LN：attention 之前能加、之后能加、两边都加（double norm）也可以。现代模型很多采用这种做法。

超参数：已收敛的 5 个数字

1. FFN 维度 / Hidden 维度

非 GLU 模型：4 倍
GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵，要保持总参数量）
Llama 系：3.5 倍
教训：T5 1.0 试过 64 倍，后来 T5 1.1 改回标准，别学

2. Head 数 × Head 维度 ≈ Hidden 维度

几乎所有模型都遵守这个约束，T5 是为数不多的例外。

3. 模型纵横比（Hidden / 层数）≈ 100

太深：pipeline parallel 难做
太宽：表达力受限

100 是系统约束 + 表达力的平衡点。

4. Vocab Size

单语模型：约 30K（早期 GPT-2 那种）
多语 / 通用模型：100K–200K（GPT-4、Llama 3、Gemma 都在这个范围）

现代通用模型基本都是后者。

5. Weight Decay

它做的事其实不是「防过拟合」，而是优化器干预，让你能收敛到更深的最优点。所以不要因为「单 epoch 不会过拟合」就把它关掉。

稳定性：三个救命 Trick

训练大模型最怕 loss 突然飙升、然后 NaN 全军覆没。现代模型用三个 trick 防这件事：

1. Z-loss

output softmax 的 normalizer 容易爆，加一个 (log Z)² 的正则项，让 Z 始终接近 1。DCLM、Olmo 都用。

2. QK Norm

attention 的 Q 和 K 在矩阵乘之前各加一个 LN，让 softmax 的输入永远是单位尺度。Multimodal 圈先用起来，现在所有大模型都加。

3. Logit Soft Cap（仅 Google 系）

attention logit 用 tanh 硬封顶。Gemma 2/3/4 都在用，但会损失一点点性能，慎用。

Attention：两个新趋势

1. GQA（Grouped Query Attention）几乎统一

原版 multi-head 推理时，KV cache 会让算术强度崩到 1/h。GQA 共享 K 和 V，但保留多个 Q——表达力几乎不损失，推理成本砍掉 80%。

现在所有要做生产部署的大模型，没有不用 GQA 的。

2. 局部 + 全局 Attention 交替

处理长上下文的新方式，Cohere Command A 起头，现在 Llama 4、Gemma 4、Olmo 3 全在用。

例如：每 4 层有 1 层 full attention，其他 3 层是 sliding window 只看附近的 token。比纯 SSM 更稳，比纯 full attention 便宜得多。

（Qwen 3.5 做了变体，把 sliding window 那 3 层换成 SSM）

收尾

如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」，不需要重新发明，直接抄。

如果你只是想看懂 GitHub 上那些 modeling_xxx.py，这一份足够你不再被术语吓住。