Stanford CS336 课程上,研究者 Tatsu 拆解了最近三年所有主流开源 LLM 的架构,发现了一个令人意外的结论:
90% 的架构选择已经收敛。 你随便挑一个开源大模型,它和其他模型在核心维度上几乎一模一样。
讲师的三句年度总结:
- 2024 年:大家都在 cosplay Llama2
- 2025 年:主题是「怎么训得不崩」
- 2026 年:主题是「怎么扛住长上下文」
以下就是 2026 年开源 LLM 的标准模板。
架构层:已收敛的 7 个选择
1. Layer Norm 挪出残差流(Pre-norm)
原版 Transformer 把 LN 放在残差内部,现代模型几乎都挪到了外面。
原因:keep your residual stream clean,梯度反传更稳定。
2. RMS Norm 替代 LayerNorm
LayerNorm 减均值 + 加 bias 那部分,实际没帮上什么忙。丢掉之后,flops 只省 0.17%,但运行时省到 25%——因为瓶颈在数据搬运,不是计算。
3. 所有 bias 项全删
和 RMS Norm 同理,系统层省内存搬运。
4. 激活函数用 SwiGLU 或 GeGLU
gated linear unit 几乎被所有现代模型采用:
- Llama 系 / Qwen / Mistral → SwiGLU
- Google 系(Gemma / T5) → GeGLU
两者区别极小,选哪个都行。
5. 位置编码用 RoPE
2024 年之后基本统一。原理是把每对维度按位置旋转一个角度,让 inner product 只依赖相对位置。
6. Transformer Block 串联(不是并联)
GPT-J、Palm 试过并联结构,现在基本被放弃。串联的实现优化得实在太好,并联省的那点系统开销不值得损失表达力。
7. Layer Norm 可以「撒」
哪儿不稳就在哪儿加 LN:attention 之前能加、之后能加、两边都加(double norm)也可以。现代模型很多采用这种做法。
超参数:已收敛的 5 个数字
1. FFN 维度 / Hidden 维度
- 非 GLU 模型:4 倍
- GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵,要保持总参数量)
- Llama 系:3.5 倍
- 教训:T5 1.0 试过 64 倍,后来 T5 1.1 改回标准,别学
2. Head 数 × Head 维度 ≈ Hidden 维度
几乎所有模型都遵守这个约束,T5 是为数不多的例外。
3. 模型纵横比(Hidden / 层数)≈ 100
- 太深:pipeline parallel 难做
- 太宽:表达力受限
100 是系统约束 + 表达力的平衡点。
4. Vocab Size
- 单语模型:约 30K(早期 GPT-2 那种)
- 多语 / 通用模型:100K–200K(GPT-4、Llama 3、Gemma 都在这个范围)
现代通用模型基本都是后者。
5. Weight Decay
它做的事其实不是「防过拟合」,而是优化器干预,让你能收敛到更深的最优点。所以不要因为「单 epoch 不会过拟合」就把它关掉。
稳定性:三个救命 Trick
训练大模型最怕 loss 突然飙升、然后 NaN 全军覆没。现代模型用三个 trick 防这件事:
1. Z-loss
output softmax 的 normalizer 容易爆,加一个 (log Z)² 的正则项,让 Z 始终接近 1。DCLM、Olmo 都用。
2. QK Norm
attention 的 Q 和 K 在矩阵乘之前各加一个 LN,让 softmax 的输入永远是单位尺度。Multimodal 圈先用起来,现在所有大模型都加。
3. Logit Soft Cap(仅 Google 系)
attention logit 用 tanh 硬封顶。Gemma 2/3/4 都在用,但会损失一点点性能,慎用。
Attention:两个新趋势
1. GQA(Grouped Query Attention)几乎统一
原版 multi-head 推理时,KV cache 会让算术强度崩到 1/h。GQA 共享 K 和 V,但保留多个 Q——表达力几乎不损失,推理成本砍掉 80%。
现在所有要做生产部署的大模型,没有不用 GQA 的。
2. 局部 + 全局 Attention 交替
处理长上下文的新方式,Cohere Command A 起头,现在 Llama 4、Gemma 4、Olmo 3 全在用。
例如:每 4 层有 1 层 full attention,其他 3 层是 sliding window 只看附近的 token。比纯 SSM 更稳,比纯 full attention 便宜得多。
(Qwen 3.5 做了变体,把 sliding window 那 3 层换成 SSM)
收尾
如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」,不需要重新发明,直接抄。
如果你只是想看懂 GitHub 上那些 modeling_xxx.py,这一份足够你不再被术语吓住。