首页 > 基础资料 博客日记
深度学习进阶(二十六)现代 LLM 的核心架构设计其一:RMSNorm
2026-06-01 21:00:04基础资料围观1次
上一篇我们介绍了旋转位置编码 RoPE ,它通过在 QK 点积中注入旋转矩阵,让注意力自然而然地感知到相对位置。如今 RoPE 已经成为几乎所有主流开源大模型的位置编码标准。
但位置编码只是现代大模型改造的一个环节。 如果把标准 Transformer 和今天的大模型放在一起对比,就会发现归一化方式、激活函数、注意力结构……几乎每个模块都被动过。
因此,近几篇会正式进入现代 LLM 模型架构,展开其相关技术。
本篇展开第一个改动:归一化。
1. 归一化的发展历程
我们在很早之前就展开过归一化的内容:归一化,它的基本逻辑是通过调整数据尺度来加速模型训练,帮助优化,从而让模型更快的收敛,这里再简单复述一下:
一个深层网络在训练时,每层的输入分布都会随着前一层参数的变化而不断变化。这意味着后一层需要持续适应前一层输出的分布漂移,训练也就变得更困难,甚至可能导致梯度现象。
当时的研究者将这一问题归因于内部协变量偏移(Internal Covariate Shift,ICS),并尝试通过归一化稳定中间层分布。
最初的方案是 15 年的 Batch Normalization:对每一层的激活值做归一化,减去 batch 均值,除以 batch 标准差。这个操作让网络可以使用更大的学习率、更少的 epoch 就收敛,也因此迅速成了 CNN 的标配。
但 Batch Normalization 的局限在于依赖 batch 维度的统计量。 在序列长度变化、 batch size 不一定大的 NLP 任务中,其效果会大打折扣。
而且,在 Transformer 这种结构中,BN 的 “竖着统计”和与自注意力的 “横着注意” 在同时应用时,也存在逻辑上的不协调。
于是 16 年的 Layer Normalization 换了一个思路:不沿 batch 维度归一化,而是沿特征维度归一化。
这种方式针对单个样本,计算它所有特征的均值和方差,然后做归一化。既不依赖 batch size,也不受序列长度影响,天然适合序列模型。
此后,LayerNorm 就成了 Transformer 的标准配置,一直到今天的少部分大模型也仍在使用。
因此,在进入 RMSNorm 前,我们再回顾一下 LN 本身的逻辑。
2. LayerNorm 有什么问题?
我们在之前的 Transformer Block 里也介绍过 LN,先看一个标准的 LayerNorm 公式:
其中:
\(\boldsymbol{\gamma}\) 和 \(\boldsymbol{\beta}\) 是可学习的参数,维度与 \(\mathbf{x}\) 相同。\(\epsilon\) 是防止除零的极小常数。
总结来看,LN 做了三件事:
- 居中(centering):减去均值 \(\mu\),让分布中心归零。
- 缩放(scaling):除以标准差 \(\sigma\),把方差归一化到 1 。
- 恢复(affine transformation):用 \(\boldsymbol{\gamma}\) 和 \(\boldsymbol{\beta}\) 恢复模型需要的尺度和偏移。
前两步是固定的归一化操作,第三步是把"自由度"还给模型。因为强制把所有激活值变成零均值单位方差不一定是最优的,模型可能希望某些层保留特定的分布特征。
看这个结构,感觉每一步都很合理。但科研往往打破常规,19 年的论文 Root Mean Square Layer Normalization 提出了问题:
这三步里,真的每一步都是必要的吗?特别是第一步:居中。
以此,我们来展开 RMSNorm 的思路:
3. RMSNorm 的内容
RMSNorm 提出了一个很直接的实验:把 LayerNorm 的居中部分去掉,只保留缩放,看看效果如何。去掉之后的公式长这样:
对比一下:
| 操作 | LayerNorm | RMSNorm |
|---|---|---|
| 计算均值 | \(\mu = \frac{1}{d}\sum x_i\) | 无 |
| 减去均值 | \(\mathbf{x} - \mu\) | 无 |
| 除以标准差 | \(\sqrt{\frac{1}{d}\sum (x_i-\mu)^2 + \epsilon}\) | \(\sqrt{\frac{1}{d}\sum x_i^2 + \epsilon}\) |
| 可学习偏置 | \(\boldsymbol{\beta}\) | 无 |
| 可学习增益 | \(\boldsymbol{\gamma}\) | \(\boldsymbol{\gamma}\) |
很明显,RMSNorm 简化了两处内容:
- 取消中心化,直接使用原始输入的均方根来做归一化的分母,而不是用标准差。
- 去掉偏置参数 \(\boldsymbol{\beta}\),这是因为不做中心化后的分布中心不再是零,就不需要专门用一个可学习参数去专门调整了。

4. 为什么可以去掉中心化?
值得一提的是,这一问题的答案并不在 RMSNorm 论文本身,而是在后续大模型实践中逐渐清晰的,其关键在于我们之前提到的 Pre-Norm 结构。
我们在 Transformer Block那里展开过 Post-Norm 和 Pre-Norm 两种结构:
- Post-Norm:归一化放在子层之后(\(\text{LayerNorm}(\mathbf{x} + \text{Sublayer}(\mathbf{x}))\))
- Pre-Norm:归一化放在子层之前(\(\mathbf{x} + \text{Sublayer}(\text{LayerNorm}(\mathbf{x}))\))
已知 Post-Norm 是原版 Transformer 的设计,但深层训练不稳定。
于是 Pre-Norm 把归一化放在残差分支的入口处,保证了主干的信号流通更加顺畅,训练更稳定,从而成为事实标准。
后续大量实践表明,Transformer 的训练稳定性主要依赖于尺度控制而非严格的零均值约束。
所以 Pre-Norm 结构改善了梯度传播,而 RMSNorm 保留了最关键的尺度归一化功能。两者结合后,即使不再执行中心化操作,模型依然能够稳定训练并保持性能。
但毕竟是黑箱,还有一种说法是 Pre-Norm 结构和残差的组合可以特征值保持较小的均值,让中心化不再那么必要。
总之,在主流认知中的共同点都有 Pre-Norm 的重要性,但验证其效果后,剩下的其实也就是怎么讲故事的问题了。
我们来重点看看其效果:
5. RMSNorm 的表现
首先,RMSNorm 论文在多个任务上做了对比。核心结论是:去掉均值中心化之后,效果与 LayerNorm 基本持平,甚至在某些设定下略有提升。
但更重要的是计算效率。RMSNorm 省去了两个操作:
- 前向:不需要计算均值 \(\mu\),均方根的计算也比方差计算少一次减法。
- 反向:不需要对 \(\boldsymbol{\beta}\) 求梯度。
原论文在多种网络结构上进行了实验:在保持性能接近的情况下,整体运行时间可减少约 7%~64%。对于 Transformer 模型,加速通常在 7%~15% 左右。
在单层上这点差异微乎其微,但在 70B、上百层的模型中,累积起来就是可观的训练加速。
但同样要说明的是:今天的大模型层数更深,使用的技术更广,Norm 层的占比变小,实际上的收益已经不会像上面一样那么可观了。
从 LLaMA 开始,RMSNorm 几乎成了所有现代大模型的默认选择:
| 模型系列 | 归一化方式 |
|---|---|
| LLaMA 1/2/3 | RMSNorm |
| Mistral / Mixtral | RMSNorm |
| Qwen 系列 | RMSNorm |
| Gemma | RMSNorm |
| DeepSeek | RMSNorm |
| GPT-NeoX / Pythia | LayerNorm |
| 原始 Transformer | LayerNorm |
2023 年之后发布的大模型,几乎全都换成了 RMSNorm。
这便是 RMSNorm 的全部逻辑,就是这样的一个个改进,支撑起了庞大的现代 LLM 架构。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 当ETA变得越来越复杂、越来越自主时,责任最终落在谁身上?【浙江联保网络 卢伟舜】
- 深度学习进阶(二十六)现代 LLM 的核心架构设计其一:RMSNorm
- 【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (5)--- 异步处理
- 20243408 2025-2026-2 《Python程序设计》综合实践报告
- "TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds" 论文笔记
- java基础之String类
- 论文复现【DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes】
- 张高兴的 Hailo-10 开发指南:(一)实现离线语音识别
- Solon 热加载与插件热插拔:Debug 模式 × E-Spi × H-Spi 全解析
- 用 SymPy 解决 Manim 曲线绘制速度不均的问题

