Please enable JavaScript.
Coggle requires JavaScript to display documents.
Layer Normalization(2016) - Coggle Diagram
Layer Normalization(2016)
论文
Layer ormalization
背景
Batch Normalization的确定
BN是按照样本数计算归一化统计量的,当样本数很少时,样本的均值和方差便不能反映全局的统计分布息,所以基于少量样本的BN的效果会变得很差
RNN通常各个样本的长度都是不同的,当统计到比较靠后的时间片时,基于这个样本的统计信息不能反映全局分布
概述
在特征维度上进行归一化
原理
公式
$$u^l=\frac{1}{H}\sum_{i=1}^H a_i^l$$
$$\sigma^l=\sqrt{\frac{1}{H}\sum_{i=1}^H (a_i^l - u^l)^2}$$
解释
相比BN唯一的区别就是沿着特征维度H(W,H,C)而不是batch(N,W,H)上进行归一化,也有可学习参数gamma和beta
在BN的文章中介绍过几乎所有的归一化方法都能起到平滑损失平面的作用
结论
在BN和LN都能使用的场景中,BN的效果一般优于LN
在BN无法使用的场景,LN得到的模型更稳定且起到正则化的作用
LN破坏了卷积学习到的特征,模型无法收敛