Coggle requires JavaScript to display documents.
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
当网络层数够多时,每层的输入都会受到前面所有层的参数影响
在深层网络训练的过程中,由于网络中参数变化而引起内部结点数据分布发生变化的过程
对输入数据分布变换到0均值,单位方差的正态分布
如果只以mini-batch为基础,会影响参数的更新,导致模型爆炸
因为白化需要减去均值,当只在mini-batch求均值时,b的影响被抹平了,但是在反向传播的时候仍会计算b,这就导致b一直会加delta b而没反映在loss计算中。所以计算平均值时需要用整个训练集
白化不单止需要拿整个训练集进行归一化而且需要计算协方差矩阵
因为白化过程是不可逆的,所以它会改变网络的每一层分布
只对某个特征进行正则化,而不是像白化一样对整个输入
利用BN训练好模型后,保留每组mini-batch训练数据在网络中每一层