Coggle requires JavaScript to display documents.
Cross-Iteration Batch Normalization
BN在batchsize小的时候,不能起到好的归一化作用,之前的LN、IN、GN通过在其他纬度上归一化解决这个问题
通过泰勒多项式去估计几个连续batch的统计参数,很大程度缓解BN在batchsize不够时的问题
当训练集是随机的,随机抽取的mini-batch的分布应该是一样的。而且因为参数Theta和均值、方差为自变量和因变量的关系,所以可以用泰勒公式近似计算几个迭代前的t-tau时刻如果Theta是t的平均值和方差
因为当前层的均值是由前面层的Theta计算得出,那么计算时就需要把之前的Theta和梯度都算上,但计算得出之前层对当前层的影响越来越小,所以就就可以用当前层的梯度近似于前面多有层,减少计算成本