Please enable JavaScript.
Coggle requires JavaScript to display documents.
Weighted Residuals(2016) - Coggle Diagram
Weighted Residuals(2016)
原理
残差网络
公式
$$x_{i+1}=ReLU(x_i+\Delta L_i(x_i, \Theta_i))$$
-
解释
ReLU与元素加不形容
残差的输出是(-1,1),但是由ReLU输出的high way只能输出非负,相加后只能给残差正方形的结果,限制了残差函数的可表示性
非常深的网络不会收敛
因为high way中间有ReLU且会加上残差,阻止了梯度在highway上的传递,所以非常深的网络很难收敛
加权残差网络
公式
$$x_{i+k}=x_i+
\sum_{j=1}^k \lambda_{i+j}
\Delta L_{i+j}(x_{i+j}, \Theta_{i+j}),
\lambda_{i+j} \in (-1, 1)$$
-
解释
- 将ReLU移到残差网络部分,然后再加入权重lambda(-1,1)来克制ReLu激活函数的限制
- 因为ReLu移到残差网络的部分,所以highway可以无障碍直通
- 初始化时lambda是0,使网络能组件学习需要的残差,这样就能收敛了
下采样优化
-
概述
- 在原始残差网络中的一个新块开始时,高速信号被一个stride-2卷积层向下采样,而分支残差信号也需要被一个stride-2卷积层减半。在执行逐元素加法时,需要使用零填充或转换矩阵在两个信号之间形成匹配的特征维数
- 开始时直接将特征大小减半,并按照前面章节中所述执行以下层
-
残差网络的缺点
- ReLu和元素加法不相容
- 使用"msra"初始值设定项很难使网络收敛到1000层以上的深度
- 为了训练非常深的网络,需要一种更好的模式来组合来自不同层的残差,普通的残差网络不能解决这个问题
优点
- 在训练阶段收敛速度快,在计算量和GPU存储开销增加了很少的同时比原始残差网络有更高的精度
- 适当解决了ReLU和按元素添加的不兼容性
- 残差逐渐添加到高速信号中,使训练过程更加可靠
- 使高速信号和分支残差信号的空间大小和特征尺寸一致,而不需要使用零填充或额外的转换矩阵