Please enable JavaScript.

Coggle requires JavaScript to display documents.

观察“训练误差-迭代“曲线 (多次训练最优解存在差距 (机器学习局部最优解表现多次训练得出的最优解有差距原因 …

- - - - 原因
        
        训练一个层数非常多的神经网络，而且假设g(z)=z时，Y的公式就会这样
        
        当W都大于1(假设为1.1)，而且神经网络有50层时，Y_hat = 117.4X, X只要有一点细微变化，Y_hat的变化都会很大
      - 解决方法
        
        控制权重初始化
        
        例子
        
        以单个神经元为例，如果z太大或者太小时，g'(z)会太大或太小（有些导数和z有关），所以z最好在0附近。因为X的值在[-1,1]内，而且做z=w1x1+w2x2+...+wn*xn，是加法，所以w平均值应该为0，stddev为1/n
        
        不同激活函数stddev不同
        
        ReLU
        
        np.random.randn(n[l],n[l-1])np.sqrt(2/n[l-1]n[l])
        
        np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1])
        
        Tanh：
        np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1])
        
        梯度截断
        
        分类
        
        逐元素截断
        
        概述
        
        在参数更新之前，逐元素截断小批量产生的参数梯度
        
        范数截断
        
        概述
        
        在参数更新之前截断梯度g的范数||g||(就是设置比例，按比例缩放g
        
        公式
        
        $$g \leftarrow \frac {gv} {||g||}$$
        
        优点
        
        保证了每个步骤仍然是在梯度方向上的
        
        原理
        
        经过梯度范数截断，参数更新的向量范数变得有界
        
        原理
        
        当梯度大小高于阈值是，即使是采取简单的随机步骤往往工作得几乎一样好
      - 检验方法：斜率验证
        
        原理
        
        运用微积分思想计算斜率，然后和反向传播对比
        
        实现
        
        计算近似斜率Theta(approx)和反向传播斜率Theta的差值
        
        注意事项
        
        不要在整个训练过程中都进行梯度检查，仅仅作为debug使用
        
        如果梯度检查出现错误，找到对应出错的梯度，检查其推导是否出现错误
        
        注意不要忽略正则化项，计算近似梯度的时候要包括进去
        
        梯度检查时关闭dropout，检查完毕后再打开dropout
        
        随机初始化时运行梯度检查，经过一些训练后再进行梯度检查（不常用）
      - 结果
        
        当参数梯度非常大时，梯度下降的参数更新可以将参数抛出很远，进入目标函数较大的区域
    - - 解决方法
        
        引导信息流的正则化
        
        概述
        
        即使损失函数只对序列尾部的输出做出惩罚，梯度向量再反向传播时能维持其幅度（就是梯度大小恒定防止过小）
        
        改变模型结构
        
        例子
        
        残差网络
        
        LSTM、GRU
      - 概述
        
        当前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了