Please enable JavaScript.
Coggle requires JavaScript to display documents.
正则化 (分类 (Dropout (特征 通过随机行为训练网络并平均多个随机决定进行预测,实现了一种参数共享的Bagging形式
…
正则化
分类
Dropout
特征
- 通过随机行为训练网络并平均多个随机决定进行预测,实现了一种参数共享的Bagging形式
- 共享隐藏单元(一个神经元不起作用可以被另一个替代)
原因
- 类似集成指数级数量深层神经网络的Bagging方法
- 自施加到隐藏单元的掩码噪声
- 噪声是相乘(就是每一层的噪声影响)
-
缺点
- 以更大的的模型和更多训练算法的迭代次数为代价换来的
- 只有极少的训练样本可用时,Dropout不会有效
-
定义
Dropout是指在深度学习网络的训练过程中,对于每层的神经元,按照一定的概率将其暂时从网络中丢弃。也就是说,每次训练时,每一层都有部分神经元不工作,起到简化复杂网络模型的效果,从而避免发生过拟合。
参数范数惩罚
-
定义
对目标函数J添加一个参数范数惩罚\Omega(\theta)
分类
-
L^1正则化
-
-
特征
- 相比L2正则化,L1正则化会产生更稀疏的解
- 由L1正则化导出的稀疏性质已经被广泛地用于特征选择机制
噪声鲁棒性
向输入添加噪声
特征
对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚
-
向输出添加噪声
概述
- 假设数据标注存在极小的错误率e,那么y正确的概率是1-e
- 标签平滑:通过把确切的分类从0和1替换成e/(k-1)和1-e,因为softmax在极端饱和,而修改后就不能饱和,所以会一直学习
多任务学习
定义
通过合并几个任务中的样例来提高泛化的一种方式
优点
- 其统计强度大大提高(标注的数据增加了)
- 改善泛化和泛化误差范围
模型结构
- 具体任务的参数(不同任务独立的参数)
- 所有任务共享的通用参数
提前终止
定义
当验证集上的误差在实现指定的循环次数没有进一步改善是,算法就会终止
优点
- 提前终止是非常高效的参数选择法
- 几乎不需要改变基本训练过程、目标函数或一组允许的参数值
- 可以单独使用或与其他的正则化策略结合使用
- 减少训练过程的计算成本(训练次数减少,不需要给代价函数加惩罚项)
-
参数绑定和参数共享
背景
我们经常想要表达的一种常见依赖是某些参数应当彼此接近
参数绑定
背景
有类似输入和输出的模型A和B,他们的参数应该是类似的
定义
正这话一个模型的参数,使其接近另一个无监督模式下训练的模型的参数
公式
$$\Omega(\omega^{(A)},\omega^{(B)})=||\omega^{(A)}-\omega^{(B)}||_2^2$$
参数共享
定义
将各种模型或模型组件解释为共享唯一的一组参数
-
Bagging和其他继承方法
概述
- 通过结合几个模型降低泛化误差的技术
- 作为科学论文算法的基准时,他通常不鼓励使用
模型平均
分别训练几个不同的模型,然后让所有模型表决测试样例的输出
Bagging
从原始数据集中重复采样数据,构造k个不同的数据集训练模型
数据增强
概述
让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练
特征
- 数据集增加对一个具体的分类问题来说是特别有效的方法,如图像识别和语音识别
- 在比较机器学习基准测试的结果时,考虑其采取的数据增强是很重要的(就是对比算法是输入要一致)
半监督学习
-
例子
生成模型P(x)或P(x,y)与判别模型P(y|x)共享参数,且迭代训练(参考文本聚类模型Clustering with Deep Learning Taxonomy and New Methods)
稀疏表示
定义
相对惩罚参数,另一种策略是惩罚神经网络中的激活单元
公式
-
解释
使用L以范数得到神经元的稀疏表示,然后对他进行惩罚
-
对抗训练
原因
神经网络主要是基于线性快构建的。对抗训练通过鼓励网络再训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为
-
定义
对学习算法的修改——旨在减少泛化误差而不是训练误差
原因
- 我们几乎从未知晓真实数据的生成过程,所以我们永远不知道被估计的模型族是否包含生成过程
- 控制模型的复杂度不是找到合适规模的模型,实际上最好的拟合模型是一个适当正则化的大型模型