Please enable JavaScript.
Coggle requires JavaScript to display documents.
深度学习 (模型分类 (深度神经网络, 卷积神经网络(CNN), 递归神经网络(RNN), 注意力模型), 神经元 (分类…
深度学习
-
神经元
分类
整流线性单元(tanh)
公式
$$g(z)=max\lbrace 0,W^\top x+b\rbrace$$
特征
- 与线性单元非常类似,易于优化
- 不能通过基于梯度的方法学习那些使它们激活为0的样本
- 通过给公式中的b设置一个小的正值,使神经元很可能初始时就对训练集中大多数输入呈激活状态
扩充
-
maxout单元
特征
- 使用足够大的k,maxout单元可以以任意的精确度来近似任何凸函数
- 具有一些冗余来帮助它们抵抗一种被称为灾难遗忘的现象
logistic sigmoid与双曲正切函数
双曲正切
-
特征
- 当必须使用sigmod是,双曲正切通常比sigmoid变现更好
- tanh在0是,更像单位函数,更容易训练
logistic sigmod
特征
- 大部分定义域内都是饱和的,仅仅当z接近0时它们才对输入强烈敏感,因此不鼓励用作前馈网络中的隐藏单元
- 在循环网络、许多概率模型以及一些自编码器有一些额外需求才会用
-
-
其他隐藏单元
概述
- 许多未发布的激活函数与流行的激活函数表现一样好
- 糖厂新的隐藏单元只有在被明确证明能够提供显著改进时才会被发布
分类
-
softmax
原因
具有k个可能性的离散型随机变量的概率分布,可以用作一种开关
-
softplus函数
概述
- ReLU的平缓版本
- 虽然比ReLU可导,但从经验来看,并没有比ReLU更好
-
指导原则
- 还没有许多明确的指导性理论原则
- 整流线性单元(Relu)是隐藏单元极好的默认选择
- 设计过程充满了实验和错误
概述
大多数的隐藏单元都可以描述为接受输入向量x,计算仿射变换z=Wx+b,然后使用一个逐元素的非线性函数给g(z)
架构设计
万能近似性质和深度
定义
一个前馈神经网络如果具有线性输出层和至少一层具有任何“挤压”性质的激活函数的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的经度来近似从一个有限维空间到另一个有限维空间的Borel可测函数
问题
- 优化算法可能找不到用于期望函数的参数值(局部最优解)
- 由于过拟合而选择了错误的函数
深度和广度的关系
- 存在一些函数族能够在网络的深度大于某个值d时被高效地近似,而当深度被限制到小于或等于d时需要一个远远大于之前的模型
- 深度为l的深度整流网络能描述l的指数级的线性区域
-
-
优点
自动特征提取
- 如图,对图中蓝黄点进行分类,显然因为模型设计不合理,出现的欠拟合问题
- 机器学习的解决方法:
观察可知,这个分类的决策边界应该是一个圆形曲线,如图修改模型
- 深度学习的解决方法:
因为欠拟合,而且输出最后输出只有0或1,所以逐步增加隐藏层神经元,如图
- 结论:
机器学习和深度学习最后都能解决这个分类问题,但是机器学习需要人运用自有的知识(这是个圆形曲线)对模型进行修改,如果缺乏对应的知识,就很难修改模型
理解
自动地将简单的特征组合成更加复杂的特征,并使用这些组合特征解决问题。
对应机器学习的缺点:
人工设计模型,无法自动提取特征,性能更多的依赖于人工设计的模型
应用
理解
因为神经网络是人工仿生网络,类似图像识别和自然语言处理灵感就是来自神经科学,因为底层的人工神经网络类似于底层的生物神经网络,意味着我们识别东西的最初部分都是相似的(详情参考感觉心理学),所以训练好的神经网络底层可在类似的问题上重用,高层的神经网络可以视数据量重新训练
分类
Transfer Learning
- 任务A和任务B有相同的输入X
- 任务A的数据要被任务B的数据多得多
- 任务A和任务B底层特征相似
Multi-task learning
- 训练一些底层特征相同的任务
- 每个任务的数据很相似
- 有训练这个大网络模型的运算量
概述
用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征
表征学习
- 如图,对图中蓝黄点进行分类,显然因为模型设计不合理,出现的欠拟合问题
- 机器学习的解决方法:
逐步增加特征,直到出现合适模型,如图
- 深度学习的解决方法:
因为欠拟合,而且输出最后输出只有0或1,所以逐步增加隐藏层神经元
理解
因为能自动提取特征,所以就能用更好的表示方法来创建模型
对应机器学习的缺点:
因为无法自动提取特征,所以会存在特征(以及特此指数)过多或过少的问题
应用
End-to-end deep learning
- 定义
不同阶段的数据处理系统或学习系统模块组合在一起
- 例子
语音识别
概述
表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法
与神经网络的区别
-
因为深度不同导致特征处理思路不同
- 神经网络:在有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定的制约
- 深度学习:过多层次模型,自动的学习数据的特征,这样不仅能最大程度的保持原有的重要信息,也可以让模型效果更好
定义
- 是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
- 深度学习是机器学习中一种基于对数据进行表征学习的算法。
表征学习:在机器学习中,特征学习或表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。
-