Please enable JavaScript.
Coggle requires JavaScript to display documents.
深度神经网络 (为什么要“深” (例子 学习(螺旋表示)
用浅层(1层8个)神经网络模型
需要训练1000个epoch,cost 0…
深度神经网络
为什么要“深”
例子
- 学习(螺旋表示)
- 用浅层(1层8个)神经网络模型
- 需要训练1000个epoch,cost 0.2左右
- 用深度神经网络(2层16个)
- 需要训练1000个epoch,cost到达了0.05
- 总结:
对比可知,相同epoch时,相同神经元个数的层,深层收敛更快
-
历史发展
分类
反馈(BP)神经网络
优缺点
缺点
层次较少的情况下并没有比其他算法有优势,层数多了又导致训练非常慢
有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定的制约
由于层数较浅,必须人工的选取特征,由于缺乏特征选取的经验,特征选择就成了制约模型性能的关键因素
梯度消失
由于层次较深,梯度自顶往下传递时逐渐消失,到最下层时几乎为零,导致最底层梯度基本不变,也因此导致训练时间较长
优点
- 因为比感知机层数多了,所以能处理非线性分类问题
- 能处理更复杂的问题
-
定义
一种按照误差逆向传播算法训练的多层前馈神经网络
论文
1988:Theory of the backpropagation neural network
感知机
-
数学原理
反向
- 通过计算分类错误的y_hat到y到分类边界的距离作为损失函数
- 再用梯度下降或最小二乘法求出损失函数的最小值
-
定义
感知机是生物神经细胞(不是神经网络,是细胞)的简单抽象,一种二元线性分类器
论文
1958:The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain
论文
2006: A fast learning algorithm for deep belief nets
定义
一种包含多层隐单元的概率生成模型,可被视为多层简单学习模型组合而成的复合模型
数学原理
wake-sleep算法
概述
总体来说就像通信系统中的编码和解码,上一层能最好的表示下一层,两层之间通过权重转换,但是这编码和解码的系统是通过非监督学习而成。
具体步骤
- 把特征v0入的类似于编码系统的多层神经网络
- 特征经过神经网络后得出一个压缩之后的特征h0
- 压缩后的特征h0输入类似于解码系统的多层神经元(权重是编码神经系统的转置)得出解压后的特征向量v1
- 生成的可视化特征向量v1再次输入编码系统得出h1
- 对比v0和v1,h0和h1得出delta
- 对delta进行最小化求导
- 先固定解码网络改变编码网络,再固定编码网络再改变解码网络,直至最优解
应用
受限玻尔兹曼机(RBM)
定义
可通过输入数据集学习概率分布的随机生成神经网络
特征
- 限定模型必须为二分图
- 包含对应输入参数的输入(可见)单元和对应训练结果的隐单元,图中的每条边必须连接一个可见单元和一个隐单元
深度置信网络(DBN)
- 分别单独无监督地训练每一层 RBM 网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息
- 在 DBN 的最后一层设置 BP 网络,接收 RBM 的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器
应用
自编码器
定义
- 神经网络的一种,经过训练后能尝试将输入复制到输出,即x=y
- 一个由输入层、隐藏层和输出层组成,使用wake-sleep算法训练的三层神经网络
-
特征
- 自动编码器是数据相关的(data-specific 或 data-dependent),这意味着自动编码器只能压缩那些与训练数据类似的数据
- 自动编码器是有损的,意思是解压缩的输出与原来的输入相比是退化的,MP3,JPEG等压缩算法也是如此
- 自动编码器是从数据样本中自动学习的,这意味着很容易对指定类的输入训练出一种特定的编码器,而不需要完成任何新工作
降噪自动编码器
论文
Extracting and Composing Robust Features
实现
- 在自编码器的基础上,对输入进行类似dropout的操作
- 以一定概率分布(通常使用二项分布)去擦除原始input矩阵,即每个值都随机置0, 这样看起来部分数据的部分特征是丢失了
原理
统计学原理
- 通过与非破损数据训练的对比,破损数据训练出来的Weight噪声比较小
擦除的时候不小心把输入噪声给×掉了
- 破损数据一定程度上减轻了训练数据与测试数据的代沟
一定程度上比较接近测试数据。(训练、测试肯定有同有异,当然我们要求同舍异
神经学原理
- 人类具有认知被阻挡的破损图像能力,此源于我们高等的联想记忆感受机能
就是看到被遮住的图像会自动脑补
- 我们能以多种形式去记忆(比如图像、声音,甚至如上图的词根记忆法),所以即便是数据破损丢失,我们也能回想起来
通过记忆当时所有的相关记忆进行脑补
稀疏自编码器
实现
公式
解释
- 在原本有的损失函数上加入L1约束,使得该神经元的激活概率尽量等于p_hat
- 第一个式子是增函数,第二个是减函数,所以loss最小那个点在p_hat,所以p会尽量趋向于p_hat
概述
在自编码器的基础上加上L1约束,使得隐藏层输出大部分为0
原理
- 对于没有带类别标签的数据,由于为其增加类别标记是一个非常麻烦的过程,因此我们希望机器能够自己学习到样本中的一些重要特征
- 如果我们给隐藏神经元加入稀疏性限制,那么自编码神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中一些有趣的结构
-
论文
1943:A logical calculus of the ideas immanent in nervous activity
理解:
其强大能力主要源自神经网络足够“深”,也就是说网络层数越多,神经网络就更加复杂和深入,学习也更加准确。
输出结果
- 连续型结果:
最后不是用激活函数
- 二分类:
最后使用sigmoid函数
- 多分类:
最后使用softmax函数