确定输出

1.确定输出单元

用于Multinoulli输出分布的softmax单元

定义及特征

需要表示n个可能取值的离散型随机变量的分布
负对数似然代价函数总是强烈地惩罚最活跃的不正确预测
softmax与神经科学中相邻神经元间的侧抑制类似

公式

$\hat{y}=softmax(z)_i=\frac{\exp(z_i)}{\sum_{j}\exp(z_j)}$

$$z=\sigma(\omega^\top+b)$$

用于高斯输出分布的线性单元

定义

需要预测线性变量
一种简单的输出单元是基于仿射变换的输出单元，仿射变换不具有非线性

公式

$$\hat{y}=W^\top h+b$$

用于Bernoulli输出分布的sigmoid单元

定义及特征

预测二值型变量

公式

$$z=\sigma(\omega^\top+b)$$

$$\hat{y}=\sigma(z)=\frac{1}{1+\exp(-z)}$$

2.设计损失函数（Loss Function）

定义

一种衡量损失和错误（这种损失与“错误地”估计有关，如费用或者设备的损失）程度的函数

种类

分类问题

最大似然估计

总体中抽样的方式，对总体的概率分布的参数进行一个点对点的估计，就是从样本的概率分布估计出总体的概率分布

信息论

自信息

概述

从概率观测到一个事件获得的信息量

公式

$$I(x)=-\log P(x)$$

香农熵

概述

对整个概率分布中的不确定性总量
当x是连续的，香农熵被称为微分熵

公式

$$H(x)=-\sum_{i=1}^nP(x)\log P(x)$$

交叉熵

概述

用于度量两个概率分布间的差异性信息

公式

$$H(p,q)=\sum_i p(x) *\log(\frac{1}{q(x)})$$

回归问题

L1范数

描述

预测值与真实值之差的绝对值
因为L1范数在误差接近0的时候不平滑，所以比较少用到这个范数

公式

$$cost=\sum_i^n|y-\hat{y}|$$

L2范数

描述

预测值与真实值均方差 MSN

公式

$$cost=\sum_i^n\sqrt{(y-\hat{y})^2}$$

指导思想

概述

代价函数的本质，制定你想模型达到的目标，当代价函数的目标和你的目标不一致时：修改代价函数
损失函数用于确定靶心

例子

图片搜索，搜索猫，可能会出现黄色图片，但这在现实生活中是不允许的，所以我们就需要告诉模型不要输出黄色图片，我们需要人为的加重黄色图片在代价函数中权重

原因

如果直接使用输出求导时，sigmoid的饱和性会阻止基于梯度的学习做出更好的改进
存在多个局部最优点

其他的输出类型

最大似然原则给如何为几乎任何种类的输出层设计一个好的代价函数提供了知道
乘法、加法和对数运算的梯度表现良好，触发函数在零附近会变得任意陡峭，平方运算的梯度可能在零附近消失

3.制定学习策略

基本算法

不使用梯度下降的情况

正规方程

线性回归特有方法
定义
最小二乘法可以将误差方程转化为有确定解的代数方程组（其方程式数目正好等于未知数的个数），从而可求解出这些未知参数。

梯度下降

学习和纯优化

区别

学习是指关心测试集上的性能度量P，并且通过优化训练集的J见解提高P
纯优化是最小化训练集的J本身

经验风险最小化

原因

我们通常是不知道真实样本，只知道训练集中的样本
所以不直接最优化风险，而是最优化经验风险，希望也能最大地降低风险

定义

基于最小化平均训练误差的训练过程被称为经验风险最小化
基于最小化平均实际误差的训练过程被称为经验风险最小化

代理损失函数

定义

作为原目标函数的代理

原因

我们真心关心的损失函数(比如分类误差)并不能被高效地优化，甚至不可导

优点

负对数似然允许模型估计给定样本类别的条件概率，而不是直接分类
能拉开不同类别的距离以改进分类器的鲁棒性

神经网络优化中的挑战

病态

体现在随机梯度下降会“卡”在某些情况，此时即使很小的更新步长也会增加代价函数

局部最小值

模型可辨识性

定义

由于模型可辨识性问题，神经网络和任意具有多个等效参数化潜变量的模型都会具有多个局部极小值
带有潜变量的模型通常是不可辨认的，因为通过相互交换潜变量我们能得到等价的模型(例如同一层的i和j神经元是可以交换的)
这种不可辨识性被称为权重空间对称性

影响

对于足够大的神经网络而言，大部分局部极小值都具有很小的代价函数，我们能不能找到真正的权举最小值并不重要

高原、鞍点和其他平摊区域

概述

低维空间中，局部极小值很普遍。在更高维空间中，局部极小值很罕见，而鞍点则更常见(就像掷硬币，只有n维的都一面朝上才会有极小和极大值，高维了掷的次数多了就更难了)

解决办法

通过分析来表明连续的时间的梯度下降会逃离而不是吸引到鞍点

悬崖和梯度这段

原因

当参数接近悬崖时，梯度下降更新可以使参数弹射得非常远，可能会使大量已完成的工作成为无用功

解决办法

梯度截断

长距离依赖

原因

由于变深的结构是模型丧失学习到先前信息的能力，让优化变得极其困难导致的梯度爆炸和梯度消失问题