贝叶斯分类器

贝叶斯决策论

在所有相关概率都已知的情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来i选择最优的类别标记

任务

条件风险

寻找判别准则

使得总体风险最小化

判定准则

为最小还总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记

定义

h*(x) 被称为最优分类器

R(h*) 被称为贝叶斯风险

机器学习的策略

判别式模型

生成式模型

给定x直接建模 P(c | x) 来预测c

先对联合概率分布 P(c, x) 建模，由次获得 P(c|x)

考虑

基于贝叶斯定理

先验概率 × 似然 / 证据因子

如何基于训练数据D估计

先验 P(c)

似然 P(x|c)

极大似然估计

推导与计算

参数对于数据集的似然

条件

假设样本独立同分布

目标

寻找最大化似然的参数值

对数似然

表示训练集D中第c类样本组成的集合

优缺点

估计结果的正确性严重依赖于所假设的概率分布形式是否符合潜在的正式数据分布

使得类条件概率估计变得简单

朴素贝叶斯分类器

思想

属性条件独立性假设

判定准则

对已知类别，假设所有的属性相互独立

训练过程

估计类先验概率 P(c)

为每个属性估计条件概率P(xi | c)

有充足的独立同分布样本

得

离散属性

表示Dc中第i个属性上取值为xi的样本组成的集合

连续属性

考虑概率密度函数

高斯分布为例

拉普拉斯修正

令

N 表示训练集 D中可能的类别数

Ni 表示第 i 个属性可能的取值数

分别修正

先验概率

条件概率

使用技巧

预存分类器涉及的概率估计，预测时查表即可

任务更替频繁，懒惰学习(lazy learning)

数据不断增加，则在现有估值基础上，进行增量学习

半朴素贝叶斯

基本想法

适当考虑一部分属性之间的相互依赖关系

独依赖估计(ODE)

假设每个属性在类别之外最多仅依赖于一个其他属性

SPODE

Super-Parent ODE

1. 假设所有属性依赖于同一个属性(super-parent)

2. 通过交叉验证等模型选择方法确定超父属性

TAN

Tree Augmented Bayes

构建树形结构依赖关系

1. 计算条件互信息

2. 构建完全图

任意亮点之间边权设为

3. 构建生成树

挑选根变量，将边值设为有向

4. 加入类别节点 y，增加从 y 到每个属性的有向边

意义

条件互信息刻画了属性xi和yi在已知类别情况下的相关性

保留了强相关属性之间的依赖性

AODE

思想

1. 尝试将每个属性作为超父来构建SPODE

Averaged One-Dependent Estimator

公式

2. 将那些具有足够训练数据支撑的SPODE集成起来作为最终结果

参数

贝叶斯网

参数

结构

有向无环图(DAG)

条件概率表(CPT)

每个节点对应一个属性
两个属性有直接依赖关系则连接一条边

属性xi在中的父节点为
包含了每个属性的条件概率表

结构

典型依赖关系

同父结构

V型结构

顺序结构

边际独立性

一个变量取值的确定与否，能对另两个变量的独立性发生影响

道德图(moral graph)

转化

找出有向图中的V型结构，在两个父节点之间增加一条无向边

将所有有向边改为无向边

寻找变量间的条件独立性

x 和 y能被集合z分开，即z被去除后，x和y分属两个连通分支

则称x 和y 被 z有向分离

学习

评分函数

评估贝叶斯网和训练数据的契合程度

MDL准则

训练集 D
贝叶斯网B
|B| 是贝叶斯网参数个数
f(θ)表示描述每个参数θ所需的字节数
贝叶斯网的对数似然

求解策略

贪心法

约束网络空间削减搜索空间

推断

通过已知变量观测值来推测查询变量的过程

吉布斯采样

随机产生与证据 E = e一致的样本q0作为起始点

每步从当前样本出发产生下一个样本

得后验概率

马尔科夫链

每一步仅依赖于前一步的状态

EM算法

存在隐变量的模型参数估计

Z为隐变量集，X表示已观测变量集合， Θ为模型参数

求解

对Z求期望，最大化已观测数据的对数“边际似然”

估计参数隐变量的利器

基本思想

E步

若参数Θ已知，则可根据训练数据推断出最优隐变量Z的值

M步

若Z的值已知，方便得对Θ做极大似然估计

迭代步骤

以初始值Θ0为起点

基于Θt推断变量Z的期望，记为 Zt

基于已观测变量X和Zt对参数Θt做极大似然估计，记为Θt+1

计算隐变量Z的概率分布

E步

以当前参数Θt推断隐变量分布 P(Z|X, Θt)

计算对数似然LL(Θ | X, Z)关于 Z 的期望

M步

寻找最大化参数似然

两个步骤交替计算，知道收敛到哦哦局部最优解

非梯度估计算法