贝叶斯分类器

贝叶斯决策论

在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来i选择最优的类别标记

任务

条件风险

uploaded image

寻找判别准则

uploaded image

使得总体风险最小化

uploaded image

判定准则

为最小还总体风险,只需在每个样本上选择那个能使条件风险uploaded image最小的类别标记

uploaded image

定义

h*(x) 被称为最优分类器

R(h*) 被称为贝叶斯风险

机器学习的策略

判别式模型

生成式模型

给定x直接建模 P(c | x) 来预测c

先对联合概率分布 P(c, x) 建模,由次获得 P(c|x)

考虑

uploaded image

基于贝叶斯定理

uploaded image

先验概率 × 似然 / 证据因子

如何基于训练数据D估计

先验 P(c)

似然 P(x|c)

极大似然估计

推导与计算

参数uploaded image对于数据集uploaded image的似然

条件

假设样本独立同分布

uploaded image

目标

寻找最大化似然 uploaded image的参数值uploaded image

对数似然

uploaded image

uploaded image表示训练集D中第c类样本组成的集合

优缺点

估计结果的正确性严重依赖于所假设的概率分布形式是否符合潜在的正式数据分布

使得类条件概率估计变得简单

朴素贝叶斯分类器

思想

属性条件独立性假设

uploaded image

判定准则

uploaded image

对已知类别,假设所有的属性相互独立

训练过程

估计类先验概率 P(c)

为每个属性估计条件概率P(xi | c)

有充足的独立同分布样本

uploaded image

离散属性

uploaded image

uploaded image表示Dc中第i个属性上取值为xi的样本组成的集合

连续属性

考虑概率密度函数

高斯分布为例

uploaded image

uploaded image

拉普拉斯修正

N 表示训练集 D中可能的类别数

Ni 表示第 i 个属性可能的取值数

分别修正

先验概率

uploaded image

条件概率

uploaded image

使用技巧

  • 预存分类器涉及的概率估计,预测时查表即可
  • 任务更替频繁,懒惰学习(lazy learning)
  • 数据不断增加,则在现有估值基础上,进行增量学习

半朴素贝叶斯

基本想法

适当考虑一部分属性之间的相互依赖关系

独依赖估计(ODE)

假设每个属性在类别之外最多仅依赖于一个其他属性

uploaded image

SPODE

Super-Parent ODE

1. 假设所有属性依赖于同一个属性(super-parent)

2. 通过交叉验证等模型选择方法确定超父属性

TAN

Tree Augmented Bayes

构建树形结构依赖关系

1. 计算条件互信息

uploaded image

2. 构建完全图

任意亮点之间边权设为 uploaded image

3. 构建生成树

挑选根变量,将边值设为有向

4. 加入类别节点 y,增加从 y 到每个属性的有向边

意义

条件互信息uploaded image 刻画了属性xi和yi在已知类别情况下的相关性

保留了强相关属性之间的依赖性

AODE

思想

1. 尝试将每个属性作为超父来构建SPODE

Averaged One-Dependent Estimator

公式

2. 将那些具有足够训练数据支撑的SPODE集成起来作为最终结果

参数

uploaded image

uploaded image

uploaded image

贝叶斯网

uploaded image

参数 uploaded image

结构 uploaded image

有向无环图(DAG)

条件概率表(CPT)

  • 每个节点对应一个属性
  • 两个属性有直接依赖关系则连接一条边
  • 属性xi在 uploaded image中的父节点为 uploaded image
  • uploaded image包含了每个属性的条件概率表uploaded image

结构

典型依赖关系

同父结构

V型结构

顺序结构

边际独立性

一个变量取值的确定与否,能对另两个变量的独立性发生影响

道德图(moral graph)

转化

  • 找出有向图中的V型结构,在两个父节点之间增加一条无向边
  • 将所有有向边改为无向边

寻找变量间的条件独立性

x 和 y能被集合z分开,即z被去除后,x和y分属两个连通分支

则称x 和y 被 z有向分离

学习

评分函数

评估贝叶斯网和训练数据的契合程度

MDL准则

  • 训练集 D
  • 贝叶斯网B
  • |B| 是贝叶斯网参数个数
  • f(θ)表示描述每个参数θ所需的字节数
  • 贝叶斯网的对数似然 uploaded image

求解策略

uploaded image

贪心法

约束网络空间削减搜索空间

推断

通过已知变量观测值来推测查询变量的过程

吉布斯采样

  • 随机产生与证据 E = e一致的样本q0作为起始点
  • 每步从当前样本出发产生下一个样本
  • 得后验概率 uploaded image

马尔科夫链

每一步仅依赖于前一步的状态

EM算法

存在隐变量的模型参数估计

uploaded image

Z为隐变量集,X表示已观测变量集合, Θ为模型参数

求解

Z求期望,最大化已观测数据的对数“边际似然”

uploaded image

估计参数隐变量的利器

基本思想

E步

若参数Θ已知,则可根据训练数据推断出最优隐变量Z的值

M步

若Z的值已知,方便得对Θ做极大似然估计

迭代步骤

  • 以初始值Θ0为起点
  • 基于Θt推断变量Z的期望,记为 Zt
  • 基于已观测变量XZt对参数Θt做极大似然估计,记为Θt+1

计算隐变量Z的概率分布

E步

以当前参数Θt推断隐变量分布 P(Z|X, Θt)

计算对数似然LL(Θ | X, Z)关于 Z 的期望

M步

寻找最大化参数似然

uploaded image

两个步骤交替计算,知道收敛到哦哦局部最优解

非梯度估计算法