概率与信息论

信息论

使用基本思想量化信息

  • 非常可能发生的时间信息量要比较少,并且极端情况下,确保能够发生的时间应该没有信息量
  • 较不可能发生的事件具有更高的信息量
  • 独立事件应具有增量的信息(两次硬币为正的信息量要比一次为证的信息量大)

基本想法

一个不太可能的时间居然发生了,就要比一个非常可能的时间发生,能提供的更多的信息

概述

主要研究的是对一个信号包含信息的多少进行量化

自信息

单个事件所含信息量
I(x)=logP(x)

香农熵

对整个概率分布中的不确定性总量进行量化,其实就是概率乘以自信息的数学期望
$$H(x)=-\sum_x P(x)\log_2P(x)$$

KL散度(相对熵)

定义

两个概率分布间差异的非对称性度量


$$\sum_x P(x)\log_2 \frac{P(x)}{Q(x)}$$

交叉熵

定义

在已知真实分布的p前提下,非真实分布q和p的差异性信息


$$H(P,Q)=H(P)+D_{KL}(P||Q)=\sum_xP(x)*\log_2(\frac{1}{Q(x)})$$

贝叶斯规则

常见概率分布

正态分布(高斯分布)

特点

原因

  • 我们想要的建模的很多分布的真实情况是比较接近正态分布的
  • 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性(就是随机性最大)

概述

当缺乏某个实数上分布的先验知识而且不知道选择什么样的形式时,采用正态分布是一个明智的选择

标准正态分布

平均值为0,标准差为1

范畴分布(Multinoulli)

具有k个不同状态的单离散型随机变量上的分布,其中k是一个有限值(有多个类,但每个只属于其中一个类)

伯努利分布(Bernoulli)

单个二值随机变量的分布(要么0要么1)

指数分布

公式

$$p(x;\lambda)=\lambda1_{x\geq0} * exp(-\lambda x)$$

说明

指示函数$$1_{x\geq0}$$表示当x取负值时的概率为零

Laplace分布

公式

$$Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp(- \frac{|x-\mu|}{\gamma})$$

说明

因为exp内的0可以由mu控制,所以它允许我们在任意一点设置概率质量的峰值

狄拉克分布(Dirac分布)和经验分布

不知道有什么用,也不太懂什么意思,所以先不写

分布的混合

定义

通过组合一些简单的概率分布来定义新的概率分布

混合分布

样本是由哪个组件分布产生的取决于从一个Multionoulli分布中采样的结果
$$P(x)=\sum P(c=i)P(x|c=i)$$

概率分布

连续性随机变量和概率密度函数

  • 连续性随机变量可以用概率密度函数表示
  • 概率密度函数p(x)并没有直接对特定的状态给出概率,相对的,它给出了落在面积为delta x的无限小的区域内的概率为p(x)的积分
  • 如果积分公式为f(x),那么p(x)和f(x)的关系为:p(x)是f(x)的导数。几何上的意义为x*y,从而计算面积

离散型变量和概率质量函数

  • 离散型变量的概率分布可以用概率质量函数来描述
  • 概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率
  • 概率质量函数可以同时作用于多个随机变量

定义

描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。概率分布的方式取决于随机变量是离散的还是连续的

随机变量

条件独立性

如果关于x和y的条件分布对于z的每一个值都可以写成乘积的形式,那么这两个随机变量x和y在给定随机变量z使是条件独立的

独立性

两个随机变量x和y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含想,另一个因子只包含y

特征

  • 一个随机变量只是对可能的状态的描述
  • 它必须伴随着一个概率分布来指定每个状态的可能性
  • 随机变量可以是离散的或者连续的。离散随机变量拥有无限或者可数无限多的状态

定义

是可以随机地取不同值的变量

分类

  • 频率派概率

    概率直接与事件发生的频率联系(投掷硬币)

  • 贝叶斯概率

    涉及确定性程度(医生看病觉得病人患病的概率)

为什么要使用概率

原因

  • 机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定性的)量
  • 使用一些简单而不确定的规则要比复杂而确定的规则更为使用(如果怎么而且怎么再怎么样就补回来吃饭了:很大可能回来吃饭)

不确定性的来源

  • 被建模系统内存在随机性(投掷硬币)
  • 不完全观察(画鬼脚的线路是确定的,但没观察到怎么画,也不知道结果)
  • 不完全建模(也许天气是可以预测的,但因为计算量的问题,不能把所有计算量都计入在内,所有就导致了不完全建模)

作用

  • 概率法则告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的表达式
  • 可以用概率和统计从理论上分析我们提出的AI系统的行为

边缘概率

定义

在子集上的概率分布被成为边缘概率分布

求值的方法

  • 离散型随机变量使用求和法
  • 连续性随机变量使用积分代替求和

条件概率

链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式

定义

某个时间在给定其他事件发生时出现的概率

说明

不要把“条件概率”和计算当采取“某个动作”后发生什么相混淆

  • “条件概率”:(假定(注意整个词)某人说德语,那么他是德国人的概率)
  • 干预查询(“某个动作”):认为主动的干预某些变量的值,因此可能完全改变整个后果,应用于诊断、治疗、市场、政策的制定和科学发现(随机选择(注意这个词)的一个人会说德语,他的国籍是德国的概率)

期望、方差和协方差

期望

定义

当x由P产生,f作用于x时,f(x)的平均值

例子

  • x:骰子的分布1-6
  • P(x):骰子分布的概率
  • f(x):制定的游戏规则,大于3为1,其余为0
    期望:0.5

方差

对x依据它的概率分布进行采样时,随机变量x的函数呈现多大的差异

协方差

定义

给出两个变量线性相关性的强度以及这些变量的尺度

特点

只能衡量线性的相关性

相关定义

相关系数

将每个变量的贡献归一化,为了只衡量变量的相关性而不受各变量尺度大小的影响

独立性

比零协方差的要求更强,因为独立性还排除了非线性的关系

协方差矩阵

一个nxn的矩阵,并且满足协方差矩阵的对角元是方差

常用函数

  • sigmoid函数
  • softplus函数:来自relu函数的平滑

结构化概率模型

前提

机器学习的算法经常会涉及非常多的随机变量上的概率分布,但直接相互作用都介于非常少的变量之间。

做法

把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布
$$p(a,b,c)=p(a)p(b|a)p(c|b)$$

定义

用图来表示概率分布的分解时,我们把它称为结构化概率模型