Please enable JavaScript.
Coggle requires JavaScript to display documents.
统计学习 (模型 (支持向量机 SVM p110 (线性可分SVM p111 (对偶算法 dual algorithm p118…
统计学习
模型
-
-
-
-
-
如何高效找出k近邻数据点?
-
-
创建:
- 构造根结点,选择x(1)为坐标轴,以所有数据在该轴上数值的中位数切分出两个子区域
- 根结点包含落在切分面上的数据点
- 重复切分步骤,在深度为j的节点选择x(l)为轴,l = (j mod k) + 1
- 重复直到切分出的两个子区域都没有节点
搜索:
- 从根出发找出包含目标点的叶结点
- 以此叶结点为当前最近点
- 递归地向上回退,在每个节点:
3.a 若该点保存的数据点离目标更近,重置该节点为当前最近点
3.b 当前最近点一定存在于该节点一个子节点对应点区域,检查另一个子节点的区域是否覆盖更近的区域,若覆盖则搜索该子节点
-
-
-
模型学习的最优化算法
improved iterative scaling p104
设当前参数向量为w = (w0,w1,w2,...wn)
重复寻找w+d = (w0+d0,w1+d1,...wn+dn)使模型的对数似然函数值增大,直到找到最大值
-
-
假设全部特征相互独立,由训练数据推测X和Y的联合概率分布P(X,Y),然后基于此分布对给定输入x计算后验概率最大的输出y
-
-
-
单调性相同所以可以替换
-
常见算法
-
-
-
-
-
R2值比较模型好坏
NumPy.corrcoef(yHat, y, rowvar=0)
-
-
-
-
-
-
-
提升方法 boosting p153 机器学习实战p118
-
以decision tree为基函数的boosting
-
梯度提升 gradient boosting p166
利用损失函数的负梯度在当前模型的值作为回归提升树中的残差值,拟合一个回归树
-
-
基本概念
-
统计学习三要素
-
策略
-
-
cost-sensitive learning 机器学习实战p134
通过对TP, TN, FP, FN定义cost,使训练算法倾向于代价较小的模型
算法
-
-
-
-
-
模型类型
生成模型 generative model
从数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X), P(Y|X) = P(X,Y) / P(X)
-
可以还原出联合概率分布P(X,Y), 收敛速度更快,适用于隐变量
-
-
-
-
-
联合概率分布
-
训练数据和测试数据被看作依联合概率分布P(X,Y)独立同分布产生的
-
-
高斯混合模型
其中
工具
数据降维
-
-
-
Singular Value Decomposition 机器学习实战p256
-
-
中间的矩阵只有对角元素有非零值,为奇异值Singular Value,惯例是从大到小排列,在某个数量过后的奇异值都为0,表示对应的数据是噪声或冗余
-
-