线性模型
基本形式
给定由d个属性描述的示例 x = (x1; x2; ...; xd),其中xi 是 x 在第 i 个属性上的取值,线性模型(linear model)试图通过学得一个通过属性的线性组合来进行预测的函数
许多功能强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。
线性回归
线性回归目的
“线性回归” 试图学得一个线性模型以尽可能准确得预测实值输出标记。
给定数据集 D = {(x1, y1), (x2, y2), ..., (xm, ym)},其中 xi = (xi1; xi2; ...; xi3),yi ∈ R。
试图学得 f(xi) = w * xi + b,使得 f(xi) ≈ yi
线性回归要点
离散属性连续化
属性间存在“序”(order),则通过连续化转化为连续值
不存在序关系,假定有k个属性,则通常转换为 k 维向量
最小二乘法
均方误差(square loss, 平方损失)
基于 均方误差最小化 来进行模型求解的方法
试图找到一条直线,使所有样本到直线的欧氏距离之和最小
(w, b) = arg minΣ(f(xi) - yi)^2 = arg minΣ(yi - wxi - b)^2
多元线性回归
样本由d个属性描述, 可将数据集 D 表示为一个 m*(d+1) 大小的矩阵 X
X^T * X 为满秩矩阵或正定矩阵时,
X^T*X 并不满秩,解得多个 w 均可使均方误差最小化,此时应引入正则化(regularization)项
线性回归拓展
对数几率回归
令模型预测值逼近 y 的衍生物
考虑单调可微调函数 g(·),令这样得到的模型称为“广义线性模型”
对数几率函数(logistic function)
图像:
公式:
转化
将y视为正例的可能性,1-为反例的可能性,则y/(1- y) 称为几率(odds),ln(y / (1- y)) 为对数几率
确定 w 和 b 的方法
基石:将y视为类后验概率
具体求解
1. 极大似然法(maximum likelihood method)
2. 似然项重写
给定数据集 {xi, yi},对率回归模型最大化“对数似然”(log-likelihood)
3. 等价于
4. 数值优化算法求最优解
梯度下降法(gradient descent method)
牛顿法(Newton method)
线性判别分析(LDA)
思想
训练
测试
方法
基础
异类样本尽可能远
给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能近、异类点尽可能远
将新样本投影到训练出的直线上,根据投影点的位置确定新样本的类别
最大化目标
同类样本尽可能近
异类样例的投影点尽可能远
同类样例点协方差尽可能小
类内散度矩阵
类间散度矩阵
广义瑞丽商
求解方法
分子分母为二次型
拉格朗日乘子法
对Sw奇异值分解
推广到多任务
定义
全局散度矩阵
类内散度矩阵
类间散度矩阵
方法
优势
数据同先验,满足高斯分布时且协方差相等
被视为经典的监督降维技术
优化目标
W是 d * (n-1) 矩阵
tr(·)表示矩阵的迹(trance)
通过广义特征值求解
LDA可达到最优分类
多分类学习
一对一(OvO)
一对其余(OvR)
多对多(MvM)
训练
测试
训练
测试
仅有一个分类器测试为正类,则对应类别标记为最终分类结果
多个分类预测为正类,选择置信度最大的类别标记作为最终结果
每次将若干个类作为正类,若干个其他类作为反类
优缺点
优缺点
将N个类别两两配对,产生N(N-1)/2个二分
新样本提交给所有分类器,得到N(N-1)/2个分类结果,最终结果投票产生
存储开销和测试时间开销大,但训练开销时间小
每次将一个类作为正例,其余类作为反例训练N个分类器
存储开销和测试时间开销小,但训练时间开销大
技术方法
ECOC(Error Correcting Output Codes, 纠错输出码)
DAG(Directed Acyclic Graph, 拆分法)
类别不平衡问题
class-imbalance
分类任务中不同类别的训练样例数目差别很大
解决
欠采样
过采样
阈值移动
undersampling
去除一些反例使得正反例数目相同
oversampling
增加一些正例使正、反例数目相同
threshold-moving
click to edit
再缩放
rescaling
推得
代价敏感学习(cost0sensitive learning)