Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lec 9, Classification Algorithms(分类算法), Summary - Coggle Diagram
Lec 9
Classification Algorithms(分类算法)
逻辑回归 Logistic Regression
核心
用于预测二分类(Y=0或1)
基于Sigmoid 函数,将输出映射为概率
特征
Linear Regression
输出类型:连续数值
应用场景:房价预测等
Logistic Regression
输出类型:类别概率(0-1)
应用场景:客户是否流失
图形理解
每个点都是真实为0或1
模型输出的是“在该特征值下为1的概率”
回归线呈S型(非线性)
决策树(Decision Trees)
找一个特征,把数据“分裂”成最能区分目标变量的组
对每组继续重复分裂,直到
所有样本纯净(只有一个类)
没有更多特征可用
决策树参数(超参数 Hyperparameters)
Max Depth 树最大深度
Min Samples Split 内部节点最小样本数
Min Samples Leaf 叶子节点最小样本数
Max Features 每次分裂考虑的最大特征数
Criterion 分裂标准:Gini指数或熵(Entropy)
Pruning 剪枝,避免过拟合
决策树优缺点分析
优点
易解释、可视化好
构建快速,预测快
适合非线性关系
不需标准化或归一化处理
缺点
易过拟合(尤其深树)
每次只基于一个特征分裂,忽略交互效应
不适合复杂连续变量分界
集成方法一:随机森林(Random Forest)
多棵“弱”决策树的集合,每棵树训练在不同子样本和子特征集上
使用多数投票或平均预测
更稳定、抗过拟合、泛化能力强
集成方法二:XGBoost(Extreme Gradient Boosting)
基于梯度提升思想构建多个弱分类器
每次新树专门学习前面模型的错误
精度高,广泛用于Kaggle竞赛、工业界
优点
更好精度
内建正则化,防止过拟合
可并行
分析实际挑战(Major Challenges)
特征选择 不相关变量会误导模型(Garbage in → Garbage out)
数据质量 缺失、异常、错录
类别不平衡 如99%都是“非欺诈”,模型预测全是0也很高准确率
数据泄漏 模型“提前”知道测试集信息
复杂度高 算法过慢、资源消耗大
模型可解释性 黑箱模型难以信服或审计
偏见与责任 公平性、责任归属问题(如AI判案)
Summary
Logistic 回归
Sigmoid函数、S型输出、0/1分类
决策树算法
分裂逻辑、停止条件、超参数
随机森林原理
投票机制、优势、避免过拟合
XGBoost
提升法、正则化优势
Gini vs Entropy
数据泄漏、不平衡、特征选择