Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lec 8, Predictive Analytics(预测分析), Summary - Coggle Diagram
Lec 8
Predictive Analytics(预测分析)
预测模型基本概念(Predictive Analytical Model)
Regression 回归 连续数值
预测房价、体重、温度
预测房屋面积为X时价格是多少(数值)
Classification 分类 离散类别
预测是否违约、是否离职、是否患病
预测客户是否会流失(是/否)
预测分析流程(Predictive Analytics Process)
理解问题场景与数据代表性
特征选择与预处理(如缺失值、异常值)
数据划分(训练集、验证集、测试集)
模型构建(Logistic 回归、决策树等)
性能评估(准确率、AUC、精度等)
模型部署与解释
训练与验证(Training vs Testing)
训练集(Training Set):用于拟合模型
验证集(Validation Set):用于调参与选择最佳配置
测试集(Test Set):用于最终评估泛化能力
Underfitting vs Overfitting
欠拟合 Underfitting 模型太简单,学习不足 训练集表现差
过拟合 Overfitting 模型太复杂,学了太多“噪声” 测试集表现差
评估方法(Evaluation Methods)
Simple Split 通俗快速,但结果依赖一次划分
Random Subsampling 多次划分,计算平均误差
K-Fold Cross Validation 通用方法,推荐十折交叉验证
Leave-One-Out 每次留一观察做测试,适用于小样本
性能评估指标(Performance Metrics)
回归模型
MSE(Mean Squared Error)
R² 决定系数:解释目标变量变异程度(如 R² = 0.7 表示解释70%变异)
分类模型
混淆矩阵 Confusion Matrix
指标
Accuracy 正确预测 / 总样本
Precision TP / (TP + FP)
Recall TP / (TP + FN)
F1 Score 平衡 Precision 与 Recall 的调和平均
AUC-ROC 越高越好,0.5为随机,1为完美分类
Precision-Recall Curve 用于样本极度不平衡时更准确反映模型性能
线性回归(Linear Regression)
用于预测连续变量
参数 b₀ 为截距,b₁ 为斜率
最小二乘法(Least Squares)用于拟合线性函数
例子
预测房价:房价 = 截距 + 面积 × 斜率
分类方法(Classification Methods)
Logistic Regression
预测概率 → 映射到 0~1 之间
使用 Sigmoid 函数
应用于“是/否”问题,如是否购买产品
Decision Trees 决策树
根据特征逐层分裂
易解释,适用于非线性关系
缺点:容易过拟合
分类变量处理(Dummy Coding)
类别变量(如性别、季节)不能直接进入回归模型
需转换为虚拟变量(dummy variables)
如“季节”有4类 → 创建3个新变量(g-1原则)
Summary
回归 vs 分类
输出类型 + 应用场景
分析流程
训练-验证-测试划分 + 交叉验证
偏差方差权衡
欠拟合 vs 过拟合
模型评估指标
Accuracy, Precision, AUC, R² 等
回归模型计算
Least Squares 法、公式应用
分类方法对比
Logistic vs Tree
Dummy Coding
类别变量转换