Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lec 7, Clustering & Data Preparation, Summary - Coggle Diagram
Lec 7
Clustering & Data Preparation
Analytics 类型与机器学习模式(Analytical Landscape)
Descriptive 描述性 用于探索现象,如聚类、可视化
销售走势、用户分群
Diagnostic 诊断性 推断关系、分析原因
回归分析找出影响利润的因素
Predictive 预测性 基于历史数据预测未来
分类预测客户是否流失
Prescriptive 处方性 给出最佳行动建议
强化学习、最优化路径决策
学习模式
Supervised(有监督学习):有Y值,如分类、回归
Unsupervised(无监督学习):无Y值,目标是发现数据结构,如聚类
数据准备(Data Preparation)
变量类型(Data Types)
定类变量 Nominal:如性别、城市(不可排序)
定序变量 Ordinal:如满意度(可排序)
数值变量 Quantitative:连续型(如收入)或离散型(如子女数)
预处理任务
缺失值处理 删除、均值填补、预测填补
异常值检测 IQR方法、3σ原则、可视化检查
假预测变量 如预测年龄却用“出生年份”变量
正态化/标准化 归一到0-1区间,避免某些变量主导距离计算
特征工程 One-hot编码、变量转换(log、sqrt)等
聚类分析(Clustering)
聚类目标
将数据划分为相似组(Clusters),组内相似度高,组间差异大
无需标签(无监督)
常见用途
用户画像、异常检测、精准营销、推荐系统、预处理
聚类算法分类与对比
分区式 K-Means 快速,需指定K
层次式 Agglomerative/Divisive 生成树状图(Dendrogram),无需预设K
密度式 DBSCAN 不需K,能识别异常值,处理非球形聚类好
K-Means 详细步骤
随机选取K个初始质心
计算每个点到质心的距离,归入最近的质心
K的选择方法
使用
SSE(平方误差和)
分析
Elbow Method:找“SSE陡降转缓”拐点
更新每个簇的质心
重复步骤2-3,直到收敛
层次聚类(Hierarchical Clustering)
Agglomerative 底向上:每个样本独立 → 合并成簇
Divisive 顶向下:所有样本一个簇 → 分裂
可视化工具:Dendrogram(树状图)
横轴为样本,纵轴为合并距离
看哪个高度分裂异质性急剧增加 → 建议聚类数目
距离计算方法(Distance Measures)
欧几里得距离(L2) 默认直线距离 √((x1 - x2)² + (y1 - y2)²)
曼哈顿距离(L1) 横+纵之和
Ward Linkage 最小化类内平方和
完全连接(Complete) 两簇间最远距离
平均连接(Average) 两簇间所有点距离的平均值
距离影响聚类结果,一定要先归一化变量!
DBSCAN 密度聚类
自动确定聚类数
参数:ε(半径)、minPts(最小点数)
可识别噪声、不规则簇
聚类评估
解释性 + 业务意义更重要
典型指标:Silhouette Coefficient
值域[-1, 1],越高表示聚类效果越好
但不能盲信!需结合可视化与业务逻辑判断
后处理(Post-Processing)
删除小簇(异常点)
合并临近簇
拆分过宽簇
结合K-means与层次聚类:先用层次法估算K,再用K-means聚类
Summary
分析类型分类
描述-诊断-预测-处方
数据准备
缺失值、异常值、标准化
聚类类型对比
K-means vs 层次 vs DBSCAN
K-means流程
质心初始化、距离计算、收敛
Dendrogram解析
如何选K?
聚类评估
Silhouette Score + 解释性
距离度量方法