Please enable JavaScript.
Coggle requires JavaScript to display documents.
特征工程 (特征获取方案 (如何获取这些特征?, 如何存储?), 特征监控 (特征监控 (监督重要特征-防止特征质量下降,影响模型效果),…
特征工程
特征获取方案
如何获取这些特征?
如何存储?
特征监控
特征有效性分析-特征重要性,权重
特征监控
监督重要特征-防止特征质量下降,影响模型效果
特征处理
特征清洗
清洗异常样本
采样
数据不均衡
样本权重
预处理
多个特征
降维
PCA
LDA
特征选择
Filter
相关系数
卡方检验
思路:自变量和目标变量之间的关联
信息增益,互信息
Wrapper
迭代:产生特征子集,评价
启发式搜索
随机搜索
GA
SA
完全搜索
思路:通过目标函数 (AUC/MSE)来决定是否加入一个变量
Embedded
正则化
L1-Lasso
L2-Ridge
决策树--熵、信息增益
思路:学习器自身自动选择特征
深度学习
衍生变量--对原始数据加工,生成有商业意义的变量
单个特征
归一化
离散化
Dummy Coding
缺失值
数据变换
指数
Box-Cox
log
特征使用方案
要实现我们的目标需要哪些数据?--基于业务理解,尽可能找出对因变量有影响的所有自变量
可用性评估
覆盖度
准确率
获取难度