Please enable JavaScript.
Coggle requires JavaScript to display documents.
特征工程 (特征使用方案 (可用性评估 (获取难度, 覆盖率, 准确率), 基于业务理解,尽可能找出对因变量有影响的所有自变量), 特征获取方案…
特征工程
特征使用方案
基于业务理解,尽可能找出对因变量有影响的所有自变量
可用性评估
获取难度
覆盖率
准确率
特征获取方案
如何获取
如何储存
特征处理
预处理
多个特征
降维
PCA
LDA
特征选择
Wrapper
迭代:产生特征子集,评价
完全搜索
启发式搜索
随机搜索
GA
SA
思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
Embedded
正则化
L1——Lasso
L2——Ridge
决策树—熵、信息增益
思路:学习器自身自动选择特征
深度学习
Filter
相关系数
卡方检验
思路:自变量和目标变量之间的关联
信息增益、互信息
衍生变量
对原始数据加工,生成有商业意义的变量
单个特征
离散化
Dummy Coding
缺失值
归一化
数据变换
指数
Box-Cox
log
特征清洗
清洗异常样本
采样
数据不平衡
样本权重
特征监控
特征监控
监控重要特征—防止特征质量下降、影响模型效果
特征有效性分析—特征重要性、权重