Please enable JavaScript.
Coggle requires JavaScript to display documents.
特征工程 (1.数据预处理:preprocessing (1.1 问题 (量纲不同,特征规格不同, 信息冗余, 定性特征而非定量, 缺失值,…
特征工程
1.数据预处理:preprocessing
1.1 问题
量纲不同,特征规格不同
信息冗余
定性特征而非定量
缺失值
信息利用率低
1.2 解决办法
1.2.1 无量纲化
标准化
归一化
1.2.2 特征二值化:Binarizer
1.2.3 OneHot编码:OneHotEncoder
1.2.4 缺失值计算:Imputer
1.2.5 数据变化
特征选择:feature_selection
2.1 问题
特征是否发散,考虑方差
特征与目标的相关性
2.2 解决办法
Filter
方差选择法:VarianceThreshold
相关系数法:pearsonr,SelectKBest
卡方检验
互信息法
Wrapper
递归特征消除
Embedded
基于惩罚项的特征选择:SelectFromModel
基于树模型的特征选择:GradientBoostingClassifier
降维:decomposition
主成分分析:PCA
线性判别分析:LDA