Please enable JavaScript.

Coggle requires JavaScript to display documents.

Data problem process (Preprocessing (Missing value（缺失值） (根据情况填充NaN, 用-999…

- - - - To mean=0,std=1
        
        (x-mean)/std
        
        sklearn.preprocessing.StantardScaler
      - To[0,1]
        
        sklearn.preprocessing.MinMaxScaler
        
        (x-min)/(max-min)
      - 缩短值之间的相对间隙
        
        Log transform: np.log(1+x)
        
        Raising to the power < 1 : np.sqrt(x)
        
        1、常用于neural network
        2、一定程度上处理了outliers
      - 基于树的模型并不依赖scaling
        但非基于树的模型非常依赖
    - - 用rank代替原数据
        
        scipy.stats.rankdata
      - Winsorization(缩尾处理): clip取data range中的主要部分（如99%）
    - - prior knowledge
      - exploratory data analysis
        
        eg: 把数值特征小数点后的部分拿出来做一列新特征，往往能区分人机操作
  - - - Alphabetical:[S,C,Q]->[2,1,3]
      - Order of appearance:[S,C,Q]->[1,2,3] （ :red_flag:ordinal features着重采用）
      - Frequency encoding：[S,C,Q] -> [0.5,0.3,0.2]
      - 通常在tree-based 模型表现好一些，但不绝对
      - 目标依赖feature的线性关系的时候，表现比OHE好
    - - 原特征：
        pclass: [1,2,1,3]
        根据其三种类别转化为3个特征：
        pclass==1: [1,0,1,0]
        pclass==2: [0,1,0,0]
        pclass==3: [0,0,0,1]
        
        可以用稀疏矩阵存储
      - pandas.get_dummies
        sklearn.preprocessing.OneHotEncoder
      - 可以多个此类特征联合热编码
      - 通常在non-tree-based 模型表现好一些，但不绝对
      - category较多的时候，建议使用Label encoding。(特别是tree-based model,因为在RF这样的算法中，其他non-categorical features会很少被用到)
  - - - feature_cnts = train.nunique(dropna = False)
        constant_features = feature_cnts.loc[feature_cnts==1].index.tolist()
        traintest.drop(constant_features, axis=1, inplace=True)
- - - - Scatter plot
      - scatter matrix
      - Corrplot
    - - Corrplot+clustering
      - Plot(index vs feature statistic)