Please enable JavaScript.
Coggle requires JavaScript to display documents.
Kaggle教戰 (特徵工程 (基本數值特徵處理 (要對處理的資料有了解,選適當工具) (Rounding (非Tree-Based的),…
Kaggle教戰
特徵工程
Label Encoder
(特徵性質具群聚性,類比轉數字型的)
One Hot Encoder
(特徵性質較無群聚性)
Matrix-Factorization
矩陣分解
Embedding
Likelihood Encoding
Regularization
K-Fold做Target Encoding
使用Smoothing
加入雜訊,but RISKY
基本數值特徵處理
(要對處理的資料有了解,選適當工具)
Rounding
(非Tree-Based的)
Interactions
(針對決策樹類型)
(+,-,*,/,XOR)
列統計量
列相似性
Auto Encoder
Leaf Encoding
Rank Gauss
LASSO
模型驗證
驗證策略
(依照資料量選擇最適者)
Hold-Out (千萬筆以上)
KFold (大量資料,千萬筆以下)
Leave One Out(資料量極少)
Time Series Moving Window Validation
(資料量大->抓出週期性,資料量小->抓出短期趨勢)
Ensemble集成
Blending
(用預測結果)
訓練不同模型,把結果加權
組合的前提: Metric是否為Convex
Thumb of Rule
Stacking
(預測結果為新特徵)
Simple Hold Out Scheme
Stack Net
任何模型
沒Back Propagation
預處理
修復缺失值
使用XGB
修復不合理數值
(逐一修正)
使用最可能的值去填充
(進階式作法)
Nearest-Neighbor
Neural Network
Linear Regression
使用屬性平均、中位數
人工填寫
忽略變數值
離群值處理
資料正規化
(針對連續型的數據)
非線性轉換,可把outlier相對距離拉近
吳老師機率統計Part2
Box-Cox-transform
rankdata
Log-transform
Min-Max 為線性轉換
無法拉近outlier,於事無補
群聚分析
直接刪除