Please enable JavaScript.
Coggle requires JavaScript to display documents.
特徵工程 (特徵使用方法 (可用性評估 (獲取難度, 覆蓋率, 準確率), 要實現我們的目標需要哪些數據? (基於業務理解, …
特徵工程
特徵使用方法
要實現我們的目標需要哪些數據?
基於業務理解,
盡可能找出對因變量有影響的所有自變數。
可用性評估
獲取難度
覆蓋率
準確率
特徵獲取方式
如何獲取這些特徵?
如何儲存?
特徵處理
預處理
單個特徵
正規化
離散化
Dummy Coding
缺失值
數值轉換
Log
指數
Box-Cox Transformations
多個特徵
降維
主成分分析(Principal Component Analysis, PCA)
線性區別分析(Linear Discriminant Analysis, LDA)
特徵選取
Filter
思路:自變量與目標變量之間的關聯
相關係數
卡方檢定
信息增益、互信息(Information gain)
封裝器(Wrapper)
思路:通過目標函數(AUC/MSE)來決定是否加入此變數
迭代:產生特徵子集,並予以評價。
完全搜索
啟發式搜索
隨機搜索
基因 / 遺傳演算法(Genetic Algorithm, GA)
[1]
[2]
[3]
模擬退火法(Simulated Annealing, SA)
人工蜂群(Artificial Bee Colony, ABC)
粒子群最佳化(Particle Swarm Optimization, PSO)
整合方法(Embeded)
思路:學習器自動選取特徵
正則化
:
[Regularization]
/
[Dropout & others]
L1 (Lasso)
L2 (Ridge)
決策樹(Decision Tree)/隨機森林(Random Forest)
深度學習(Deep Learning)
衍生變量:對原始數據加工,生成有「專業意義」的變量
特徵清洗
清洗異常樣本
採樣
數據不均衡
樣本權重
特徵監控
特徵有效性分析
特徵重要性、權重
特徵監控
監控重要特徵
防止特徵效果下降,影響模型效果