KNOWLEDGE_Machine Learning
kNN
weight
距離權重,1/r^2
注意
容忍距離: 要多近才選?,同類最遠多遠
k: 跟幾個近,當作同類
特性
inline: 不做模型,當場算,重點在速度,用hash加速
易overfitting
種類少稀疏要考慮權重
ML方法比較baseline
SVM
方法
取離兩類邊界最遠的高維面的中間分隔面,用這個分隔面區分
特性
類別多適合,如一人一類的臉部辨識
資料(N)少特徵(n)多不易overfitting,n>N時,SVM最佳選擇
已有公認版: libsvm
Definition
AI
計算機模仿人類思考進而模擬人類的能力與行為
ML
以非線性的方式從特徵學習來建模型
DL
以多層神經網絡從資料中自動提取模型
監督式
非監督式
半監督式
Objective function/ Loss Function/ Cost function
增強式
有些資料不確定不當沒有,讓機器自己判斷
只有數據沒有標籤
給予數據和標籤
先用大數據pretrain,再藉特定數據特化
根據問題特性,判斷結果好壞:objective, 單一樣本誤差;Cost, 整體誤差; objective, 正規化後的整體誤差
分類: Accuracy, Sensitivity, Specificity, Matthew's Correlation Coefficient (MCC, 比例相差懸殊時用)
回歸: MAE、MSE、RMSE
cross validation
K-fold
將資料切成K分,一份當驗證,用其餘訓練,輪流驗證,取平均準確率,最後用全部資料訓練
leave-one-out
資料很少的狀況下,一個資料驗證,其餘訓練,做完一輪,取平均準確度,最後用全部資料訓練
Error = bias + variance
bias (偏差)
variance (分散)
降低variance: 簡化模型 => underfitting
降低bias: 增加參數、feature => overfitting
降維vs特徵選取
特徵選取
降維,Dimensionally Reduction
N中取k
N個feature用數學函式濃縮成k,但還使要取原本的N個feature,實際應用不大,除非取N跟取k成本相差不大
ensemble
打群架
Random forest
Decision Tree
特性
可擷取知識
Bayes Classifier
特性
知道機率分布佳
Optimization Related Algorithm
最佳化,可用於feature selection、調參數
soft computing
ML,Optimization,fuzzy combination
PCA
method
剪枝
information gain: ID3, C4.5, C5.0
Gini index: CART
X2獨立性檢定: CHAID
kernel function
線性、高斯、多項式
用GA做feature selection
evolutionary learning