KNOWLEDGE_Machine Learning

kNN

weight

距離權重,1/r^2

注意

容忍距離: 要多近才選?,同類最遠多遠

k: 跟幾個近,當作同類

特性

inline: 不做模型,當場算,重點在速度,用hash加速

易overfitting

種類少稀疏要考慮權重

ML方法比較baseline

SVM

方法

取離兩類邊界最遠的高維面的中間分隔面,用這個分隔面區分

特性

類別多適合,如一人一類的臉部辨識

資料(N)少特徵(n)多不易overfitting,n>N時,SVM最佳選擇

已有公認版: libsvm

Definition

AI

計算機模仿人類思考進而模擬人類的能力與行為

ML

以非線性的方式從特徵學習來建模型

DL

以多層神經網絡從資料中自動提取模型

監督式

非監督式

半監督式

Objective function/ Loss Function/ Cost function

增強式

有些資料不確定不當沒有,讓機器自己判斷

只有數據沒有標籤

給予數據和標籤

先用大數據pretrain,再藉特定數據特化

根據問題特性,判斷結果好壞:objective, 單一樣本誤差;Cost, 整體誤差; objective, 正規化後的整體誤差

分類: Accuracy, Sensitivity, Specificity, Matthew's Correlation Coefficient (MCC, 比例相差懸殊時用)

回歸: MAE、MSE、RMSE

cross validation

K-fold

將資料切成K分,一份當驗證,用其餘訓練,輪流驗證,取平均準確率,最後用全部資料訓練

leave-one-out

資料很少的狀況下,一個資料驗證,其餘訓練,做完一輪,取平均準確度,最後用全部資料訓練

Error = bias + variance

bias (偏差)

variance (分散)

降低variance: 簡化模型 => underfitting

降低bias: 增加參數、feature => overfitting

降維vs特徵選取

特徵選取

降維,Dimensionally Reduction

N中取k

N個feature用數學函式濃縮成k,但還使要取原本的N個feature,實際應用不大,除非取N跟取k成本相差不大

ensemble

打群架

Random forest

Decision Tree

特性

可擷取知識

Bayes Classifier

特性

知道機率分布佳

Optimization Related Algorithm

最佳化,可用於feature selection、調參數

soft computing

ML,Optimization,fuzzy combination

PCA

method

剪枝

information gain: ID3, C4.5, C5.0

Gini index: CART

X2獨立性檢定: CHAID

kernel function

線性、高斯、多項式

用GA做feature selection

evolutionary learning