ML

監督式學習/含有解答的資料

分類/識別/答案是:離散值/Cross-entropy Error

回歸/答案是:連續值/Mean-square Error

非監督式學習/補抓資料特徵

集群分析(clustering)/分群

階層式集群分析

非階層式集群分析

K-mean 法

維度縮減 (dimensionality reduction)/降維

監督式學習

隨機森林 : 分類 / 迴歸

kNN : 分類 / 迴歸

線性回歸 + 正則化 : X / 迴歸

SVM (Kernel) : 分類 / 迴歸

單純貝氏分類器 : 分類 / X

類神經網路 : 分類 / 迴歸

邏吉斯迴歸 : 分類 / X

非監督式學習

降維

分群

NMF

LDA

LSA

LLE

PCA

t-SNE

k-means

高斯混合分佈

線性迴歸

分類

正則化(懲罰項) -。
迴歸係數異常大

損失函數

多元迴歸 : 2 個以上獨立解釋變數

多項式迴歸 : 1 個獨立解釋變數 + n 次方

簡單線性迴歸 : 1 個獨立解釋變數 | 最小平方法

L2 正則 : Ridge regression

L1 正則 : Lasso 迴歸

Overfitting

robust regression : RANSAC (隨機取樣一致法) -> 存在離群值

羅吉斯迴歸

Sigmoid 函數

Decision Boundaries

損失函數 = Gradient Descent

權重向量 + 偏差值

輸出 = 0 ~ 1

決策樹類

決策樹

整體學習(ensemble learning)
根據複數個模型(弱學習器)
的預測結果

三個方法 :決定最終預測結果 : 多數決 / 平均 / 加權平均

主要區分

例子

裝袋法 (bagging : bootstrap aggregating)

提升法 (boosting) : AdaBoost

堆疊

梯度提升 (gradient boosting)

隨機森林

劃分的簡潔程度

information entropy

Gini impurity

防止Overfitting : 限制劃分深度 : pruning

reduce error pruning

cost complexity pruning