Please enable JavaScript.
Coggle requires JavaScript to display documents.
Decision Tree(classification) - Coggle Diagram
Decision Tree(classification)
決策樹演算法的特色
C4.5
又稱(資訊獲益比率)
分支數本身當作衡量對象
計算出它的Entropy
ID3
缺點
太多分支屬性時,會得到一個合理但卻複雜的結果
優點
提供了客觀的標準來決定決策樹的分支屬性
CART
分類與迴歸樹
核心
計算該節點中任意一筆資料被分錯的機率
決策樹運作原理
熵ㄉ一(Entropy)
計算資訊增益(InformationGain)的一種方法
不確定的程度(亂度)
目標
衡量特徵減少Entropy的程度
Entropy:不確定性的量度
Entropy=1
最混亂無序狀態
Entropy=0
最穩定狀態
決策樹
評估決策樹演算法分枝的好壞(亂度)
C4.5(Gainratio)
Cart(Giniindex)
ID3(Informationgain)
目的
找出合適的規則,使訊息增益最大化
用途及作用
根據訓練資料產生一棵樹
依據訓練出來的規則來對新樣本進行預測。
優點
每個決策階段都相當的明確清楚
低的計算時間複雜度(預測時相當有效率)
廣泛應用於商業、醫療及數據分析
簡單且高度可解釋性
缺點
當標籤種類多的時候,樹會變得很複雜
可能會造成過度適配(overfitting)的問題
相較於其他的機器學習有較少的理論保證
如何生成
需要有評斷的指標(找出規則)
分類準則
C4.5(Gainratio)
Cart(Giniindex)
ID3(Informationgain)
決策樹演算法之總結
J48決策樹演算法
採用貪婪和自上而下的決策樹方法
C4.5後來在Weka中命名為J48
C4.5決策樹演算法
基於最大化資訊增益的屬性選擇來確定性分類準則的過程
是ID3演算法的擴展
分類模式選項(預習)
資料分割
Testmode
remaindertest
split66.0%train
原始資料分割
30%為測試資料
66%為訓練資料
10等分切割
1份測試
9份訓練
使用訓練集
10折交叉驗證
其它子集為驗證集或測試集
設定fold次數
一開始的子集被稱為訓練集
數據集分成10份,輪流將其中9份作訓練1份做測試,結果均值作為對演算法精度的估計。
又稱為循環估計