Please enable JavaScript.
Coggle requires JavaScript to display documents.
Decision Tree (:moneybag:pruning (:one:prepruning (:explode:在构造decision…
Decision Tree
:moneybag:如何选取最优的划分属性
:one:information gain
-
:pencil2:formula
:one:information entropy
:pencil2:\( \text{Ent}(D) = - \sum_{k=1}^{|\gamma|}{p_k log_2 p_k} \) (\(p_k\)表示被当前样本集合D中第k类样本所占的比例)
-
:two:information gain
:pencil2:\( Gain(D, a) = Ent(D) - \sum_{v=1}^{V}{\dfrac{|D^v|}{|D|}Ent(D^v)} \) 或者 \( Gain(D, A) = Ent(D) - Ent(D|A) \),
:star:points
:one:这个公式是在指定其中一个feature来计算的,计算出来的是这个属性的information gain, 最终的选择是对多个属性多次带入这个公式计算,选择最大的作为划分属性
:two:\(\dfrac{|D^v|}{|D|}\)表示这个属性上取值为v的样本集合所占比例,作为information entropy的weight加权求和
:bread:集合D的empirical entropy和给定集特征A下集合D的empirical conditional entropy, 前者表示对集合D分类的不确定性,后者表示对给定特征A的情况下对集合D分类的不确定性
:two:conditional entropy
-
:bread:给定随机变量X的条件下,随机变量个Y的conditional entropy
-
-
:two:gain ratio
:zap:information gain偏爱取值范围大的属性,比如说西瓜编号
:pencil2:formula
:one:\( Gain_ratio(D, a) = \dfrac{Gain(D, a)}{IV(a)} \)
:two:\( IV(a) = - \sum_{v=1}^{V}{\dfrac{|D^v|}{|D|} log_2 \dfrac{|D^v|}{|D|}} \), 称为属性a的intrinsic value
:star:实际使用是从候选划分属性中找出information gain高于平均水平的属性,再从中选择gain ratio最高的,因为gain ratio偏爱可取值数目较少的属性
:three:基尼指数
:explode:在数据集D中随机抽取2个样本,其类别不一致的概率 => Gini(D)越小,则数据集D的纯度越高
:moneybag:pruning
-
:one:prepruning
:explode:在构造decision tree选择划分属性的时候,若当前节点的划分不能带来decision tree的泛化性能提升,就标记为叶节点
:two:post-prunning
:explode:对训练好后的decision tree自底向上地考察非叶节点,如果该非叶节点替换成叶节点能够提高decision tree的泛化性能,就替换为叶节点
-
-