Please enable JavaScript.
Coggle requires JavaScript to display documents.
TreeModel (XGBOOST (xgb相对gb有点 (共同优点: (当数据有噪音的时候,树Tree的算法抗噪能力更强,…
TreeModel
XGBOOST
-
-
-
-
-
xgb相对gb有点
-
-
-
- XGB的损失函数可以自定义,具体参考 objective 这个参数
- XGB的目标函数进行了优化,有正则项,减少过拟合,控制模型复杂度
-
- XGB:一直分裂到指定的最大深度(max_depth),然后回过头剪枝。如某个点之后不再正值,去除这个分裂。优点是,当一个负损失(-2)后存在一个正损失(+10),(-2+10=8>0)求和为正,保留这个分裂。
-
- XGB有列抽样/column sample,借鉴随机森林,减少过拟合
- 缺失值处理:XGB内置缺失值处理规则,用户提供一个和其它样本不同的值,作为一个参数传进去,作为缺失值取值。
XGB在不同节点遇到缺失值采取不同处理方法,并且学习未来遇到缺失值的情况。
- XGB内置交叉检验(CV),允许每轮boosting迭代中用交叉检验,以便获取最优 Boosting_n_round 迭代次数,可利用网格搜索grid search和交叉检验cross validation进行调参。
GBDT使用网格搜索。
- XGB运行速度快:data事先安排好以block形式存储,利于并行计算。在训练前,对数据排序,后面迭代中反复使用block结构。
关于并行,不是在tree粒度上的并行,并行在特征粒度上,对特征进行Importance计算排序,也是信息增益计算,找到最佳分割点。
-
-
- 扩展性:XGB提供了分布式训练,支持Hadoop实现
-
-
- 树对分类变量Categorical feature更友好
-
-
-
-