网站首页 > 技术文章 正文
GBDT 及其改进版本(XGboost, lightGBM)在数据竞赛中占了大半江山,网上讲解的文章也很多,但大多是文字和公式的形式,这里尝试用简单的图解形式,去理解 GBDT 的基本操作过程。
参考《统计学习方法》P149中的例子,说明 GBDT 的构造和预测过程。
GBDT的构造
GBDT 采用的弱分类器限定了 CART,因此构造出来的都是二叉树,因为单棵 CART 树的能力有限,GBDT 通过构造多棵回归树去预测,每棵树都预测前面所有树预测之后的残差(损失函数为平方误差时),因此残差越来越小,预测的精度也就越来越高。
上图中,根据数据表8.2,按照 CART 的构造方式,得到第一棵树T1(这里是用了树桩,但实际中每棵树的深度都可以更深),根据T1预测每个x,都会有对应的残差,得到残差表8.4,形成新的训练集(x,r),再训练下一棵树,直至达到指标要求。
GBDT的预测
在《统计学习方法》中,经过训练会得到6棵树,最终的提升树就是这6棵树的组合。
如上图,书中可以说是将6棵树合并成了一棵树,因为这个例题有比较简单的结构,每棵树都是由树桩组成,因此非常容易合并,复杂一些无法合并的树,就是并行地得到每棵树的预测值然后相加就是最终的预测值。
简单小结
GBDT是由多棵树组成的,而且每一颗树都依赖于之前树建立后的残差,因此它的建树过程不是并行的,而是串行的,所以速度较慢。
这种个体学习器之间存在强依赖关系、必须串行生成的序列化方法,就是boosting方法,而个体学习器间不存在强依赖关系、可同时生成的并行化方法,就是bagging,如随机森林。
但对于GBDT,所有的树一旦建好,用它来预测时是并行的,最终的预测值就是所有树的预测值之和。
对于随机森林,它的预测也是并行的,但最终的预测值是所有树预测值的平均值。
猜你喜欢
- 2024-11-12 电力系统领域,电力系统暂态稳定判别方法
- 2024-11-12 机器学习“司马家族”——树族 机器学习实战树回归
- 2024-11-12 大白话人工智能算法-第27节决策树系列之预剪枝和后减枝(6)
- 2024-11-12 机器学习算法之随机森林算法通俗易懂版本
- 2024-11-12 决策树之 GBDT 算法 - 回归部分 gbdt和决策树
- 2024-11-12 大数据:如何用决策树解决分类问题
- 2024-11-12 几种特征选择方法的比较,孰好孰坏?
- 2024-11-12 决策树算法之随机森林 决策树和随机森林预测结果
- 2024-11-12 3分钟掌握机器学习中的决策树 机器学习和深度学习决策树
- 2024-11-12 一文看懂决策树分类模型理论和应用
你 发表评论:
欢迎- 11-13第一次养猫的人养什么品种比较合适?
- 11-13大学新生活不适应?送你舒心指南! 大学新生的不适应主要有哪些方面
- 11-13第一次倒班可能会让人感到有些不适应,以下是一些建议
- 11-13货物大小不同装柜算法有哪些?怎么算?区别有哪些?
- 11-13五大基本算法 五大基本算法是什么
- 11-13高级程序员必备:分治算法分享 分冶算法
- 11-13最快速的寻路算法 Jump Point Search
- 11-13手机实时人工智能之「三维动作识别」:每帧只需9ms
- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)