计算机系统应用教程网站

网站首页 > 技术文章 正文

Ensemble Learning(集成学习) 集成学习ensemble learning

btikc 2024-10-01 08:43:56 技术文章 12 ℃ 0 评论

集成学习是多个算法的组合,通过构建结合多个学习器,提高个体学习器的性能,完成学习任务。集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。

集成学习在各个规模的数据集上都有很好的策略。

数据集大:划分成多个小数据集,学习多个模型进行组合

数据集小:利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合

· 同质的集成

· 异质的集成

集成学习的结果通过投票法产生。要获得好的集成,个体学习器应该有一定的准确性,学习器不能太坏,并且要有多样性,也就是学习器之间要有差异。

· 集成学习方法分为两类:

个体学习器存在强依赖关系,必须串行生成的序列化方法,如:Boosting;

个体学习器之间不存在强依赖关系,可同时生成的并行化方法,如:Bagging 和随机森林。

· Boosting

1 从训练集用初始权重训练出一个弱学习器1

2 更新训练样本的权重

3 基于调整权重后的训练集来训练弱学习器2

4 得到最终的强学习器

· Bagging

Bagging通过L次的随机采样(自助采样法),得到L个采样子集,对于这L个采样子集,我们可以分别独立的训练出T个弱学习器,再对这L个弱学习器通过集合策略来得到最终的强学习。

· 随机森林

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,并且在决策树的训练过程中引入了随机属性选择。

随机森林具有极高的准确率,其引入具有不确定性是随机的,使得随机森林不容易过拟合,抗噪声能力良好,对异常点离群点不敏感

可以处理高维度的数据,同时不用做特征选择,不但可以处理离散型数据,还可以处理连续型数据,数据集不需要规范化,容易实现训练速度快,可以得到变量重要性排序。在创建随机森林的时候,对generlization error使用的是无偏估计,不需要额外的验证集


· 学习器的结合策略—Stacking

对于测试集,我们首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。


· 集成学习在遥感上的应用

多源数据融合

高光谱图像分类

其中一个特别的发展是光谱-空间高光谱分类

目标检测

分析VHR遥感数据集(例如场景分类和目标识别)

· 集成学习的优点

可以获得更高的学习精度

有更好的泛化性能

具有较低的训练复杂度

如有错误欢迎指出!

图片来源于网络,侵权请联系删除!

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表