网站首页 > 技术文章正文

Ensemble Learning(集成学习) 集成学习ensemble learning

btikc 2024-10-01 08:43:56 技术文章 12 ℃ 0 评论

集成学习是多个算法的组合，通过构建结合多个学习器，提高个体学习器的性能，完成学习任务。集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差（bagging）、偏差（boosting）或改进预测（stacking）的效果。

集成学习在各个规模的数据集上都有很好的策略。

数据集大：划分成多个小数据集，学习多个模型进行组合

数据集小：利用Bootstrap方法进行抽样，得到多个数据集，分别训练多个模型再进行组合

· 同质的集成

· 异质的集成

集成学习的结果通过投票法产生。要获得好的集成，个体学习器应该有一定的准确性，学习器不能太坏，并且要有多样性，也就是学习器之间要有差异。

· 集成学习方法分为两类：

个体学习器存在强依赖关系，必须串行生成的序列化方法，如：Boosting；

个体学习器之间不存在强依赖关系，可同时生成的并行化方法，如：Bagging 和随机森林。

· Boosting

1 从训练集用初始权重训练出一个弱学习器1

2 更新训练样本的权重

3 基于调整权重后的训练集来训练弱学习器2

4 得到最终的强学习器

· Bagging

Bagging通过L次的随机采样（自助采样法），得到L个采样子集，对于这L个采样子集，我们可以分别独立的训练出T个弱学习器，再对这L个弱学习器通过集合策略来得到最终的强学习。

· 随机森林

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，并且在决策树的训练过程中引入了随机属性选择。

随机森林具有极高的准确率，其引入具有不确定性是随机的，使得随机森林不容易过拟合，抗噪声能力良好，对异常点离群点不敏感

可以处理高维度的数据，同时不用做特征选择，不但可以处理离散型数据，还可以处理连续型数据，数据集不需要规范化，容易实现训练速度快，可以得到变量重要性排序。在创建随机森林的时候，对generlization error使用的是无偏估计，不需要额外的验证集

· 学习器的结合策略—Stacking

对于测试集，我们首先用初级学习器预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。

· 集成学习在遥感上的应用

多源数据融合

高光谱图像分类

其中一个特别的发展是光谱-空间高光谱分类

目标检测

分析VHR遥感数据集（例如场景分类和目标识别）

· 集成学习的优点

可以获得更高的学习精度

有更好的泛化性能

具有较低的训练复杂度

如有错误欢迎指出！

图片来源于网络，侵权请联系删除！

上一篇：机器学习西瓜书简明笔记(9)集成学习
下一篇： Day95:集成学习(Ensemble Learning)

网站首页 > 技术文章正文

Ensemble Learning(集成学习) 集成学习ensemble learning

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

Ensemble Learning(集成学习) 集成学习ensemble learning

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: