网站首页 > 技术文章 正文
集成学习是多个算法的组合,通过构建结合多个学习器,提高个体学习器的性能,完成学习任务。集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。
集成学习在各个规模的数据集上都有很好的策略。
数据集大:划分成多个小数据集,学习多个模型进行组合
数据集小:利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合
· 同质的集成
· 异质的集成
集成学习的结果通过投票法产生。要获得好的集成,个体学习器应该有一定的准确性,学习器不能太坏,并且要有多样性,也就是学习器之间要有差异。
· 集成学习方法分为两类:
个体学习器存在强依赖关系,必须串行生成的序列化方法,如:Boosting;
个体学习器之间不存在强依赖关系,可同时生成的并行化方法,如:Bagging 和随机森林。
· Boosting
1 从训练集用初始权重训练出一个弱学习器1
2 更新训练样本的权重
3 基于调整权重后的训练集来训练弱学习器2
4 得到最终的强学习器
· Bagging
Bagging通过L次的随机采样(自助采样法),得到L个采样子集,对于这L个采样子集,我们可以分别独立的训练出T个弱学习器,再对这L个弱学习器通过集合策略来得到最终的强学习。
· 随机森林
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,并且在决策树的训练过程中引入了随机属性选择。
随机森林具有极高的准确率,其引入具有不确定性是随机的,使得随机森林不容易过拟合,抗噪声能力良好,对异常点离群点不敏感
可以处理高维度的数据,同时不用做特征选择,不但可以处理离散型数据,还可以处理连续型数据,数据集不需要规范化,容易实现训练速度快,可以得到变量重要性排序。在创建随机森林的时候,对generlization error使用的是无偏估计,不需要额外的验证集
· 学习器的结合策略—Stacking
对于测试集,我们首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。
· 集成学习在遥感上的应用
多源数据融合
高光谱图像分类
其中一个特别的发展是光谱-空间高光谱分类
目标检测
分析VHR遥感数据集(例如场景分类和目标识别)
· 集成学习的优点
可以获得更高的学习精度
有更好的泛化性能
具有较低的训练复杂度
如有错误欢迎指出!
图片来源于网络,侵权请联系删除!
猜你喜欢
- 2024-10-01 机器学习100天-Day1803随机森林 随机森林算法详解
- 2024-10-01 「机器学习」自动调参器设计实现 自动调参法
- 2024-10-01 boosting 原理 boost模型原理
- 2024-10-01 机器学习入门精讲,这40个知识点不可错过(一)
- 2024-10-01 Python 数据分析实例——集成方法
- 2024-10-01 机器学习入门精讲,这40个知识点不可错过(1)
- 2024-10-01 集成学习,集成算法 Ensemble methods
- 2024-10-01 人工智能科普|机器学习入门精讲,这40个知识点不可错过(1)
- 2024-10-01 「五分钟机器学习」集成学习——Ensemble Learning
- 2024-10-01 Day95:集成学习(Ensemble Learning)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)