计算机系统应用教程网站

网站首页 > 技术文章 正文

一文看懂机器学习-样本不均衡问题

btikc 2024-10-12 10:54:29 技术文章 3 ℃ 0 评论

这里简单以二分类问题说明,如果正负样本比例为1:100,这样的比例是必须得考虑的问题,也得解决样本不均匀的问题,否则训练出来的模型会具有偏向性。例如:样本中有980个正样本,20个负样本,这样模型只需要输出结果为正样本,就可以达到99.8%的正确率,但是这样的模型是没有意义的,不具备泛化性。

常用的处理方式:

1. 欠抽样:将样本较多的一类,删除样本,其实二类样本数量基本保证一致,无明显差异,但是这样会造成样本的信息损失,影响模型的性能;

2. 过抽样:增加扩展样本较少的一类,两类样本数量基本达到一致,但是需要重新收集数据,或生成相应数据,或使用算法生成,如果原有样本处于该分类边缘,生成的样本也会处于边缘,会出现解释性差的问题;

3. 组合、集成:将样本数量较多的一类,然后平均分为几等份,每一等份的数量大致就为样本数量较小的一类的数量,然后将等等分的数据样本与数量较小的这一类数据进行组合,然后分别构建模型,最后每个模型都会获得结果,对这些结果进行投票选择或加权投票;

4. 单分类:代表算法就为one-class SVM,核心思想就是预测样本是不是符合正类的特征,符合就认为是正类,反之就认为不是正类(到底是不是负类,模型不知道),与二分类的差别就是,二分类模型不仅知道是不是正类,也知道是不是负类。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表