网站首页 > 技术文章 正文
这里简单以二分类问题说明,如果正负样本比例为1:100,这样的比例是必须得考虑的问题,也得解决样本不均匀的问题,否则训练出来的模型会具有偏向性。例如:样本中有980个正样本,20个负样本,这样模型只需要输出结果为正样本,就可以达到99.8%的正确率,但是这样的模型是没有意义的,不具备泛化性。
常用的处理方式:
1. 欠抽样:将样本较多的一类,删除样本,其实二类样本数量基本保证一致,无明显差异,但是这样会造成样本的信息损失,影响模型的性能;
2. 过抽样:增加扩展样本较少的一类,两类样本数量基本达到一致,但是需要重新收集数据,或生成相应数据,或使用算法生成,如果原有样本处于该分类边缘,生成的样本也会处于边缘,会出现解释性差的问题;
3. 组合、集成:将样本数量较多的一类,然后平均分为几等份,每一等份的数量大致就为样本数量较小的一类的数量,然后将等等分的数据样本与数量较小的这一类数据进行组合,然后分别构建模型,最后每个模型都会获得结果,对这些结果进行投票选择或加权投票;
4. 单分类:代表算法就为one-class SVM,核心思想就是预测样本是不是符合正类的特征,符合就认为是正类,反之就认为不是正类(到底是不是负类,模型不知道),与二分类的差别就是,二分类模型不仅知道是不是正类,也知道是不是负类。
猜你喜欢
- 2024-10-12 深度学习难分样本挖掘(Hard Mining)
- 2024-10-12 推荐系统系列之隐语义模型 基于隐语义模型的协同过滤
- 2024-10-12 「机器学习」利用图网络小数据学习进行性质预测
- 2024-10-12 论文荐读:理解图表示学习中的负采样
- 2024-10-12 策略产品经理干货系列之推荐系统离线评估方法与指标介绍
- 2024-10-12 终于搞懂了PR曲线 pr曲线调色在哪里
- 2024-10-12 记:多标签分类问题 多标签分类 focal loss
- 2024-10-12 开始构建机器学习模型之前,我们该怎么选择样本?
- 2024-10-12 数据样本量不足,试试大佬都在用的办法(暨反欺诈建模场景实操)
- 2024-10-12 推荐系统之隐含语义模型LFM(2)负样本采集
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)