计算机系统应用教程网站

网站首页 > 技术文章 正文

开始构建机器学习模型之前,我们该怎么选择样本?

btikc 2024-10-12 10:55:05 技术文章 2 ℃ 0 评论

当我们决定使用机器学习模型解决业务场景时,在确定好模型的目标和评价指标之后,就可以撸起袖子开始干了,第一步就是样本问题,怎么选择样本?

样本选择主要是从海量数据中识别和选择相关性高的数据作为机器学习模型的输入,最理想的情况就是选择了最少量的样本,模型的效果依然不会变差。

样本选择有以下三点好处:

当数据量过大,程序会耗费大量的计算资源,减少数据量能够缩减模型的运算时间,使得某些因为数据量过大而无法应用的机器学习模型的问题变得可能。

全部数据包含太多冗余信息,相关性太低的数据对模型解决业务问题是没有任何帮助的,徒增浪费资源烦恼。

只要是数据,都会有噪声存在,不管是错误的还是重复的噪声。样本选择过程中去除了噪声,改善了数据质量。

样本选择常用数据去噪、采样这些简单有效的方法,也可以使用复杂的方法,通过搜索整个数据集或利用算法来实现样本选择,这类方法就是原型选择和训练集选择。

在数据去噪的过程中,最重要的就是怎么识别噪声,识别出噪声之后才可以做直接过滤或者修改数据等操作。噪声数据可能是重复值、缺失值、超出范围的异常值等,也可能是标注错误,对标注错误的处理方法常见的是集成过滤、交叉验证委员会过滤和迭代分割过滤三种方法,都是基于融合或者投票思想进行数据过滤的,以后会详细讲一讲这些方法,这里先一笔带过。

采样是一种统计技术,从整体选择一部分进行推论。一个好的样本子集应该具有无偏性和很小的样本方差,其中无偏性指的是对样本的期望等于全体样本的期望。样本方差是衡量样本估计值和真实值的偏差,小方差能保证估计值不会产生太大的偏差。

样本采样的方法主要有,无放回简单随机抽样,有放回简单抽样,平衡采样,整群采样,分层采样。无放回简单随机采样就是随机抽取固定数量的样本。有放回简单抽样是指每次抽取一条样本之后不将该样本从原始数据中剔除,继续抽,可能这条样本会被抽中多次。平衡采样是指根据目标进行采样,十分适合在不平衡分类中使用。假如正负样本的比例在1:100,我们想要得到正负样本比在1:10的数据样本,那么在正样本数据中进行上采样,把正样本复制10遍,在负样本数据中进行下采样,随机删除部分样本保留原来的十分之一。整群采样是指先将数据集分成互斥的几个类簇,然后在这几个类簇中分别进行简单随机抽样作为样本集。分层抽样是指将数据集划分成不同的层,在层内部进行数据采样,最后汇合成总样本集。

原型选择基于实例,在样本选择过程中不需要进行模型训练,而是选取相似度或者距离度量来找到分类精度和数据量最佳的训练集,一般用户KNN无监督算法。训练集选择则是构建预测模型来进行样本选择的方法的统称,比如决策树、ANN、SVM的算法。原型选择和训练集选择两大类别的样本选择方法虽然有很多,但是没有一种方法是完全通用的,必须具体问题具体分析处理。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表