网站首页 > 技术文章 正文
介绍了将数据集分为两个子集的概念:
- 训练集 - 用于训练模型的子集。
- 测试集 - 用于测试训练后模型的子集。
可以想象按如下方式拆分单个数据集:
确保测试集满足以下两个条件:
- 规模足够大,可产生具有统计意义的结果。
- 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。
假设测试集满足上述两个条件,您的目标是创建一个能够很好地泛化到新数据的模型。我们的测试集充当新数据的代理。以下图为例。请注意,从训练数据中学习的模型非常简单。该模型的表现并不完美,出现了一些错误的预测。不过,该模型在测试数据上的表现与在训练数据上的表现一致。也就是说,这个简单的模型没有过拟合训练数据。
请勿对测试数据进行训练。 如果您的评估指标取得了意外的好结果,则可能表明您不小心对测试集进行了训练。例如,高准确率可能表明测试数据泄露到了训练集。
例如,假设一个模型要预测某封电子邮件是否是垃圾邮件,它使用主题行、邮件正文和发件人的电子邮件地址作为特征。我们按照 80-20 的拆分比例将数据拆分为训练集和测试集。在训练之后,该模型在训练集和测试集上均达到了 99% 的精确率。我们原本预计测试集上的精确率会低于此结果,因此再次查看数据后发现,测试集中的很多样本与训练集中的样本是重复的(由于疏忽,我们在拆分数据之前,没有将输入数据库中的相同垃圾邮件重复条目清理掉)。我们无意中对一些测试数据进行了训练,因此无法再准确衡量该模型泛化到新数据的效果。
猜你喜欢
- 2024-12-16 人工智能应用的模型训练和评估 人工智能模型的主要技术指标
- 2024-12-16 二年级数学计算专项练习题,检测孩子计算能力
- 2024-12-16 DBnet检测加分类,提取身份证要素
- 2024-12-16 [图像处理] 基于CleanVision库清洗图像数据集
- 2024-12-16 python机器学习:如何储存训练好的模型并重新调用
- 2024-12-16 灵智互动|训练数据你不得不知道的问题
- 2024-12-16 机器学习基础:超参数和验证集 超参数是指
- 2024-12-16 中安表单识别AI训练平台的识别准确率是否可以通过测试来验证?
- 2024-12-16 天池伪造图像的篡改检测比赛TOP2/3方案分享
- 2024-12-16 【AI 和机器学习】PyTorch BASIC 基础知识(节2):数据集数据加载器
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)