网站首页 > 技术文章正文

机器学习快速入门数据集划分 (二)

btikc 2024-12-29 01:42:12 技术文章 25 ℃ 0 评论

机器学习，它是人工智能核心，是使计算机具有智能的根本途径。

1. 引言

抬头看看天边的晚霞，嗯，明天又是一个好天气。

上一节我们讲到计算机和人一样，都可以通过经验的积累(模型)，来处理已知或未知的问题。（当然如果处理失败, 也可变为经验积累，帮助在下一次的问题处理^-^）如下图：

人    -> 人生经历 -> 经验 -> 问题 -> 判断
计算机 -> 积累数据 -> 模型 -> 问题 -> 预测

那么在这个过程中, 我们如何判断已有的经验(模型)是否足够应对未来问题呢？很多同学应该瞬间想到,拿一些问题测试一下不就好了。没错，机器学习也是这样,训练好模型之后，拿一些数据测试来看看模型预测结果，作为评价模型的标准。

2. 测试集的选择

上一节我们有讲到：用于单次训练的数据集合称为一个“数据集”，例如如下数据集：

2.1 留出法

数据集当然包含训练用的数据与测试用的数据，对于表1.1这个4"样本"的数据集(当然，正常的数据集一般远大于4条数据)，我们可以取出一部分用于训练，另外一部分用于测试，来看看模型的效果。这种数据集划分方法叫"留出法"。留出法一般采用70%的数据用于训练，剩下30%的数据用于测试模型的"性能"(准确率等等指标)，该方法也是最常用的方式之一。

2.2 k折交叉验证法

有同学可能会想到，如果得到的数据集巨大，是否可以取其中的一部分当做数据集，然后对该子数据集进行划分训练集与测试集? 当然可以！假设数据集有100条数据, 我们可以均匀的抽出10条数据，其中7条数据用于训练，3条数据用于测试。下一次又抽出另外一部分来进行训练与测试, 总共处理了10次进行平均, 就称为10折交叉验证，这里的10，我们用k来表示，k取多少可以通过经验、机器性能等等各种因素综合考虑。

2.3 其他

还有其他很多抽取数据划分测试集与训练集的方法，但是很多时候, 留出法由于简单胜出^-^

3. 原创不易，欢迎关注、点赞、分享！！！点赞越多, 下一节更新越快！！！

顺路推荐一个网站: 加菲工具 www.orcc.online

本文源自于拜读周志华教授《机器学习(西瓜书)》一书的感悟与部分工作经历总结。本文尽可能使用通俗易懂的语言，力求零基础的各界人士通读本文后都可以理解机器学习的概念，由于个人水平有限，部分理解可能存在不当之处，敬请谅解指正，谢谢。

上一篇：数据集三分法:训练集、验证集、测试集详解
下一篇： (人工智能)大模型训练:1、数据准备阶段——步骤和注意点

网站首页 > 技术文章正文

机器学习快速入门数据集划分 (二)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

机器学习快速入门 数据集划分 (二)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

机器学习快速入门数据集划分 (二)

取消回复欢迎你发表评论: