计算机系统应用教程网站

网站首页 > 技术文章 正文

机器学习快速入门 数据集划分 (二)

btikc 2024-12-29 01:42:12 技术文章 25 ℃ 0 评论

机器学习,它是人工智能核心,是使计算机具有智能的根本途径。

1. 引言

抬头看看天边的晚霞,嗯,明天又是一个好天气。

上一节我们讲到计算机和人一样,都可以通过经验的积累(模型),来处理已知或未知的问题。(当然如果处理失败, 也可变为经验积累,帮助在下一次的问题处理^-^)如下图:

人    -> 人生经历 -> 经验 -> 问题 -> 判断
计算机 -> 积累数据 -> 模型 -> 问题 -> 预测

那么在这个过程中, 我们如何判断已有的经验(模型)是否足够应对未来问题呢?很多同学应该瞬间想到,拿一些问题测试一下不就好了。没错,机器学习也是这样,训练好模型之后,拿一些数据测试来看看模型预测结果,作为评价模型的标准。

2. 测试集的选择

上一节我们有讲到:用于单次训练的数据集合称为一个“数据集”,例如如下数据集:

2.1 留出法

数据集当然包含训练用的数据与测试用的数据,对于表1.1这个4"样本"的数据集(当然,正常的数据集一般远大于4条数据),我们可以取出一部分用于训练,另外一部分用于测试,来看看模型的效果。这种数据集划分方法叫"留出法"。留出法一般采用70%的数据用于训练,剩下30%的数据用于测试模型的"性能"(准确率等等指标),该方法也是最常用的方式之一。

2.2 k折交叉验证法

有同学可能会想到,如果得到的数据集巨大,是否可以取其中的一部分当做数据集,然后对该子数据集进行划分训练集与测试集? 当然可以!假设数据集有100条数据, 我们可以均匀的抽出10条数据,其中7条数据用于训练,3条数据用于测试。下一次又抽出另外一部分来进行训练与测试, 总共处理了10次进行平均, 就称为10折交叉验证,这里的10,我们用k来表示,k取多少可以通过经验、机器性能等等各种因素综合考虑。

2.3 其他

还有其他很多抽取数据划分测试集与训练集的方法,但是很多时候, 留出法由于简单胜出^-^

3. 原创不易,欢迎关注、点赞、分享!!!点赞越多, 下一节更新越快!!!

顺路推荐一个网站: 加菲工具 www.orcc.online

本文源自于拜读周志华教授《机器学习(西瓜书)》一书的感悟与部分工作经历总结。本文尽可能使用通俗易懂的语言,力求零基础的各界人士通读本文后都可以理解机器学习的概念,由于个人水平有限,部分理解可能存在不当之处,敬请谅解指正,谢谢。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表