机器学习(8)欠拟合和过拟合

btikc 2024-09-20 14:42:50 技术文章 25 ℃ 0 评论

欠拟合（Underfitting），过拟合（Overfitting）

欠拟合是指特征数选取过少，没法很好的描述数据。

过拟合是指特征数选取过多，同样也没法很好的描述数据。

我们以猜明星为例子：

回归到数学，我们来举一个数学的例子，假设我们要拟合的是-x2，用左边60%的数据来训练。

如下是欠拟合的例子，使用1次多项式（线性）来拟合训练数据。

如下是刚好拟合的例子，使用的是2次多项式来拟合训练数据。

如下是过拟合的例子，使用的是11次多项式来拟合数据。

那么，我们如何来防止过拟合呢？

最朴素的思路，我们要让模型在所有数据上都效果不错。

机器学习中我们常用的方式是给代价函数增加正则项，或者叫惩罚因子，常用的是L2范数（后面再说说范式），简单理解就是参数的平方和，参数越多，惩罚也就越厉害，这个相当于增加了一个先验项。

最优化 = 代价函数（误差项） + 正则项（惩罚因子）

彩蛋：是不是跟贝叶斯一个原理！！！

下图是最简单的增加了平方和的惩罚项对应的表达式拟合误差，可以看到最佳拟合的是二次多项式。

当然，也有另外一种比较实在的方法，比较训练组和测试组的误差项的值，选择最小的那一个就行。

（如果对你有启发，请【在看】支持，谢谢！）