计算机系统应用教程网站

网站首页 > 技术文章 正文

机器学习中的正则化理解和使用

btikc 2025-01-04 17:26:00 技术文章 15 ℃ 0 评论

正则化是机器学习中用于减少过拟合的一种技术。当模型对训练数据的学习能力太强并且无法泛化到新数据时,就会发生过拟合。正则化的工作原理是惩罚复杂的模型,这迫使模型学习特征和目标变量之间更简单、更通用的关系。

正则化主要有三种类型:Lasso、Rigid和弹性网络。

Lasso回归

套索回归,也称为最小绝对收缩和选择算子,是一种惩罚系数的 L1 范数的正则化。L1 范数是系数绝对值的总和。这种惩罚会迫使模型将系数缩小到零,这可能导致某些系数被精确设置为零。Lasso 回归的这种特征选择功能使其成为变量选择的强大工具。

其公式为:

这里:

  • B 是系数的向量
  • vi 是第 i 个观测值的目标变量
  • x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
  • lambda 是正则化参数

公式的第一项是残差的平方和,这是线性回归的标准损失函数。第二项 [lambda * sum(abs(Bj))] 是系数的 L1 范数,即正则化惩罚。正则化参数 lambda 控制正则化的强度。值 lambda 越大,系数越小,趋于零,这将降低模型的复杂度并减少过拟合。

Lasso公式可以解释如下:

  • 套索模型力求最小化残差的平方和,但约束条件是系数的绝对值之和小于某个阈值 ( lambda )。
  • 正则化惩罚鼓励模型学习特征和目标变量之间更简单、更通用的关系。

岭回归

岭回归惩罚系数的 L2 范数。L2 范数是系数平方和的平方根。这种惩罚将系数缩小到零,但它不会将任何系数完全设置为零。这使得 Ridge 回归成为比 Lasso 回归更强大的正则化技术,但它对变量选择并不那么有效。

这里:

  • B 是系数的向量
  • vi 是第 i 个观测值的目标变量
  • x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
  • lambda 是正则化参数

Ridge 公式类似于 Lasso 公式,只是正则化惩罚是系数的 L2 范数,而不是 L1 范数。这意味着 Ridge 模型会将系数缩小到零,但不会将任何系数完全设置为零。事实上,虽然左边的部分是一样的,因为它代表损失 (MSE),但右边部分现在取系数的平方和,而不是它们的绝对值。

Ridge 的正则化对于变量选择比 Lasso 模型弱,因为它的系数缩小到 0,但它对异常值和噪声更鲁棒。这使得它成为鲁棒性很重要的机器学习问题的不错选择。

弹性网络

Elastic Net 是一种混合正则化技术,结合了 L1 和 L2 惩罚。弹性净惩罚是 L1 和 L2 惩罚的加权总和,其中权重参数控制两个惩罚的相对重要性。Elastic Net 在 Lasso 回归的变量选择能力和 Ridge 回归的鲁棒性之间实现了平衡。

弹性网的公式:

ElasticNet(B) = sum((vi - x.T*B)^2) + lambda * (α * sum(|Bj|) + (1 - α) * sum(Bj^2))

这里:

  • B 是系数的向量
  • vi 是第 i 个观测值的目标变量
  • x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
  • lambda 是正则化参数
  • α 是混合参数

弹性网公式是Lasso和岭回归的加权和(两者的线性组合)。混合参数 α ,控制两个惩罚的相对重要性。的 α 值越大,L1 惩罚的权重越大,这将鼓励变量选择。较低的值 α 将对 L2 惩罚施加更大的权重,这将鼓励鲁棒性。

弹性网络模型是 Lasso 回归的变量选择能力和 Ridge 回归的稳健性之间的平衡。这使得它成为机器学习问题的不错选择,在这些问题中,变量选择和鲁棒性都很重要。

使用哪种正则化技术?

选择使用哪种正则化技术取决于具体问题和所需的结果。但是,以下是一些一般准则:

  • 如果变量选择很重要,请使用Lasso回归。套索回归是变量选择的最强工具,因为它可以将一些系数精确地缩小到零。这有助于确定预测目标变量的最重要特征。
  • 如果鲁棒性很重要,请使用 Ridge 回归。岭回归对异常值和噪声的鲁棒性比套索回归更强。这使得它成为数据嘈杂或包含异常值的机器学习问题的不错选择。
  • 如果变量选择和稳健性都很重要,请使用 Elastic Net 回归。ElasticNet 回归是 Lasso 回归的变量选择能力和 Ridge 回归的稳健性之间的平衡。这使得它成为机器学习问题的不错选择,其中变量选择和鲁棒性都很重要。

需要注意的是,特定问题的最佳正则化技术可以通过实验来确定。最好尝试所有三种正则化技术,看看哪一种在数据上表现最好。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表