网站首页 > 技术文章 正文
正则化是机器学习中用于减少过拟合的一种技术。当模型对训练数据的学习能力太强并且无法泛化到新数据时,就会发生过拟合。正则化的工作原理是惩罚复杂的模型,这迫使模型学习特征和目标变量之间更简单、更通用的关系。
正则化主要有三种类型:Lasso、Rigid和弹性网络。
Lasso回归
套索回归,也称为最小绝对收缩和选择算子,是一种惩罚系数的 L1 范数的正则化。L1 范数是系数绝对值的总和。这种惩罚会迫使模型将系数缩小到零,这可能导致某些系数被精确设置为零。Lasso 回归的这种特征选择功能使其成为变量选择的强大工具。
其公式为:
这里:
- B 是系数的向量
- vi 是第 i 个观测值的目标变量
- x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
- lambda 是正则化参数
公式的第一项是残差的平方和,这是线性回归的标准损失函数。第二项 [lambda * sum(abs(Bj))] 是系数的 L1 范数,即正则化惩罚。正则化参数 lambda 控制正则化的强度。值 lambda 越大,系数越小,趋于零,这将降低模型的复杂度并减少过拟合。
Lasso公式可以解释如下:
- 套索模型力求最小化残差的平方和,但约束条件是系数的绝对值之和小于某个阈值 ( lambda )。
- 正则化惩罚鼓励模型学习特征和目标变量之间更简单、更通用的关系。
岭回归
岭回归惩罚系数的 L2 范数。L2 范数是系数平方和的平方根。这种惩罚将系数缩小到零,但它不会将任何系数完全设置为零。这使得 Ridge 回归成为比 Lasso 回归更强大的正则化技术,但它对变量选择并不那么有效。
这里:
- B 是系数的向量
- vi 是第 i 个观测值的目标变量
- x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
- lambda 是正则化参数
Ridge 公式类似于 Lasso 公式,只是正则化惩罚是系数的 L2 范数,而不是 L1 范数。这意味着 Ridge 模型会将系数缩小到零,但不会将任何系数完全设置为零。事实上,虽然左边的部分是一样的,因为它代表损失 (MSE),但右边部分现在取系数的平方和,而不是它们的绝对值。
Ridge 的正则化对于变量选择比 Lasso 模型弱,因为它的系数缩小到 0,但它对异常值和噪声更鲁棒。这使得它成为鲁棒性很重要的机器学习问题的不错选择。
弹性网络
Elastic Net 是一种混合正则化技术,结合了 L1 和 L2 惩罚。弹性净惩罚是 L1 和 L2 惩罚的加权总和,其中权重参数控制两个惩罚的相对重要性。Elastic Net 在 Lasso 回归的变量选择能力和 Ridge 回归的鲁棒性之间实现了平衡。
弹性网的公式:
ElasticNet(B) = sum((vi - x.T*B)^2) + lambda * (α * sum(|Bj|) + (1 - α) * sum(Bj^2))
这里:
- B 是系数的向量
- vi 是第 i 个观测值的目标变量
- x.T*B 是给定系数向量 B 的第 i 个观测值的预测目标变量
- lambda 是正则化参数
- α 是混合参数
弹性网公式是Lasso和岭回归的加权和(两者的线性组合)。混合参数 α ,控制两个惩罚的相对重要性。的 α 值越大,L1 惩罚的权重越大,这将鼓励变量选择。较低的值 α 将对 L2 惩罚施加更大的权重,这将鼓励鲁棒性。
弹性网络模型是 Lasso 回归的变量选择能力和 Ridge 回归的稳健性之间的平衡。这使得它成为机器学习问题的不错选择,在这些问题中,变量选择和鲁棒性都很重要。
使用哪种正则化技术?
选择使用哪种正则化技术取决于具体问题和所需的结果。但是,以下是一些一般准则:
- 如果变量选择很重要,请使用Lasso回归。套索回归是变量选择的最强工具,因为它可以将一些系数精确地缩小到零。这有助于确定预测目标变量的最重要特征。
- 如果鲁棒性很重要,请使用 Ridge 回归。岭回归对异常值和噪声的鲁棒性比套索回归更强。这使得它成为数据嘈杂或包含异常值的机器学习问题的不错选择。
- 如果变量选择和稳健性都很重要,请使用 Elastic Net 回归。ElasticNet 回归是 Lasso 回归的变量选择能力和 Ridge 回归的稳健性之间的平衡。这使得它成为机器学习问题的不错选择,其中变量选择和鲁棒性都很重要。
需要注意的是,特定问题的最佳正则化技术可以通过实验来确定。最好尝试所有三种正则化技术,看看哪一种在数据上表现最好。
。
猜你喜欢
- 2025-01-04 Python机器学习库Sklearn系列教程(13)-Lasso回归(L1正则化)
- 2025-01-04 人工智能编程:不同的正则化参数对支持向量机效果的影响
- 2025-01-04 增益映射耦合局部正则化的图像重构算法
- 2025-01-04 Day277:正则化之weight decay权值衰减
- 2025-01-04 算法金 | 奇奇怪怪的正则化
- 2025-01-04 理解机器学习中的正则化与模型复杂度
- 2025-01-04 探索贝叶斯视角下的L1和L2正则化
- 2025-01-04 图解机器学习——高斯核函数集正则化方法
- 2025-01-04 一文读懂正则化:LASSO回归、Ridge回归、ElasticNet 回归
- 2025-01-04 深度学习:L1 L2正则化为什么可以解决过拟合问题
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)