计算机系统应用教程网站

网站首页 > 技术文章 正文

Day93:Dropout层 dropout层中文名叫什么

btikc 2024-10-17 08:41:02 技术文章 10 ℃ 0 评论

作用

dropout的原理就是在网络前向传播的时候,让神经元的激活值暂时以一定的概率变为零,注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络,这样可以使模型的泛化性能更强。

dropout为什么可以防止过拟合呢?

1、dropout其实相当于我们日常用到的基于平均的ensemble,ensemble有两种方式,基于平均的ensemble和投票的ensemble。对于网络中的部分神经元暂时舍弃,这样相当于训练了多个网络。

2、dropout还取消了神经元之间的共适应关系,使得网络的输出不依赖于网络中的某些隐含节点的固定作用,使模型的鲁棒性更好。

训练场景与测试场景

dropout有两种权重缩放方式,一是在训练的时候对激活以后的值乘以1/(1-p) 或者在测试的时候乘以P。这样做的目的是保证训练和测试的时候数据的一致性。



————————————————

原文链接:https://blog.csdn.net/justsolow/article/details/105394688

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表