我是盖伦,算法工程师,技术过硬,专注操作。
根据一代目AlexNet的经验,牛津大学的视觉几何组(Visual Geometry Group,缩写VGG)和Google DeepMind公司的研究员,探索了卷积神经网络的深度与其性能之间的关系,尝试更深的卷积神经网络提取图片特征。于是,便有了深不见底的VGGNet。以最佳模型VGG-16为研究对象:
模型结构
- 5层卷积组
- 卷积组均用3x3的卷积核
- 卷积组后接2x2 池化核的max-pooling(最大化池)
- 最后接上三个全连接层
- 输出层使用softmax
- 隐层的激活单元都采用ReLU函数
核心理念
1.使用小卷积核和小池化核
作者认为:
- 2个3x3的卷积堆叠获得的感受野,相当于一个5x5的卷积.
- 3个3x3卷积的堆叠获得的感受野,相当于一个7x7的卷积。
效果:
- 减少参数
- 当于进行了更多的非线性映射
- 增加网络的拟合/表达能力。
2.更高通道和更深层数
- 卷积组的通道数依次为64、128、256、512、512。
- 增加模型深度有效提升性能。
论文地址
https://arxiv.org/abs/1409.1556
模型应用
https://github.com/machrisaa/tensorflow-vgg
其他
VGGNet有六种不同的网络结构,具体见下图,效果最好的是图中最后两个VGG-16和VGG-19。
本文暂时没有评论,来添加一个吧(●'◡'●)