CNN中的maxpool到底是什么原理?

雷锋网（公众号：雷锋网）按：本文整理自知乎问题“请问 CNN 中的 maxpool 到底是什么原理，为什么要取最大值，取最大值的原理是什么？谢谢。”的下Yjango和小白菜的回答。雷锋网已获得转载授权。

首先细讲一下 Max pooling。

Max pooling

在卷积后还会有一个 pooling 的操作，尽管有其他的比如 average pooling 等，这里只提 max pooling。

max pooling 的操作如下图所示：整个图片被不重叠的分割成若干个同样大小的小块（pooling size）。每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面结构得出 output。

图片来源：cs231n

max pooling 在不同的 depth 上是分开执行的，且不需要参数控制。那么问题就 max pooling 有什么作用？部分信息被舍弃后难道没有影响吗？

图片来源：cs231n

Max pooling 的主要功能是 downsampling，却不会损坏识别结果。这意味着卷积后的 Feature Map 中有对于识别物体不必要的冗余信息。那么我们就反过来思考，这些 “冗余” 信息是如何产生的。

直觉上，我们为了探测到某个特定形状的存在，用一个 filter 对整个图片进行逐步扫描。但只有出现了该特定形状的区域所卷积获得的输出才是真正有用的，用该 filter 卷积其他区域得出的数值就可能对该形状是否存在的判定影响较小。比如下图中，我们还是考虑探测 “横折” 这个形状。卷积后得到 3x3 的 Feature Map 中，真正有用的就是数字为 3 的那个节点，其余数值对于这个任务而言都是无关的。所以用 3x3 的 Max pooling 后，并没有对 “横折” 的探测产生影响。试想在这里例子中如果不使用 Max pooling，而让网络自己去学习。网络也会去学习与 Max pooling 近似效果的权重。因为是近似效果，增加了更多的 parameters 的代价，却还不如直接进行 Max pooling。

Max pooling 还有类似 “选择句” 的功能。假如有两个节点，其中第一个节点会在某些输入情况下最大，那么网络就只在这个节点上流通信息；而另一些输入又会让第二个节点的值最大，那么网络就转而走这个节点的分支。

但是 Max pooling 也有不好的地方。因为并非所有的抓取都像上图这样的极端例子。有些周边信息对某个概念是否存在的判定也有影响。并且 Max pooling 是对所有的 Feature Maps 进行等价的操作。就好比用相同网孔的渔网打鱼，一定会有漏网之鱼。

下面对其他的 pooling 方法做一个简单的整理（前一段时间整理的个人觉得比较不错且流行的 pooling 方法）。

SUM pooling

基于 SUM pooling 的中层特征表示方法，指的是针对中间层的任意一个 channel（比如 VGGNet16, pool5 有 512 个 channel），将该 channel 的 feature map 的所有像素值求和，这样每一个 channel 得到一个实数值，N 个 channel 最终会得到一个长度为 N 的向量，该向量即为 SUM pooling 的结果。

AVE pooling

AVE pooling 就是 average pooling，本质上它跟 SUM pooling 是一样的，只不过是将像素值求和后还除以了 feature map 的尺寸。作者以为，AVE pooling 可以带来一定意义上的平滑，可以减小图像尺寸变化的干扰。设想一张 224224 的图像，将其 resize 到 448448 后，分别采用 SUM pooling 和 AVE pooling 对这两张图像提取特征，我们猜测的结果是，SUM pooling 计算出来的余弦相似度相比于 AVE pooling 算出来的应该更小，也就是 AVE pooling 应该稍微优于 SUM pooling 一些。

MAX pooling

MAX pooling 指的是对于每一个 channel（假设有 N 个 channel），将该 channel 的 feature map 的像素值选取其中最大值作为该 channel 的代表，从而得到一个 N 维向量表示。笔者在 flask-keras-cnn-image-retrieval中采用的正是 MAX pooling 的方式。

上面所总结的 SUM pooling、AVE pooling 以及 MAX pooling，这三种 pooling 方式，在笔者做过的实验中，MAX pooling 要稍微优于 SUM pooling、AVE pooling。不过这三种方式的 pooling 对于 object retrieval 的提升仍然有限。

MOP pooling

MOP Pooling 源自 Multi-scale Orderless Pooling of Deep Convolutional Activation Features这篇文章，一作是 Yunchao Gong，此前在搞哈希的时候，读过他的一些论文，其中比较都代表性的论文是 ITQ，笔者还专门写过一篇笔记论文阅读：Iterative Quantization 迭代量化。MOP pooling 的基本思想是多尺度与 VLAD（VLAD 原理可以参考笔者之前写的博文图像检索：BoF、VLAD、FV 三剑客），其具体的 pooling 步骤如下：

图片来源：Day 2 Lecture 6 Content-based Image Retrieval

网站首页 > 技术文章正文

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

CNN中的maxpool到底是什么原理?

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: