Pooling分析

        由Yann Lecun, Yoshua Bengio, Geoffery Hinto撰写的Deep Learning Review(发表在Nature)中提到了池化层能够reduce the dimensionality of the representation, create an invariance to small shifts and distortions. 池化层能够降低特征表示的维度这个很好理解,伴随来的副作用是局部特征信息的损失,想象如果池化层的filtering bank不是通常的2×2维的矩阵,而是更大维度的矩阵,用max pooling 或者average pooling,信息会损失更多,而且因为每层卷积后都跟着池化层,实际上是相当于在特征的每个提取阶段,从低级特征到中级特征再到高级特征,都有略微的信息损失,因为做了多层的pooling,而不是只做一次pooling,这也是设计上的一个trick啊.这是计算复杂度和性能的trade-off, 信息如果不损失,模型的性能当然会更好,最后得到的特征表示更全面,随着计算能力的提高,这一点也在逐渐得到缓和。
         第二个作用是具有一定程度上的平移和失真不变性,注意原文是说small shifts and distortions,我把他翻译成一定程度,这个程度我认为取决于pooling层中的filtering bank的维度大小,维度越高,在保持性能相同的前提下,图像可平移的距离越大,当然这本身就和上面的信息损失相冲突. 对于失真的理解,假设有一副包含人脸的图像64×64 维,你把图像左边这一列或者前几列的像素值都人为置为[0,255]中的某一个数,这时候池化层反而在一定程度上能够过滤掉这些不相关的像素值(通过max或average掉filtering bank对应的像素值)。

Pooling 的意义:
  • 减少参数。通过对 Feature Map 降维,有效减少后续层需要的参Translation
  • Invariance。它表示对于 Input,当其中像素在邻域发生微小位移时,Pooling Layer 的输出是不变的。这就使网络的鲁棒性增强了,有一定抗扰动的作用。
  • 可以显著的增加接受野
Pool的问题:
  • 池化导致信息损失。想想最大池化的例子,n个数字中我们只保留最大的,把余下的 n-1 完全舍弃了。
池化的平移不变性:
        如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性 (translation invariant)。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的 (池化的) 特征
注意这两点:
1、连续范围
2、池化相同隐藏单元产生的特征
         这意思是指,在池化单元内部能够具有平移的不变性,它的平移范围也是有一定范围的,因为每个池化单元都是连续的,所以能够保证图像整体上发生了平移一样能提取特征进行匹配。
        无论是max还是average都是在提取区域特征,均相当于一种抽象,抽象就是过滤掉了不必要的信息(当然也会损失信息细节),所以在抽象层次上可以进行更好的识别。         至于max与average效果是否一样,还是要看需要识别的图像细节特征情况,这个不一定的,不过据说差异不会超过2%。
不过仔细点说的话,评估特征提取的误差主要来自两个方面:
(1)邻域大小受限造成的估计值方差增大,average能减小这种误差。
(2)卷积层参数误差造成估计均值的偏移,max能减小这种误差。
        也就是说,average对背景保留更好,max对纹理提取更好,如果是识别字体什么的,应该考虑max.
        在很多任务中 (例如物体检测、声音识别),我们都更希望得到具有平移不变性的特征,因为即使图像经过了平移,样例(图像)的标记仍然保持不变。例如,如果你处理一个MNIST数据集的数字,把它向左侧或右侧平移,那么不论最终的位置在哪里,你都会期望你的分类器仍然能够精确地将其分类为相同的数字。

获取high-level需要多个池化操作:
  • 池化操作减少feature的空间分辨率的同时增加了模型接受野,这也是模型应对小型平移具有鲁棒性的根本。多次使用池化操作就很难追踪low-level的feature了(例如边沿,边界等)。这就让识别和准确定位产生了矛盾。
  • 如果网络不采取任何池化操作,这在目标边界定位上效果较好(卷积的目的是为了得到物体的边缘形状),但是识别性能差。
参考链接:
  1. https://blog.csdn.net/qq_18644873/article/details/84949649
  2. https://blog.csdn.net/u011974639/article/details/79561297
  3. https://www.zhihu.com/question/34898241
  4. https://arxiv.org/pdf/1804.04438.pdf

本文总结于网络文章,加入了个人理解,仅用于个人学习研究,不得用于其他用途,如涉及版权问题,请联系邮箱513403849@qq.com

Leave a Reply

Your email address will not be published. Required fields are marked *