一 、PSPNet简介
Pyramid Scene Parsing Network 金字塔场景解析
- PSPNet 通过金字塔池模块和提出的金字塔场景解析网络,聚合了基于不同区域的上下文信息,来挖掘全局上下文信息的能力。
- PSPNet为像素级场景解析提供了有效的全局上下文先验。
- 在计算量方面,PSPNet并没有比原来的空洞卷积FCN网络有很大的增加。
- 金字塔池化模块可以收集具有层级的信息,比全局池化更有代表性。
- 在端到端学习中,全局金字塔池化模块和局部FCN特征可以被同时训练。
PSP提出的契机:
- 基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景中的类别线索 :
- 分割结果不够精细
- 没有考虑上下文
PSPNet效果好的主要原因:
多尺度特征融合
基于结构进行预测
PSPNet通过利用不同大小的池化来增大感受野从而融合上下文全局信息。
二、Pyramid Pooling Module
- 为了进一步减少不同子区域间上下文信息的丢失,PSPNet 提出了一个有层次的全局先验结构(金字塔池化模块),包含不同尺度、不同子区域间的信息
- 可以在深层神经网络的最终层特征图上构造全局场景先验信息
PSP 模块:
- ① 将输入为 NCHW 特征图变成4个 HW 不同的特征图(1x1、2x2、3x3、6x6)
- ② 通过 1x1 的卷积给4个不同的特征图进行降维
- ③ 将4个不同的特征图通过上采样变为输入特征图大小
- ④ 将输入特征图和4个经过上采样后的特征图进行拼接
PSP 模块的具体操作:
- ① 自适应池化 : 将输入的特征图变成任意大小的特征图
- ② 1x1卷积 : 改变特征图的通道大小
- ③ Upsample : 将输入特征图的 HW 变大
- ④ Concat : 将多个特征图, 通过某一维度拼接起来
三、BackBone
Dilated ResNet:
- 在 ResNet 的第4、5层(全连接层的前两层)采用 Dilation 为 2、4 的卷积
- 在 PSPNet 中我们只采用 Dilated ResNet 全连接层前的部分