0%

PSPNet-金字塔场景解析模型

一 、PSPNet简介

Pyramid Scene Parsing Network 金字塔场景解析

image-20220414150732882

  • PSPNet 通过金字塔池模块和提出的金字塔场景解析网络,聚合了基于不同区域的上下文信息,来挖掘全局上下文信息的能力。
  • PSPNet为像素级场景解析提供了有效的全局上下文先验。
  • 在计算量方面,PSPNet并没有比原来的空洞卷积FCN网络有很大的增加。
  • 金字塔池化模块可以收集具有层级的信息,比全局池化更有代表性。
  • 在端到端学习中,全局金字塔池化模块和局部FCN特征可以被同时训练。

PSP提出的契机:

  • 基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景中的类别线索 :
    • 分割结果不够精细
    • 没有考虑上下文

PSPNet效果好的主要原因:

  • 多尺度特征融合

  • 基于结构进行预测

    PSPNet通过利用不同大小的池化来增大感受野从而融合上下文全局信息。

image-20220414151044454

二、Pyramid Pooling Module

  • 为了进一步减少不同子区域间上下文信息的丢失,PSPNet 提出了一个有层次的全局先验结构(金字塔池化模块),包含不同尺度、不同子区域间的信息
  • 可以在深层神经网络的最终层特征图上构造全局场景先验信息

PSP 模块:

  • ① 将输入为 NCHW 特征图变成4个 HW 不同的特征图(1x1、2x2、3x3、6x6)
  • ② 通过 1x1 的卷积给4个不同的特征图进行降维
  • ③ 将4个不同的特征图通过上采样变为输入特征图大小
  • ④ 将输入特征图和4个经过上采样后的特征图进行拼接

image-20220414151404974

PSP 模块的具体操作:

  • ① 自适应池化 : 将输入的特征图变成任意大小的特征图
  • ② 1x1卷积 : 改变特征图的通道大小
  • ③ Upsample : 将输入特征图的 HW 变大
  • ④ Concat : 将多个特征图, 通过某一维度拼接起来

image-20220414151502670

三、BackBone

Dilated ResNet:

  • 在 ResNet 的第4、5层(全连接层的前两层)采用 Dilation 为 2、4 的卷积
  • 在 PSPNet 中我们只采用 Dilated ResNet 全连接层前的部分

image-20220414152841780

image-20220414152947788

四、 实验结果

image-20220414153602272

image-20220414153614712