1. RoI
RoI(Region of Interest), 从原图中通过某些区域选择方法得到的候选区域。
量化(quantization)是指将输入连续值(或者大量可能的离散值)采样为有限多个离散值的过程。或者理解为,将输入数据集(如实数)约束到离散集(如整数)的过程。
RoI Pooling 和 RoI Align 均是将任意大小的特征图(输入),映射为固定尺寸的特征(输出)。
2. RoI Pooling
RoI Pooling的作用本质上是为了将不同尺寸的RoI特征转换为相同的特征图输出,保证特征图展开(flatten)后具有相同的大小尺寸,能够与下层的全连接层连接,分别执行线性分类(linear classifier)和边框回归(bounding box regressor)
1 将RoI 对齐到特征图的网格单元(snap to grid cell)
首先将特征图上的浮点数RoI(举例 : 665 665 —> 665/32=20.78 —> 20.78 20.78 —> 20 20)进行量化。下图中绿色框为RoI对应的实际区域(*由于经过特征尺度变换,导致RoI的坐标会可能会落到特征图的单元之间), 蓝色框代表量化(网格对齐)后的RoI所对应的特征图。
2 划分网格为子区域
将上一步得到的量化RoI 特征进一步细分为量化的空间单元(bin)。为了得到输出的特征图为 2 2 512 ,这里的量化操作就是将上一步的到量化特征图划分为2 2个特征单元。如果无法通过直接均分得到量化的子区域,通过分别采取向上取整(ceil)和向下取整(floor)的到对应的单元尺寸大小。以当前 4 5 尺寸的特征图为例,对于宽度方向 4 / 2 = 2, 对于高度方向 5 / 2 = 2.5), 通过向上和向下取整整,确定高度方向特征子区域的大小分别为2和3。
- 3 子区域最大池化
在每一个子区域执行聚合操作得到单元的特征值(一般是最大池化)。对上一步得到的 2 2个子区域分别做最大池化操作,得到 2 2 * 512的目标特征图。
缺陷
每一次量化操作都会对应着轻微的区域特征错位(misaligned), 这些量化操作在RoI和提取到的特征之间引入了偏差。这些量化可能不会影响对分类任务,但它对预测像素精度掩模有很大的负面影响。
3. RoI Align
RoI Align在Mask RCNN中被首次提出,是针对RoI Pooling 在语义分割等精细度任务中的精确度的问题提出的改进方案。
- 1 遍历候选每个候选区域,保持浮点数边界不做量化(不对齐网格单元);同时平均分网格分为 2 * 2个子网格区域,每个单元的边界也不做量化。
2 对于每个区域选择4个规则采样点(分别对应将区域进一步平均分为四个区域,取每个子区域的中点)。
3 利用双线性插值计算得到四个采用点的像素值大小。下图为一个规则采样点所对应的邻近区域示意图。
- 4 利用最大池化(max pooling)或平均池化(average pooling)分别对每个子区域执行聚合操作,得到最终的特征图。
下图 绿色表示ROI区域额外信息, 蓝色(第一次量化)和天蓝色(第二次量化)表示丢失信息
4. PS-RoI Pooling
位置敏感池化,RFCN引入位置敏感池化,主要基于以下两方面原因
- 引入位置敏感,卷积可以保持位置信息,但是经过全连接后,位置信息不在保留。
- 对于region-based方法,通常会分为几个sub-network, 一是提取图像特征的主干网络,与region无关,各region共享,计算量大。二是生成候选区域的RPN网络,三是用来分类和回归的prediction网络, 每个region会单独执行这部分sub-network。而RFCN将计算量大卷积尽可能地移到共享的主干网络中,最后仅使用一层卷积做prediction,减少了计算量。
为了实现位置敏感就提出PS-ROI Pooling,核心思想是position sensitive score map。
把位置信息以层的形式就组成position sensitive score maps,进行一次卷积就计算了多个ROI的最终输出(固定长度)。
- 首先,在共享特征图之后添加1 1 k^2(c+1)维的卷积形成位置敏感特征图,然后在位置敏感特征图上进行PS-RoI Pooling。 k^2代表的是RoI中划分的位置区域数目。比如k=3, 即代表上左(左上角),上中,上右,中左,中中,中右,下左,下中,下右(右下角)共9个子区域。 c+1 代表所有类别加上背景。 k^2(c+1)张特征图每c+1张分成一组,共包含k^2组,每一组负责其对应区域的响应,如上图所示。
- 然后进行PS-RoI Pooling,对位置敏感特征图上的RoI区域划分子区域(k^2), 每个对应位置(c+1)内进行全局平均池化, 最后获得一组(c+1)* k^2的投票矩阵。
- 最后,每个类对应有9个位置的投票值,这9个值求和,就是这个类的概率。
5. RoI Align的反向传播
和ROI Pooling核心思想是一样的,但是在ROI Align中,i ∗ ( r , j )是一个浮点数的坐标位置(前向传播时计算出来的采样点),在池化前的特征图中,每一个与 i ∗ ( r , j ) 横纵坐标均小于1的点都应该接受与此对应的点y(r,j)回传的梯度,故ROI Align 的反向传播公式如下:
上式中,d(.)表示两点之间的距离,Δ h 和Δ w 表示 i 与 i ∗ ( r , j )横纵坐标的差值,这里作为双线性内插的系数乘在原始的梯度上。