OCR-EAST算法随记

1. EAST

EAST: An Efficient and Accurate Scene Text Detector

paper : https://arxiv.org/pdf/1704.03155.pdf

code:

EAST算法整体框架如下图（e）所示，第一个阶段是一个全卷积网络，结合了Unet的跨层特征聚合操作，直接输出文本框的预测，第二个阶段是对生成的文本预测框（旋转矩形或者矩形）通过NMS输出最终结果。

核心思想：

提出两阶段的文本检测方法：全卷积网络(FCN)和非极大值抑制(NMS)，消除中间过程冗余，减少检测时间。
EAST可以检测单词级别，又可以检测文本行级别．检测的形状可以为任意形状的四边形。
采用了Locality-Aware NMS来对生成的几何进行过滤。

2. Pipeline

EAST结合了DenseBox和Unet网络中的特性，整体算法流程如下图所示：

   1.       Feature Extractor : 采用通用的CNN网络，例如VGG,ResNet等作为主干网络，提取特征。
   2.       Feature-Merging:   采用类似Unet的结构，将主干网络不同level的特征图进行聚合，采用的是   UnPooling+Conv的结构，主要是解决文本行尺度变化大的问题。Early stage可以预测小的文本行，Late stage可以预测大的文本行。
   3.       Output:  网络输出主要包含文本得分和文本形状相关信息的预测信息，不同文本形状（RBOX、QUAD），网络输出也有区分。
            * 对于旋转框，输出文本得分图+ AABB boundingbox（相对于top、right、bottom、left）的偏移  + rotate angle旋转角度 （1 + 4 + 1）。
            * 对于矩形框，输出文本得分图+ 四个顶点相对于pixel location的坐标偏移 （1 + 8）。

3. 训练标签设置

其中，RBOX的几何形状由4个通道的水平边界框（AABB）R和1个通道的旋转角度θ表示；AABB 4个通道分别表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离；QUAD使用8个数字来表示从矩形的四个顶点到像素位置的坐标偏移，由于每个距离偏移量都包含两个数字（Δxi;Δyi），因此几何形状输出包含8个通道。

score map 上QUAD的正面积为原图矩形区域的缩小版，如上图(a)(b)。

Box几何位置的确定，很多数据集(如ICDAR2015)是用QUAD的方式标注的，首先生成以最小面积覆盖区域的旋转矩形框。每个像素有一个正的分数值，我们计算它与文本框四边的距离，把它们放入四通道的RBOX 真值中，如上图（c,d,e）。对于QUAD真值，8通道几何形状图每个像素的正分数值是它与四边形4个顶点的坐标偏移。