0%

OCR-EAST算法随记

1. EAST

EAST: An Efficient and Accurate Scene Text Detector

paper : https://arxiv.org/pdf/1704.03155.pdf

code:

EAST算法整体框架如下图(e)所示, 第一个阶段是一个全卷积网络,结合了Unet的跨层特征聚合操作,直接输出文本框的预测,第二个阶段是对生成的文本预测框(旋转矩形或者矩形)通过NMS输出最终结果。

image-20220120160214048

核心思想:

  • 提出两阶段的文本检测方法:全卷积网络(FCN)和非极大值抑制(NMS),消除中间过程冗余,减少检测时间。
  • EAST可以检测单词级别,又可以检测文本行级别.检测的形状可以为任意形状的四边形。
  • 采用了Locality-Aware NMS来对生成的几何进行过滤。

2. Pipeline

EAST结合了DenseBox和Unet网络中的特性,整体算法流程如下图所示:

image-20220120161817544

   1.       Feature Extractor : 采用通用的CNN网络,例如VGG,ResNet等作为主干网络,提取特征。
   2.       Feature-Merging:   采用类似Unet的结构,将主干网络不同level的特征图进行聚合,采用的是   UnPooling+Conv的结构,主要是解决文本行尺度变化大的问题。Early stage可以预测小的文本行,Late stage可以预测大的文本行。
   3.       Output:  网络输出主要包含文本得分和文本形状相关信息的预测信息,不同文本形状(RBOX、QUAD),网络输出也有区分。
            * 对于旋转框,输出文本得分图+ AABB boundingbox(相对于top、right、bottom、left)的偏移  + rotate angle旋转角度 (1 + 4 + 1)。
            * 对于矩形框,输出文本得分图+ 四个顶点相对于pixel location的坐标偏移 (1 + 8)。

image-20220120163514308

3. 训练标签设置

image-20220120163711384

其中,RBOX的几何形状由4个通道的水平边界框(AABB)R和1个通道的旋转角度θ表示;AABB 4个通道分别表示从像素位置到矩形的顶部,右侧,底部,左侧边界的4个距离;QUAD使用8个数字来表示从矩形的四个顶点到像素位置的坐标偏移,由于每个距离偏移量都包含两个数字(Δxi;Δyi),因此几何形状输出包含8个通道。

score map 上QUAD的正面积为原图矩形区域的缩小版,如上图(a)(b)。

Box几何位置的确定,很多数据集(如ICDAR2015)是用QUAD的方式标注的,首先生成以最小面积覆盖区域的旋转矩形框。每个像素有一个正的分数值,我们计算它与文本框四边的距离,把它们放入四通道的RBOX 真值中, 如上图(c,d,e)。对于QUAD真值,8通道几何形状图每个像素的正分数值是它与四边形4个顶点的坐标偏移。

4. Loss

loss由两部分构成,score map loss 和 geometry loss, 具体的参数含义请参考论文:

image-20220120165422237

其中,分数图损失采用类平衡交叉熵损失,用于解决类别不平衡问题。

image-20220120165610853

其中,几何参数损失分两种情况

  • 针对旋转几何参数,采用IOU损失

    image-20220120165743212

  • 针对矩形几何参数,采用Smooth L1损失

    image-20220120165832461