云从科技 OCR 新突破:端到端的深度学习文本检测框架 Pixel-Anchor
雷锋网
(公众号:雷锋网)
AI 科技评论消息,日前,云从科技在自然场景 OCR 中的文本检测这个环节取得了技术突破,在检测准确率和检测效率两个综合维度上,获得了至今为止最好的结果。这一事件在雷锋网旗下学术频道 AI 科技评论数据库项目「
AI 影响因子
」中有相应加分。以下为他们对此次使用的深度学习文本检测框架 Pixel-Anchor 的解读。
背景导读
OCR 技术有着悠久的发展历史,从上世纪 60 年代第一个识别英文字母的 OCR 产品面世以来,OCR 的识别领域逐步扩展到数字、符号,进而其他语言,譬如拉丁语系中的法文、德文、意大利文等,东亚语系中的中文、日文、韩文等。OCR 一般包含两个基本模块,文本检测和文本识别。在深度学习技术发展之前,传统 OCR 的文本检测依赖于一些浅层次的图像处理方法或者图像分割方法以及一些复杂繁琐的后处理技术进行文字定位,譬如早期基于二值化的连通域提取,或者后期基于极大稳定区域的字符区域提取,之后再配合这些被提取区域进行一系列的连接操作来完成最终的文本定位。因为这些技术的使用,传统 OCR 所处理的对象往往局限于成像清晰,背景干净,字体简单而同时又排列规整的文档图像。
随着深度学习的发展,在 OCR 的文本检测领域中,也涌现出一系列端到端的深度学习检测框架,OCR 所能处理的对象逐步从高质量的文档图像扩展到成像质量高低不等、背景复杂、字体多样、文本方向任意的自然场景中。应用范围也从文档识别扩展到图片广告过滤、场景理解、商品识别、街景定位、票据识别等广泛的领域。下图是几个自然场景文本检测的例子。
目前基于深度学习的文本检测框架可以分为两类,一类是基于像素级别的图像语义分割,另一类是来源于通用的物体检测框架,譬如基于锚 (anchor) 的检测和回归。
基于像素分割的文本检测框架首先通过图像语义分割获得可能的文本像素,之后通过像素点直接回归或者对文本像素的聚合得到最终的文本定位;而基于锚检测回归的文本检测框架是在通用物体检测的基础之上,通过设置更多不同长宽比的锚来适应文本变长的特性,以达到文本定位的效果。
基于像素分割的文本检测往往具有更好的精确度,但是对于小尺度的文本,因为适用的文本像素过于稀疏,检出率通常不高,除非以牺牲检测效率为代价对输入图像进行大尺度的放大;基于锚检测回归的文本检测对文本尺度本身不敏感,对小文本的检出率高,但是对于大角度的密集文本块,锚匹配的方式会不可避免的陷入无法适从的矛盾之中,此外,由于这种方法是基于文本整体的粗粒度特征,而并不是基于像素级别的精细特征,它的检测精度往往不如基于像素分割的文本检测。对于中文这样文本长度跨度很大的语言,目前的这两种方法在长文本上的效果都不尽人意。
针对这些问题,云从科技提出了一种端到端的深度学习文本检测框架 Pixel-Anchor,通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。
此外,对于如中文这样文本长度跨度很大的语言,在 Pixel-Anchor 中,云从科技提出了一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。如前所述,在两个具有挑战性的自然场景文本检测测试集 ICDAR2015 以及 ICDAR2017 MLT,Pixel-Anchor 在检测准确率和检测效率两个综合维度上,获得了至今为止最好的结果(具体结果见下面 Table 1,Table 2 和 Table 3)。该框架在满足生产环境实时性要求的基础上获得了很高的检测准确率,目前已在云从科技的证件票据识别系统和图片广告过滤系统中上线。
Pixel-Anchor 这套文本检测框架,和目前主流的文本检测框架相比,提出了两个大的改进点:
第一点是提出了把像素级别的图像语义分割以及基于锚的检测回归方法高效融合在一起,可端到端训练的检测网络。在该网络中,像素级别的图像语义分割以及基于锚的检测回归方法共享基础特征,而像素级别的图像语义分割结果作为一种注意力机制,用以监督锚检测回归的执行过程,在有效保证文本检出率的同时,提升了文本检测的精度。
总体框架见上图,Pixel-Anchor 采用学术界通用的 ResNet-50 作为特征提取主干网络,提取出 1/4,1/8,1/16 的特征图作为像素级别语义分割模块(Figure 5)以及锚检测回归模块(Figure 6)的基础特征,同时语义分割模块的输出结果以热力图的形式注入到锚检测回归模块中。整个网络简单轻巧,可通过 ADAM 优化方法进行端到端的训练。
第二点是在锚检测回归这个模块中引入了自适应预测层「Adaptive Predictor Layer」,该预测层连接在不同层级的特征图之后,根据各特征图感受野的不同,调整锚的长宽比,卷积核的形状以及锚的空间密度(anchor density,见 Figure 7),用以高效的获得各特征图上的文本检测结果,进而对文本长度的变化获得更好的适应性。自适应预测层在检测水平长文本上的性能非常出色,和经典的 CTPN 方法相比,这一方法不需要复杂的后处理,更鲁棒的同时效率更高。
论文地址: https://arxiv.org/abs/1811.07432
(完)
雷锋网版权文章,未经授权禁止转载。详情见。