Amazon研究人员用AI提高曲线文本识别，测试准确度超过83%

雷锋网 • 5年前扫码分享

光学字符识别（OCR），即将手写或打印文本的图像转换为机器可读文本，是一门可追溯到70年代早期的技术。

但是长期以来OCR算法一直很难识别出与水平面不平行的字符，于是Amazon的研发人员开发了一项叫“TextTubes”的技术。这是一个自然图像中曲线文本的检测器，可将文本建模为围绕其中轴线的管状。在一篇描述他们工作的论文中，合作者声称他们的方法在一个通用的OCR基准上达到了最先进的结果。

【图片来源： venturebeat 所有者：venturebeat 】

正如研究人员所解释的，场景文本通常被分成两个连续的任务：文本检测和文本识别。第一个涉及使用上下文线索来定位字符、单词和行，第二个是转录其内容。两者都说起来容易做起来难，自然环境中的文本不仅受到变形的影响，而且还会受到视点变化和字体的影响。

该团队的解决方案是利用文本参考框架的“管状”表现形式，利用目标文本通常是大小相似的字符串联而成的事实，从而捕获大部分可变性。与使用易于重叠和容易产生噪声的矩形和四边形来捕获文本信息的传统方法相比，它被公式化为一种数学函数，能够训练机器学习场景文本检测器。

研究人员在CTW-1500上评估了TextTubes的性能。CTW-1500是一个数据集，该数据集由从自然场景和图像库中收集的1500张图像（每个图像至少一个曲线实例），超过10000个文本实例组成。同时在Total-Text上进行了评估，Total-Text包含大约1255次训练图像、300个测试图像以及一个或多个曲线文本实例。 他们报告说，他们在CTW-1500上以83.65％的准确度取得了行业领先的结果，而最接近的方法的准确度为75.6％ 。

“对一个实例的中间轴和平均半径进行建模……可捕获有关实例整体的信息。”该论文的合著者写道。 “在由单个单词组成的数据集上，例如Total-Text，我们的模型能够实现最先进的性能。在具有行级注释的数据集上，例如CTW-1500，我们的模型能够更好地捕获实例中各个单词的文本信息。”

假设有一天，TextTubes能够投入使用，对于那些高度依赖OCR技术开展业务的企业来说，这可能是一个好消息。据估计，超过80%的数字流程中仍保留着纸张；大约有97%的小企业仍在使用纸质支票。据Grand View Research的数据显示，这或许就是为什么到2025年，OCR解决方案市场的价值预计将达到138.8亿美元原因。 (雷锋网雷锋网雷锋网 (公众号：雷锋网) )

via VB

。