通过利用模仿人类大脑工作原理的人工智能技术,汉字手写文字识别率达到96.7%

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

富士通研究开发中心有限公司(注1)(以下简称:FRDC)与株式会社富士通研究所(注2)(以下简称:富士通研究所)通过利用模仿人类大脑工作原理的人工智能技术,在世界范围内首次开发出了识别率达96.7%的手写文字识别技术,该精度超越了学会倡导的与人类识别精度相当的识别水平。

国际会议“ICDAR (International Conference on Document Analysis and Recognition)”在文档图像处理领域处于世界领先地位,FRDC与富士通研究所在该会议举办的手写文字(汉字)识别竞赛(注3)中获得第一名(识别率达到94.8%),实现了业界最高精度。为了进一步提高识别精度,需要进行变形文字的多样性学习,构筑多样性学习的新系统。

此次,基于可捕捉模仿人类大脑中文字特征的分层模型,为了扩大神经细胞间的连接规模,更为详细地学习文字的变形,开发出了可由文字基本模式自动生成各种变形模式的技术。该技术使手写文字(汉字)的识别率超越了与人类识别精度相当 ( 注4)的96.1%,达到了96.7%。

通过该技术,可望实现计算机输入操作和确认工作的自动化。

【开发背景】

通常,人类可简单识别文字、图像、声音等媒体。但因为会发生识别对象的变形、明亮度不同等各种变化,并存在类似的对象物体,计算机很难轻易识别,该问题成为人工智能研究的一大课题。

FRDC与富士通研究所在文字识别领域拥有几十年的丰富经验,手写汉字识别技术在日本的金融、保险领域被广泛应用,并在中国政府的人口普查中得到采用,用于8亿张票据的识别,实现了商业化的技术水准。2010年开始从事基于深层学习(Deep Learning)的人工智能文字识别技术研究。2013年开发的人工智能文字识别技术,在文档图像处理权威国际会议举办的手写文字(汉字)识别竞赛中获得第一名(识别率达94.8%),实现了业界最高精度。

【课题】

文字识别技术基于设想的人类大脑神经细胞的分层连接模型,学习人类在识别时使用的众多文字模式特征,并进行记忆。输入文字图像后,首先在前段网络层捕捉文字的简单特征,然后再在后段网络层捕捉文字的复杂特征。这样就可以按层自动进行文字识别的有效特征提取,与特征(神经细胞)对应的学习结果按各文字存储起来。与输入文字时的学习一样,识别时也按层进行特征提取,基于学习结果,与特征(神经细胞)对应的文字被确认为识别结果并被输出。

为了进一步提高识别精度,需要进行变形文字的多样性学习,并构筑多样性学习的新系统。虽然已经实现了业界最高精度,但还未达到与人类相当的识别能力(识别率为96.1%)。

【开发的技术】

此次通过在设想的分层模型中,将神经细胞间的连接规模扩大50倍以上,我们开发出了可自动生成各种文字变形模式的技术。利用该技术,可进行更为细致的学习,手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。开发的技术具有如下特征:

1. 扩大分层模型规模

此次,在用于文字识别的分层模型中,为了将神经细胞的连接规模扩大,能够更加细致地学习,我们将连接数由传统技术(识别率94.8%)的约280万增加到约1亿5千万,从而提高了识别精度(图1图2)。

文字识别
图1 文字识别过程及在各神经细胞间学习到的特征的可视化

文字识别
图2 扩大分层模型的规模以提取更多的特征

2. 基于三维随机变形生成各种文字样本

汉字作为识别对象,其文字种类大约有3,800种(注5),因此收集各文字的实际变形模式极为困难。为此,我们开发出了将现有文字样本进行随机变形,自动生成各种学习文字样本的技术。利用该技术,在分层模型中学习各种变形文字模式成为可能(图3)。

文字识别
图3 基于三维随机变形生成学习文字样本

传统的随机变形方法只使用二维变形模型,不能模拟光影以及笔画轻重的变化。为此,我们开发了基于三维随机变形的文字样本生成技术。除文字模式图像上的X坐标、Y坐标外,将各像素的灰度值作为Z坐标的参数,即可生成各种变形模式。

【效果】

该技术使手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。

通过该技术,有望实现计算机输入操作和确认工作的自动化。

【今后】

FRDC与富士通研究所将进一步推动文字识别技术的高精度化,以及文字以外的媒体识别应用,目标于2015年将该技术投入使用。

另外,我们也在探讨该技术对于数字、英文字母、日语等多种语言的文字识别应用。

【关于商标】

所列产品名称等固有名词为各公司商标或者注册商标。

【注释】

  1. 富士通研究开发中心有限公司:
    总公司所在地 中国北京,董事长 佐佐木繁。
  2. 株式会社富士通研究所:
    总公司所在地 神奈川县川崎市,代表取缔役社长 佐相秀幸。
  3. 手写文字(汉字)识别竞赛:
    文档图像处理领域国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛。
    使用手写汉字数据库(3755类、715测试样本/类)进行。
  4. 与人类识别精度相当:
    文档图像处理领域的国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛中提及的识别率。
  5. 大约有3,800种:
    中国《汉字内码扩展规范》中定义的一级汉字的数量,和日文常见汉字类似。

内容来源于富士通, 地址>>>

End.

随意打赏

提交建议
微信扫一扫,分享给好友吧。