通过利用模仿人类大脑工作原理的人工智能技术,汉字手写文字识别率达到96.7%
富士通研究开发中心有限公司(注1)(以下简称:FRDC)与株式会社富士通研究所(注2)(以下简称:富士通研究所)通过利用模仿人类大脑工作原理的人工智能技术,在世界范围内首次开发出了识别率达96.7%的手写文字识别技术,该精度超越了学会倡导的与人类识别精度相当的识别水平。
国际会议“ICDAR (International Conference on Document Analysis and Recognition)”在文档图像处理领域处于世界领先地位,FRDC与富士通研究所在该会议举办的手写文字(汉字)识别竞赛(注3)中获得第一名(识别率达到94.8%),实现了业界最高精度。为了进一步提高识别精度,需要进行变形文字的多样性学习,构筑多样性学习的新系统。
此次,基于可捕捉模仿人类大脑中文字特征的分层模型,为了扩大神经细胞间的连接规模,更为详细地学习文字的变形,开发出了可由文字基本模式自动生成各种变形模式的技术。该技术使手写文字(汉字)的识别率超越了与人类识别精度相当 ( 注4)的96.1%,达到了96.7%。
通过该技术,可望实现计算机输入操作和确认工作的自动化。
【开发背景】
通常,人类可简单识别文字、图像、声音等媒体。但因为会发生识别对象的变形、明亮度不同等各种变化,并存在类似的对象物体,计算机很难轻易识别,该问题成为人工智能研究的一大课题。
FRDC与富士通研究所在文字识别领域拥有几十年的丰富经验,手写汉字识别技术在日本的金融、保险领域被广泛应用,并在中国政府的人口普查中得到采用,用于8亿张票据的识别,实现了商业化的技术水准。2010年开始从事基于深层学习(Deep Learning)的人工智能文字识别技术研究。2013年开发的人工智能文字识别技术,在文档图像处理权威国际会议举办的手写文字(汉字)识别竞赛中获得第一名(识别率达94.8%),实现了业界最高精度。
【课题】
文字识别技术基于设想的人类大脑神经细胞的分层连接模型,学习人类在识别时使用的众多文字模式特征,并进行记忆。输入文字图像后,首先在前段网络层捕捉文字的简单特征,然后再在后段网络层捕捉文字的复杂特征。这样就可以按层自动进行文字识别的有效特征提取,与特征(神经细胞)对应的学习结果按各文字存储起来。与输入文字时的学习一样,识别时也按层进行特征提取,基于学习结果,与特征(神经细胞)对应的文字被确认为识别结果并被输出。
为了进一步提高识别精度,需要进行变形文字的多样性学习,并构筑多样性学习的新系统。虽然已经实现了业界最高精度,但还未达到与人类相当的识别能力(识别率为96.1%)。
【开发的技术】
此次通过在设想的分层模型中,将神经细胞间的连接规模扩大50倍以上,我们开发出了可自动生成各种文字变形模式的技术。利用该技术,可进行更为细致的学习,手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。开发的技术具有如下特征:
1. 扩大分层模型规模
此次,在用于文字识别的分层模型中,为了将神经细胞的连接规模扩大,能够更加细致地学习,我们将连接数由传统技术(识别率94.8%)的约280万增加到约1亿5千万,从而提高了识别精度(图1图2)。
图1 文字识别过程及在各神经细胞间学习到的特征的可视化
图2 扩大分层模型的规模以提取更多的特征
汉字作为识别对象,其文字种类大约有3,800种(注5),因此收集各文字的实际变形模式极为困难。为此,我们开发出了将现有文字样本进行随机变形,自动生成各种学习文字样本的技术。利用该技术,在分层模型中学习各种变形文字模式成为可能(图3)。
图3 基于三维随机变形生成学习文字样本
【效果】
该技术使手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。
通过该技术,有望实现计算机输入操作和确认工作的自动化。
【今后】
FRDC与富士通研究所将进一步推动文字识别技术的高精度化,以及文字以外的媒体识别应用,目标于2015年将该技术投入使用。
另外,我们也在探讨该技术对于数字、英文字母、日语等多种语言的文字识别应用。
【关于商标】
所列产品名称等固有名词为各公司商标或者注册商标。
【注释】
-
富士通研究开发中心有限公司:
总公司所在地 中国北京,董事长 佐佐木繁。 -
株式会社富士通研究所:
总公司所在地 神奈川县川崎市,代表取缔役社长 佐相秀幸。 -
手写文字(汉字)识别竞赛:
文档图像处理领域国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛。
使用手写汉字数据库(3755类、715测试样本/类)进行。 -
与人类识别精度相当:
文档图像处理领域的国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛中提及的识别率。 -
大约有3,800种:
中国《汉字内码扩展规范》中定义的一级汉字的数量,和日文常见汉字类似。
内容来源于富士通, 地址>>>
End.