通过利用模仿人类大脑工作原理的人工智能技术，汉字手写文字识别率达到96.7%

36大数据 • 10年前扫码分享

富士通研究开发中心有限公司（注1)（以下简称：FRDC）与株式会社富士通研究所（注2）（以下简称：富士通研究所）通过利用模仿人类大脑工作原理的人工智能技术，在世界范围内首次开发出了识别率达96.7％的手写文字识别技术，该精度超越了学会倡导的与人类识别精度相当的识别水平。

国际会议“ICDAR (International Conference on Document Analysis and Recognition)”在文档图像处理领域处于世界领先地位，FRDC与富士通研究所在该会议举办的手写文字（汉字）识别竞赛（注3）中获得第一名（识别率达到94.8%），实现了业界最高精度。为了进一步提高识别精度，需要进行变形文字的多样性学习，构筑多样性学习的新系统。

此次，基于可捕捉模仿人类大脑中文字特征的分层模型，为了扩大神经细胞间的连接规模，更为详细地学习文字的变形，开发出了可由文字基本模式自动生成各种变形模式的技术。该技术使手写文字(汉字)的识别率超越了与人类识别精度相当（注4）的96.1%，达到了96.7%。

通过该技术，可望实现计算机输入操作和确认工作的自动化。

【开发背景】

通常，人类可简单识别文字、图像、声音等媒体。但因为会发生识别对象的变形、明亮度不同等各种变化，并存在类似的对象物体，计算机很难轻易识别，该问题成为人工智能研究的一大课题。

FRDC与富士通研究所在文字识别领域拥有几十年的丰富经验，手写汉字识别技术在日本的金融、保险领域被广泛应用，并在中国政府的人口普查中得到采用，用于8亿张票据的识别，实现了商业化的技术水准。2010年开始从事基于深层学习(Deep Learning)的人工智能文字识别技术研究。2013年开发的人工智能文字识别技术，在文档图像处理权威国际会议举办的手写文字（汉字）识别竞赛中获得第一名（识别率达94.8%），实现了业界最高精度。

【课题】

文字识别技术基于设想的人类大脑神经细胞的分层连接模型，学习人类在识别时使用的众多文字模式特征，并进行记忆。输入文字图像后，首先在前段网络层捕捉文字的简单特征，然后再在后段网络层捕捉文字的复杂特征。这样就可以按层自动进行文字识别的有效特征提取，与特征(神经细胞)对应的学习结果按各文字存储起来。与输入文字时的学习一样，识别时也按层进行特征提取，基于学习结果，与特征（神经细胞）对应的文字被确认为识别结果并被输出。

为了进一步提高识别精度，需要进行变形文字的多样性学习，并构筑多样性学习的新系统。虽然已经实现了业界最高精度，但还未达到与人类相当的识别能力（识别率为96.1%）。

【开发的技术】

此次通过在设想的分层模型中，将神经细胞间的连接规模扩大50倍以上，我们开发出了可自动生成各种文字变形模式的技术。利用该技术，可进行更为细致的学习，手写文字（汉字）的识别率超越了与人类识别精度相当的96.1%，达到96.7%。开发的技术具有如下特征：

1. 扩大分层模型规模

此次，在用于文字识别的分层模型中，为了将神经细胞的连接规模扩大，能够更加细致地学习，我们将连接数由传统技术（识别率94.8%）的约280万增加到约1亿5千万，从而提高了识别精度（图1图2）。

图1 文字识别过程及在各神经细胞间学习到的特征的可视化

图2 扩大分层模型的规模以提取更多的特征

2. 基于三维随机变形生成各种文字样本

汉字作为识别对象，其文字种类大约有3,800种（注5），因此收集各文字的实际变形模式极为困难。为此，我们开发出了将现有文字样本进行随机变形，自动生成各种学习文字样本的技术。利用该技术，在分层模型中学习各种变形文字模式成为可能（图3）。

图3 基于三维随机变形生成学习文字样本

传统的随机变形方法只使用二维变形模型，不能模拟光影以及笔画轻重的变化。为此，我们开发了基于三维随机变形的文字样本生成技术。除文字模式图像上的X坐标、Y坐标外，将各像素的灰度值作为Z坐标的参数，即可生成各种变形模式。

【效果】

该技术使手写文字（汉字）的识别率超越了与人类识别精度相当的96.1％，达到96.7%。

通过该技术，有望实现计算机输入操作和确认工作的自动化。

【今后】

FRDC与富士通研究所将进一步推动文字识别技术的高精度化，以及文字以外的媒体识别应用，目标于2015年将该技术投入使用。

另外，我们也在探讨该技术对于数字、英文字母、日语等多种语言的文字识别应用。

【关于商标】

所列产品名称等固有名词为各公司商标或者注册商标。

【注释】

富士通研究开发中心有限公司：
总公司所在地中国北京，董事长佐佐木繁。
株式会社富士通研究所：
总公司所在地神奈川县川崎市，代表取缔役社长佐相秀幸。
手写文字（汉字）识别竞赛：
文档图像处理领域国际会议(ICDAR 2013)举办的手写文字（汉字）识别竞赛。
使用手写汉字数据库（3755类、715测试样本/类）进行。
与人类识别精度相当：
文档图像处理领域的国际会议(ICDAR 2013)举办的手写文字（汉字）识别竞赛中提及的识别率。
大约有3,800种:
中国《汉字内码扩展规范》中定义的一级汉字的数量，和日文常见汉字类似。

内容来源于富士通，地址>>>

End.