远场识别、场景数据获取……语音识别还面临多少技术难题?
【编者按】 语音识别 是 人机交互 的基础。目前市面上的机器语音识别错误率超过15%甚至30%,一些公司宣传的机器识别准确率过高,真正的语音识别需要结合具体场景,解决远场语音识别、数据获取等问题。
曾轰动一时的电影《她》,讲述了男主人公与 人工智能 虚拟助手相爱的故事,这个人工智能对话系统能够同时与数百人进行对话。现实中,苹果Siri能够有目的地模仿人类,并拥有了不同的人类风格,像Siri这类智能软件助手正在与数以亿计的人类用户互动。
“语音识别现在已经有很多的产品,包括维语到汉语的翻译等等。人工智能目前落地最成功的就是语音识别技术。”中科院自动化研究所所长徐波告诉《瞭望》新闻周刊记者,要让机器理解人的语言,还面临很多挑战。
人机交互的基础
近日,全国首家互联网法院揭牌,案件庭审记录由语音输入系统即时完成。“互联网法院是远程的,原告、被告、法官不在同一个地方,将庭审麦克风接入语音识别的云端,就能够实时生成速记。 它使用的就是阿里云语音在线识别技术 。”阿里巴巴iDST智能语音团队负责人鄢志杰告诉《瞭望》新闻周刊记者。
语音识别是人机交互的基础,主要解决让机器听清楚人说什么的难题。早在1970年代,IBM沃森实验室的弗雷德里克·贾里尼克(Frederick Jelinek)就提出了 语音识别框架:声学模型和语言模型。
语音识别取得的重大突破,就在于引入了 深度神经网络 技术。“深度神经网络的方法,是通过大量的语音数据,训练出高精度的声学模型和语言模型,从而提升识别率。”浪潮集团人工智能与高性能计算总经理刘军告诉记者,浅层神经网络方法,是提取语音的特征,识别率比较低。
“教会机器听懂人话的过程,就是通过深度神经网络训练声学模型和语言模型的过程。”科大讯飞股份有限公司(简称科大讯飞)工程师丁瑞告诉记者,声学模型训练是教会机器哪个字词发什么音、该怎么连在一起读,有点像我们小学时候跟着老师读拼音。而语言模型训练则要教会机器什么样的命令或文字组合是合理的、更常见的。
在完成模型训练后,需要将其送入语音识别系统的解码引擎。“ 解码引擎的工作是在一个巨大的网络里进行搜索,这个网络由数亿节点及弧组成,并且里边已经糅合了训练好的声学模型和语言模型信息,搜索出来的最优路径上所携带的信息就是对应的语音识别结果了。 ”丁瑞介绍,解码引擎的运算效率至关重要,直接影响到用户体验。目前,科大讯飞的解码引擎可以在用户说完话40毫秒之内给出结果。
“一般的深度学习算法只能看到上下文的一点点,我们试验最成功的是BLSTM算法(双向长短时记忆神经网络)。通常一句话讲完才能出识别结果,但BLSTM算法理论上可以看到无穷远的上下文,可以更好地理解人类的语言。”鄢志杰说,BLSTM算法是深度学习中的一种,对单位时间内的计算量要求很高,他们研发出的LC—Blstm系统,将语音解码速率提升了三倍,并在业界最先大规模上线了基于这一技术的语音识别系统。
提高识别准确率有多难
目前,国外一些大公司提出,他们研发的语言识别系统已经十分接近人类听力水平。国内也有多家公司提出,他们的语音识别系统达到90%以上的正确率。
鄢志杰认为,脱离了应用场景讲识别准确率并不现实。“比如一个IT方面的会议,会场上演讲嘉宾的语音识别准确率基本能达到95%,但如果突然邀请一个医疗领域的讲演者,就很难达到同样高的识别率,因为现有模型在医疗领域的知识积累不够。”
“正常人际交流情况下, 机器语音识别错误率超过15%甚至30%,而一些公司宣传的机器识别准确率过高,速记员都达不到这一水平 。”鄢志杰认为,这样的宣传会让公众误认为语音识别问题得到了完全解决。
“语音识别要进入到机器语音识别错误率超过15%甚至30%,而一些公司宣传的机器识别准确率过高,速记员都达不到这一水平,还有很多相关的工作需要去完成,不能单靠深度神经网络的方法来实现。”刘军说,语音识别准确率涉及多方面原因,例如远场精确识别就是业界难题。
远场语音识别基本采用麦克风阵列方案,通过波束成形和精准定位的技术方案,解决远场拾音、噪声、混响等问题。“目前科大讯飞的语音识别距离已经达到5米,同时有国际领先的回音消除技术,消除量可以达到50db。”丁瑞说。
受访专家认为, 应用麦克风阵列做定位和聚焦可解决远场识别问题,识别率较之前有了大幅提高。 例如在落下车窗的快速行驶汽车中,可成功唤醒车载语音识别功能。
“现在有很多大量近讲的数据,例如手机、录音棚中的数据,将其放在一个房间内播放,就能测得房间的冲击响应,可以模拟远场数据。由此建立代表近讲信号与远场信号的不同模型。”鄢志杰介绍道。
受访专家表示,远场识别在一些场景中的应用并不理想,例如机场、火车站、大型会场等环境嘈杂的地方。徐波告诉记者,现在用的麦克风阵列,能辨别人说话的方位,但如果多个声源在相近的方位还是难以识别。
语音识别应用推广的另一短板表现在场景数据的获取。 场景是用户群体、语言风格、语音信道、使用环境等综合性的描述。“中文语法的随意性比较大,还有场景中的方言因素,解决这一问题的方法主要是靠数据训练模型,我们需要一个很大的数据库。”徐波说。
“数据获取的成本非常高,需要收集全国各地的各种口音数据,并使用人工把发音和文字一句一句地标注对应好,变成所谓的熟数据,才能交由机器学习。我们已经做了几万小时的这种声音。”徐波提到,用目前的方法,机器有多少智能,背后一定赋予了多少人力投入。
刘军认为,虽然现在使用互联网服务,数据很容易上传到云端,标注后就可以用,但目前还没有很好的方法替代“人工标注”这一工作。
“ 数据是燃料,云计算背景下,怎样做大规模低成本的定制化语音服务非常重要,如果成本不能控制,生意就做不下去。 ”鄢志杰说,为节省成本,阿里iDST采用了数据模型自适应的一系列算法。例如为电话客服场景做语音识别训练模型就需要用大量的数据,但这个模型就可以迁移到保险公司客服的模型中去,而不需要用大量数据重新训练保险公司的客服模型。
“自然语言理解”难题待解
“在计算机的世界里,理解对话系统不再是什么古怪的创新,而是一种逐渐成为主流的交互方式。”《纽约时报》高级科技记者、普利策奖得主约翰·马尔科夫(John Markoff)在其著作《与机器人共舞》中提出。
与机器对话是人与计算机之间的双向信息交换,即人传达给机器一个信息,机器会反馈给人一个信息。语音的交互已经广泛应用于智能硬件、智能家居、智能机器人等领域。随着亚马逊打开智能音箱的市场,各巨头公司争相逐鹿,打响了“百箱大战”,如谷歌推出了Google Home、苹果上线了HomePod等。国内来看,科大讯飞推出了“叮咚智能音箱”,阿里发布了智能音箱“天猫精灵X1”等。
受访专家认为, 语音识别属于感知智能,而让机器从简单的识别语音到理解语音,则上升到了认知智能层面,机器的自然语言理解能力如何,也成为了其是否有智慧的标志。
在机器理解人的语言方面,专家的意见非常一致,即 自然语言理解是人工智能的难点 。机器对语言理解本身的准确率非常低,并不是非常聪明。但在马尔科夫看来,人机交互是机器的终极智慧。
“全世界基于自然语言理解的人机对话领域,还没有万流归宗的方法论,在工业界无法形成应用。”鄢志杰说,相比之下,基于深度神经网络学习的语音识别技术已经形成固定的流派,只是互相之间用的声学模型、语言模型各有特色。
“语言的理解非常困难,需要知识的储备,而机器缺乏常识。”徐波举例说,“张三吃食堂”、“能穿多少穿多少”。这样的句子机器理解不了。“因为它包含了我们生活中的很多常识。比如说‘张三吃食堂’,实际上是说张三在食堂吃饭,不是把食堂吃下去。不同季节说‘能穿多少穿多少’意思也是不一样的:在夏天说,意思就是太热了尽量少穿;在冬天说,意思则是多穿点别着凉。”徐波告诉记者,常识是我们从小到大、通过与现实物理世界不断交互感知和学习产生的,而 计算机怎么去表示、获取、学习常识,并将常识与数据结合是个挑战,全世界都还没有解决这个问题。
徐波告诉记者,目前机器服务多为简单查询,不涉及“推理”查询类信息服务,而且缺乏基本语言理解能力。“你问机器明天这个天气状况会造成航班延误吗?机器回答不了。你让机器推荐一个附近的餐厅,不要日本菜,机器推荐的没准就是日本餐厅。
专家认为,机器基本不具有的上下文功能,也让人机交互之间难以顺畅进行。目前开放领域的聊天系统,会根据用户输入的语句生成系统的回答语句。 这种系统采用单轮的一问一答方式训练,而对于多轮交互才能完成的对话,机器无法将聊天中的上下文信息关联起来,导致交流不畅。
“ 人与人之间的交流,最重要的就是持续、双向、可打断。 为实现自然流畅的交互,科大讯飞采用了一个全链路的贯穿过程,需要包括持续的语音唤醒、人声检测、智能断句、无效语音拒识等各个模块相互配合才能完成。”丁瑞说,智能断句主要是在识别过程中,用语义信息来预测和判定。以点歌为例,用户经常会说,我想听……周杰伦的歌,中间会有思考过程。此时后端的断句引擎必须等待后续的有效音频,给出完整的理解内容。但如果用户停顿时间过长,后端引擎也会给出响应,比如会问:您要听谁的歌,以做出更好的引导提示。
虽然各方在积极探索机器的自然语言理解实现路径,但要实现电影《她》中的强人工智能,还有待时日。
2018年8月24日,亿欧将在北京举办“ 科技落地 物链未来——GIIS 2018物流产业创新峰会 ”,就传统物流企业、制造企业、物流科技应用场景及实操、物流科技新畅想等议题,携行业人士一同探讨新机遇下物流科技如何更好落地及发展走向。
报名链接: https://www.iyiou.com/post/ad/id/638