智能语音，能听会说能纠错才是真智能

雷锋网 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

先看一分钟视频【来源：东方卫视】：

2014年，奥斯卡最佳原创剧本奖颁给了一部人工智能影片——《Her》，讲述的是男主角与电脑语音助手之间的浪漫爱情。风靡全球的科幻动画片《超能陆战队》，萌萌的“大白” 机器人的沟通毫无障碍，既诙谐又温情。而最近，两部接连上映的好莱坞科幻大片《超能查派》与《复仇者联盟2》，核心角色都是高科技的人工智能生命体……

随着科技发展，曾是科幻小说与影视作品中常见元素的人工智能，也逐渐走入我们的真实生活。而当我们谈论“人工智能”的时候，必定离不开谈及语音交互。人类的交互是自由而任性的，传统的，而人类语言如此多元，情感又恨丰富，木讷的“一根筋”式的语音交互识别，根本已经完全不能满足自由的人机沟通的需求。

近日，在上海交大举办的中德双边研讨会上，思必驰-上海交大智能语音实验室发布了认知型人机对话系统技术，打破人与设备之间的沟通屏障。该技术已进入应用开发阶段，有望于年底植入车载、家庭影院等领域。

突破技术瓶颈 “自适应语音识别”打造更好的智慧型人机交互

智能语音实验室的负责人俞凯介绍，传统语音识别是解决特定环境下的语音到文字转换，这是模拟耳朵的感知功能；而更关键的是解决完整的口语人机交互问题，这是模拟人脑的全套认知功能。认知型的智能语音技术是更高层面的人工智能，它融入了自适应、理解纠错、智能反馈的认知技术。这会使得机器可以适应更多的环境和口音，具有进化调整的能力，从“能听会说”变成“会听能做”：即听得懂说的，懂得听什么，听不清楚了能问，搞错了能纠正，最终能成功完成用户的任务。

思必驰-上海交大智能语音实验室研发的语音识别自适应技术，采用了软硬件结合的抗噪技术、结构化深度学习技术、环境和说话人的自动检测及模型自适应调整技术，可以随着说话人口音和噪声环境的变化，自动选择最合适的模型进行识别，显著提升准确率。

人性化语音交互，告别单一语音识别时代

就像人类在听不清的时候也可以进行理解和对话一样，新型的人性化智能语音交互技术就包括了“深度理解”，以及“自动纠错”的技术。

“深度理解”深度理解是把机器的识别状态（比如识别结果的可靠度、环境嘈杂程度等）、用户的个人特点（比如性别、方言地区、说话快慢等），和说话的情境（比如谈话的领域，常识，前面谈话的历史等）等因素从大数据中提取出来，根据这些“情境”对识别结果再进行二次计算，使得语义理解的准确度大大提高。

在有歧义和错误的的情况下，机器仍然可以通过多人人机对话。让机器识别和理解人的自然语言中的关键意图和属性，进而进行处理。前一段时间火爆的网络视频“纠正哥”，画面中说着山东方言的男士对着安吉星说出一长串电话号码，不巧有一两位识别错误，于是频繁打断，不停纠正却是对牛弹琴。俞凯说，“纠正哥”无法交互的核心难点是对话过程中的“打断”和“纠正”。在汽车噪声较大的时候，偶尔有一两个数字的识别错误是很正常的事情，这种错误很难通过情境直接消除。但是通过逻辑关联和智能对话，则可能帮助“纠正哥”把电话很快拨出去。

真正的人机智能交互是追求机器能够“听话”，成为真正的“语音机器人”,有进化和适应的能力，用的越多越听话。语音输入不再局限于呆板简单的句式限制，语音控制也不需要按照机器的设定去命令，在复杂环境和噪音影响下，在自由的说话方式（例如打断）下，依然能够保证优异依然能够保证良好而稳定的语音识别和语义分析精度。

语音交互的未来应当是面向用户，人性化的智能交互，而非过去模块化的交互。抛弃过去单一的语音交互，把识别、语义理解和人机对话连在一起，帮助用户完成任务，这将是一个崭新的、划时代的变革。

学术与业界的智汇交互

思必驰-上海交大智能语音实验室成立于2012年，由思必驰信息科技有限公司与上海交大联合成立，实验室负责人是毕业于著名的剑桥大学的语音博士俞凯，他是上海市“东方学者”特聘教授，同时也是国内学术界“青年千人计划”里唯一一位来自智能语音技术行业领域的语音专家。他所搭建的大词汇连续语音识别系统曾经多次获得美国国家标准局（NIST）和美国国防部内部评测的冠军，也是国际上最早从事端到端的统计对话系统研究的研究者之一。

在真实工程系统上，上海交大与思必驰信息技术有限公司合作，率先发布了人性化的智能语音交互技术平台：对话工场。并在此平台下，以产学研一体化的模式，正在快速完成人性化的智能语音交互技术从学术研究到商业运作的转变，进入民用市场，打造以用户为中心的“语音机器人”，引领人机口语真正的交互的“人工智能”潮流。据悉，该系统将于下半年正式运用到智能车载、家居领域。