思必驰首席科学家俞凯：语音“交互”与“识别”是两个概念

钛媒体 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

思必驰首席科学家、联合创始人俞凯

钛媒体注：在7月15日钛媒体和《商业价值》联合主办的2016移动互联网创新大会（MIIC）上，思必驰首席科学家、联合创始人俞凯以“人机交互中的认知智能”为题进行了演讲。俞凯认为，从PC互联、手机无线网到现在物联网时代，这三个阶段中有两个最大不同：首先是信息数量的指数级增长；另外就是人机交互模式的变革。

到了物联网时代，人机交互模式的主要特点就是通过语音进行复杂的信息处理，这当中最为依赖的技术就是 NLP（自然语言处理）与对话系统，而对话系统又可分为三种技术类型：
1、问答式对话：提出问题后机器能够告诉我答案，是告诉答案，不是告诉我各种可选择的搜索结果，答案意味着要去筛选。
2、闲聊式对话：一个很典型的场景的就是iPhone用户调戏Siri，这类往往没有商业模式但是体现了某种机器智能。
3、任务型对话：第三类是任务性对话，真的帮助你完成任务。比如说订一杯咖啡，是买星巴克还是其他家，通过任务型对话帮你完成任务，这是对话技术最关键的部分。

思必驰这家公司最重要的特点是把对话交互技术作为核心组织各种各样的语音智能，深耕垂直场景的语音交互技术。目前主要专注在智能车载、智能家居、智能机器人的解决方案。

但俞凯表示，思必驰这样一类公司涉及到单纯的语音界面，解决不到交互认知的问题，要同时解决记忆、推理、建议以及相应的一些决策的问题，一定要从人工智能和认知计算的角度上解决问题。

俞凯强调，语音交互与识别是两种完全不同的概念，他表示：

“从交互平台上讲，不单单有感知，还要有认知，这个就是所谓自然语言认知交互的未来。把理解和决策表述这样认知技术，与前端强大的识别技术结合在一起，进行更多的搜索和数据处理，才能实现知识意义上更加自由的交互。”

以下是俞凯在2016移动互联网创新大会（MIIC）上的演讲全文，经钛媒编辑：

我既是一个从业者也是一个研究者，今天想和大家分享一点不同的东西。提到语音，绝大部分人的第一个反应是语音识别，希望讲完以后大家知道语音交互和识别是两种不同的概念。

纵观智能交互发展史，其实互联网经历了三个阶段：第一个是PC互联网，第二个是手机无线网，第三个是硬件物联网，这三个阶段有两大不同的特点：

1、数量。手机数量是在十亿这个级别，物联网是百亿级别，数量的增长对信息传输要求越来越高。
2、交互。屏幕越来越小，甚至到了智能硬件上屏幕都消失了，这使得人和机器交互的模式产生了天翻地覆的变化。

我这里大概列一下从80年代到目前人和机器进行信息交互，我们整个一个发展历程。

a.80年代的时候Windows32，不知道在座有多少人使用过，当时的交互的界面用故意指示做组织存储；
b.90年代出现了互联网之后，我们主要的交互模式是通过网站的浏览来实现复杂信息的获取；
c.2000年，谷歌和百度这一类搜索引擎的出现，使得获取信息的交互方式变成搜索的模式，这个时候我们模态都是鼠标和键盘；
d.21世纪第一个十年，我们交互模式变了，变成可以用手机和智能硬件

这时候目标不再是简单的搜索，我估计现在几乎没有人直接在手机上用浏览器搜索，你们的目标我搞一件事，这个手机直接办成了，这个目标是进行信息本身的处理，既包括了信息的获得，又包括了后端信息的处理。在这个过程当中，很关键的一个模态就是所谓的交互。

物联网时代的人机交互特点：交互

刚才说到在发展过程里面，人和机器交互的模式，如果想进行复杂信息传输时候，到最后没有屏幕，几乎只能够用语音，用语音是不是识别就够了，曾经有人畅想识别就够了，这一拨人就是苹果，让我们看一下苹果是怎么畅想的。

你们队看到，机器是被动地执行人类命令的助理，这个过程当中很重要的一件事情是机器对人的任何命令都能准确识别，然后可以和人进行对话和相应的交互，完成人的指令。

实际上在Iphone真正发展起来以后，它的观点有所变化，2015年出了一件大事，这个时候我们就要回顾一下Iphone它的交互是什么样子。

最初2代iPhone是没有语音功能的，苹果当时做了一个调查，75%用户希望加一个语音的功能，在后两代iPhone推出却发现只有5%的用户去使它。后来又做了一个研究，苹果HROT的做的，当初得出一个结论，不好的主要原因是你不是自然语言，如果不能和人自由交互这个东西没有前途。

后来他们收购了一家公司，就是后来的Siri集成到苹果的Iphone当中，发现一个很有趣的现象，87%的用户都是在调戏Siri，很少用Siri去真正完成任务，发现这个语音特别不稳定，有时候很准，有时候不准。而且刚才都是我说一句，机器恢复一句，这样一个模式，发现这样的模式不行。

到了在2014年的时候，要判断未来什么样的东西是下一代，最后是看最终用户的目标，单句的语音理解可能还不行，于是就提出一个很重要的概念，用对话的技术改造Siri，这是为什么在2015年收购了一家英国的人工智能公司，搞的语音交互。

收购这家公司后Siri原来的团队不满意了，很多都离职了。离职之后又推出一个新的产品，是一个对话产品，这里面会强调不单单是单独这样的交互，我要用对话的方式去改造。人类对对话起码会是什么样的东西？

NLP（自然语言处理）与对话系统

很多人认为，我们搞人工语音和机器交互界面，真正做这个对话交互的研究的时候，我们会发现自然语言处理里面出现一个新的任务，随着移动互联网和物联网的产品新出现的——叫做自然口语对话，希望以自然口语对话的方式实现真正机器助理这样思路。

这里面包括苹果的Siri向这个方向走的，最近facebook出现了对话API，认为是人工智能的未来，这里面到底有什么东西？

实际上在我们刚开始所有的东西里面，一开始我说到了搞语音还是那句话，大家反应是识别，我说到对话它的新东西就在这，我们可能要解决三类，从技术上讲有不同的类型：

1、问答式对话：一类是问答，我说一个你能够告诉我答案，大家要注意是告诉答案，不是告诉我各种可选择的搜索结果，答案意味着要去筛选，我给的图片是IBM的沃森在这个节目上用这个机器对话的方式，就机器问答的方式战胜人类选手的图片。
2、闲聊式对话：第二类是闲聊，调戏Siri这块，这类往往没有商业模式但是体现了某种机器智能。
3、任务型对话：第三类是任务性对话，真的帮助你完成任务。比如郭买一杯咖啡，是买星巴克还是其他家，通过任务型对话帮你完成任务，这是对话技术最关键的部分。

作为从公司的角度来讲，思必驰最重要的特点是把对话交互技术作为核心组织各种各样的语音智能，深耕垂直场景的语音交互技术，现在主要是在做智能车载、智能家居、智能机器人的解决方案，核心一点就是在智能硬件上做语音交互。

我们这家公司做的就是智能硬件物联网时代的交互智能平台，在语音识别加上自然语言处理的基础之上做架构性的调整，去做后面交互反馈智能的实时。

自然语言交互的预期：交互与认知

可以看一下，人类对交互反馈智能预期是什么，刚刚曾经看过Siri，有人对这个Siri做了一个很有趣的视频，Siri达不到我们的要求，Siri这种情况下怎么处理？（视频）。

大家注意到很前一个视频不大的最同不是什么，看着是一个笑话，最大的不同是这个机器介入到了人与人之间的交互，开始主动的做一些事，比如说想逃。

这样一类涉及到单纯的语音界面，解决不到交互认知的问题，要同时解决记忆、推理、建议以及相应的一些决策的问题。这个就是我们在人工智能和认知计算上的角度上来说，去解决交互智能很关键的点，思必驰是第一个把认知智能层次的概念引入到国内公司。

一、人工智能与认知计算

简单说一下，现在智能本身大概有这么几个层面，计算，感知认知到抽象思维，这几个层面里面，感知的部分没有强调，实际上可以单独讲一次，我们今天主要强调认知。

认知本身有三层次，大部分人认识到理解很重要，这是静态认知；所谓动态认知是指给了一句话知道要反馈什么，叫做反馈控制；还有认知进化，想反馈的时候我的习惯是什么，这一类产生进化，这是三个不同的层次。

我们看的比较具体的东西。到底交互和这个识别之间是什么关系，我们看一个关于纠正方面的录像。（视频）

90%的人甚至更多，在我第一次放这个录像，第一个反应就是这机器方言识别不好，真的是这样吗？如果各位在你们的手机里面，没有发现识别率是百分之百软件的话，我说这么一句话，山东话识别率到90%以上你们会觉得什么样？一定会觉得不错。如果识别到90%错一个数字。

问题的关键难点不在于本身，不在于百分之百的识别率，而在于容错与纠正。左边这个例子是说到苏州后在九寨沟吃饭，这话理解有非常多不确定性，只有在你有上下文的情况下，你知道我在什么条件下说这个事，才能更加准确的理解。

类似刚才说135的时候，如果上海跟大家说三个字这么大一个舞台，没有人知道。我现在说135你一定知道，所以这样一类理解上的错误。除了容错还得能推理，到底纠正哪一段，需要后面的智能，重要的是这哥们是一个真实的用户，他不是一个工程师。所以不按常理出牌，老打段这个机器，人被打段好办，机器被打断全都乱套。

二、认知性自然口语交互

这样一个事情，理解、推理问题的处理和单纯的语音识别其实是互补。而这个就是我们所说，要做认知性的自然口语交互，它和普通的框架有什么不一样呢？

思必驰首席科学家俞凯：语音“交互”与“识别”是两个概念

各位看到了红色的部分是原始的框架，白色的部分是认知性的框架，最大的特点就是加入对话管理和环境感知，使得对语音识别错误更加的容忍，实在容忍不了的部分，通过交互去纠正过来，在这个里面不认为语音识别精确，认为语音是是高效的管道而已，这些不确定性在情节理解中被消除掉的。

各位可以看到，这是加入了对话环境以后，可以去处理这样的问题。当然这只是一个局限拨号领域，相关的东西已经在车载一些产品当中应用的还在不断的拓展相关的领域。

给大家这个概念，从交互平台上讲，不单单有感知，还要有认知，这个就是所谓自然语言认知交互的未来，把理解和决策表述这样认知技术，与前端非常强大的识别和非常好的合成技术结合在一起，在以后认知还会向后边扩展，会进行更多的搜索和数据处理，实现知识意义上更加自由的交互。

所以我们在智能硬件时代，今天核心讲的是认知智能当中的理解和对话控制，以及打断抢话这样一类的技术，真正涉及到的技术，其实还包括了感知中的噪声处理技术、远场技术、提示纠正推理的技术，这些感知认知抽象思维技术合在一起，就成为智能硬件物联网时代的工智能综合技术。【本文首发钛媒体，根据俞凯在2016移动互联网创新大会（MIIC）上的演讲整理，编辑/李玉鹏】