搜狗地图总经理孔祥来:语音是汽车场景中最合理的交互方式
搜狗地图总经理孔祥来
钛媒体注:钛媒体T-EDGE国际年度盛典,作为钛媒体年度最重要、在科技领域最举足轻重的年度国际峰会,每一年年末希望能够对当年发生的和未来可能发生的做一些重要盘点和预判,同时,搭建一个平台通过线上线下交流,助力全球前沿创新者的价值发现与落地。
12月17日,搜狗地图总经理孔祥来在钛媒体T-EDGE国际年度盛典上分享了搜狗智能副驾这款语音交互产品开发历程与用户体验,
在孔祥来看来,目前我们所接触的所有交互方式中,只有语音才是在车内场景中最合理的交互方式,因为当你在开车的时候,你的手、眼都属于被占用的一个状态,想要安全驾驶就不能因此分心。
目前的汽车厂商与导航供应商在车内都有类似的解决方案,但是经过实际体验它们的产品并不能完全解决用户痛点,搜狗智能副驾的研发初衷正是围绕这些尚未被解决的痛点进行的。
传统模式的语音基本上是这样一个漏斗的模型。第一级:语音识别率。第二级:受限于语意理解的正确率。第三级:受限于搜索的正确率。
搜狗智能副驾所强调的语音交互,并不是简单地用语音识别把用户说的话简单翻译过来就结束了,而是要通过后续一系列的语意、地图层面做一些分析工作,最终给用户一个正确的反馈结果。
以下是孔祥来在钛媒体 T-EDGE 国际年度盛典上的演讲全文,略经钛媒体编辑:
今天我想要介绍的搜狗智能副驾,这里面有相当一部分技术其实跟同传也是相关的,也就是搜狗语音技术,搜狗在过去一年以来在AI领域里面所做的尝试,即把语音识别技术、语意理解技术和地图导航技术结合起来,在汽车场景中向用户提供内容解决方案。
在介绍“搜狗智能副驾”之前,先给大家看一下,我们所调查到的用户在车内的一个需求的情况。现在我们发现,用户在车内信息交互的需求,其实主要就是两类,一类是驾驶相关的,比如说导航、路况、沿途信息等,大概要占到92%。还有一类是互联网相关的,比如说听音乐、广播、新闻、聊微信等这些东西,用户在车内的信息交互需求,占比最高的主要就是这两类。
目前,用户的这种需求是怎么被满足的呢?在汽车场景里面,凡是用户想听歌、打电话的时候,汽车制造商都已经为用户提供了一些解决方案,但是以前主要都是基于物理的这种按键或旋纽,很不方便,所以我们也注意到在最近的一两年里边,汽车制造商已经开始把这种语音识别的技术引入到车内来。
语音交互毫无疑问是在车里面一个最合理的一种交互方式,因为毕竟你在开车的时候,你的手跟、眼都是属于被占用的一个状态。
汽车厂商做出来的语音交互主要问题就是听不懂,你跟系统絮絮叨叨说了半天,系统只按它自己的逻辑去解释,你如果不按它的方法来输入指令的话,它就拒绝配合你。
现在除了汽车厂商在提供这种语音交互的这种解决方案之外,互联网厂商不是也在做这些事情吗?有很多的互联网厂商现在已经开始在自己的车内的场景里,比如导航功能中开始植入这种语音交互的能力,互联网厂商目前做得怎么样?
导航供应商所提供的语音交互的表现主要所反应出来的问题其实就是说不清,我们知道语音交互它是个双向的概念,不光是你说的东西机器能听懂,同时机器也应该说人能听懂的东西,不能当人说完了之后,机器只管把结果给你列出来,然后让你再去重新选择和交互,如果是这样一种交互方式的话,在车内毫无疑问是非常不安全的。
所以,我们总结下来就是,就目前来看,用户体验到的语音交互,要么就是听不懂,要不就是说不清,用户真正需要的语音交互是什么呢?它是需要一个自然的语言对话,能够听懂用户想要什么,能够像人一样地去讲出这个答案。下面我们看一下,我们认为真正的语音交互应该是什么样的。
这就是我们想为大家推出的搜狗智能副驾的一个初衷,我们希望真正能在车内,用户是以这样一种交互方式去跟系统打交道的,而我们这个产品实际已经在7月初的时候发布了,现在安卓和iPhone手机都可以下载搜狗地图,搜狗地图里面会有一个模式叫做智能副驾,进到这个模式之后就可以跟汪仔进行语音交互,你可以说出你的需求是什么,它对话的方式大概就是这样的。
你先唤醒它,比如“你好汪仔”,他就会问你要去哪儿,你说去奥森,它知道奥森是有南门跟北门的,于是乎它会说奥森有两个你去哪一个,是南门还是北门。如果你说南门,最终它就会找到奥森的南门并且自动为你启动导航。
大家不要小看这个简单的过程,实际上这个过程背后是有非常复杂的技术的支撑,才能保证有这样一个良好的体验的。在汽车上的一个智能助手,如果想做到一个良好的语音交互体验的话,我们认为有4点需要做到:
第一个,听得对。这是最基本的,当用户说出一段话后能够正确地转译成文字。
第二个,听得懂。就是你光听对了不行,你得知道他想表达什么,什么意思。
第三个,能够说。帮用户搜索到结果反馈后,需要正确地把它表达出来。
第四个,要有相关非常丰富的知识,否则无法解决想要的问题。
我们来看一个实际的例子,比如说用户对系统说要去某个地方,系统会识别到很多的可能性,进入到语意分析环节,当我们把地图引入进来的时候,决策后会发现某个地方的概率更高,所以最终分析下来用户应该想去这个地方。
我说这个例子是想跟大家说,在听得对这个环节,不是简单地用语音识别把用户说的话简单翻译过来就结束了,而是说你要通过后续的一系列的像语意、地图层面做的一些分析的工作,然后你才能知道用户说的哪一个是对的。通过这个例子就能发现,我们通过语意和地图的纠错,使最终系统选出了正确的目的地。
像我们刚才在视频里看到的一些例子,比如你想在路上顺便加油、吃麦当劳等行为,目前在搜狗一个庞大的语意网络里面,已经能够听懂10万个类似像这样的语意路径,也就说你表达一种需求,你可能有不同的说法,在语意分析引擎这边,它能够兼容很多种说法,现在我们整个的对话路径已经超过了10万个。
接下来我们来看看,比如说在传统语音交互里面,你说你要去首都机场的时候,它会说我给你找到5个目的地,我们的做法是直接精简成你要去哪个航站楼或者航班号(这样只有15个字),这种方式就是用户所能接受的非常自然的语音交互。
所有的这些能够听得懂,是建立在一个非常重要的基础上,我们对地图数据做了非常重要的重构,我们把这个称之为主子关系,我们大概能够挖掘出500多万的主子关系。
除了主子关系还有所谓的容器关系(比如说搜狗公司在搜狗网络大厦里面),还有很多的商圈地片,当你说你要去大钟寺的时候,不是简单给你导到大钟寺地铁站,而是问你要去大钟寺的什么地方,这些都是我们定义的叫做地图知识。
除了地图知识之外还有很多跨域的知识,像航班、洗车、车站等都是我们所谓的有知识的范畴。传统模式的语音基本上是这样一个漏斗的模型:
第一级:语音识别率。
第二级:受限于语意理解的正确率。
第三级:受限于搜索的正确率。
最终一个漏斗剩下来,会话的成功率只有68.4%,大家可能会疑问怎么第一个环节语音识别正确率只有80%,这是因为现在有很多的语音的识别虽然都说自己的所谓字正确率能够达到90%几,但是你一旦把它变成一个句子的话,马上迅速地识别率就会下降下来。
而搜狗这边的做法是,每一级我们都会有一个纠错,都会根据后面的结果对前面进行反向纠错的过程。我们最后做下来的话,会话成功率能够做到90%,这个都是搜狗的自有技术。
搜狗这次所提供的智能副驾,核心关键点是在于所有的东西全部都是自己的核心技术,能够确保有最佳的用户体验,属于一个技术与体验的闭环。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App