搜狗王砚峰:智能家居中的语音交互该做什么如何做
2016 年 8 月 18 日,深圳国际智能家居 & 智能硬件博览会正式开幕,全国众多智能建筑、智能家居专家、学者、企业领袖等业内人士出席,共同就“开放 - 构建共赢的智能家居生态”这一主题进行了分享和交流。会上,搜狗语音交互技术中心高级总监王砚峰针对语音交互在智能家居中的“为什么做”,“做什么”以及“怎么做”发表了自己的看法。
为什么要在智能家居使用语音交互?
互联网女皇玛丽 · 米克 2016 年的《互联网趋势报告》中指出,目前语音已经是最有效的输入计算方式,美国使用过语音助手的用户 2015 年已经达到了 65% ,而其中 43% 是在家中使用的,凸显了语音交互在智能家居中的重要意义。
王砚峰表示,新技术、新产品的推广使用一定存在刚需,而语音交互的刚需则存在于驾车、客厅、户外等不方便使用键盘打字的场景中。他认为需要在这三个场景上把语音做深体验做好,才能给用户带来价值。
语音交互应该做什么?
王砚峰认为,语音落地的产品,首先不应该是所谓的“中控”,因为 “ 中控 ” 不是具体的产品;也不是所谓“机器人”,因为目前的助手机器人不能帮人们解决任何实际需求和问题;他表示, “ 任何夸大人工智能在客厅产品中作用的行为都是耍流氓。 ”
王砚峰对客厅中的语音应用提出了两个标准:好产品和丰富的内容。他表示比如亚马逊 Echo 就是好产品,首先它本身是一个好的音箱,并且适应美国家庭用户的消费文化和习惯,那在美国就属于好的产品。
而语音要在好产品上产生价值,就需要丰富的消费内容资源。仅仅作为控制器的语音对设备带来的增值不大,而当涉及内容查询以及更多交互时,才是语音最有价值的使用场景,“语音识别做耳朵,语义理解是大脑,智能家居上要让语音有自然交互,需要更灵敏的耳朵以及更聪明的大脑。”王砚峰指出。
怎么让语音交互做的更好?
如何让语音交互做的更好?王砚峰认为要训练语音识别这一 “ 更灵敏的耳朵 ” ,需要大规模的优质语音训练数据和深度学习的技术能力积累,而搜狗在这一点上有着巨大的优势。据他介绍,搜狗拥有中国互联网上最大的语音语料:作为国内第一大语音输入应用,搜狗输入法每天语音输入频次达到 1.4 亿次,产生 11.7 万小时的语料规模,比当前国内任何语音技术团队使用的训练语料都要大。另一方面,深度学习的技术不断推动语音识别错误率的下降。从 2013 年开始,借助深度神经网络和海量用户数据,搜狗输入法的线上错误率在过去几年中累积下降了超过 60% 。
借助语料数据的 “ 燃料 ” 和深度学习的 “ 发动机 ” ,目前搜狗输入法语音识别准确率已超过 97% 。对于以当前技术水平无法实现的剩下的 3% ,王砚峰指出,“这叫语音识别最后一公里问题”。他随后介绍了搜狗输入法今年推出了语音修改功能,借助自身的词库、拆字库和用户语料,以及知识图谱的支持,如今用户错误率已经降低了 80% ,有效解决了语音识别“最后一公里”的问题。
而对于更聪明的“大脑”,王砚峰表示,传统的通用语音助手不如场景化的专用语音交互更具实用性。他指出,通用语音助手难以解决用户多种多样的问题,因而面临使用体验较差、屡遭用户诟病的窘境;而搜狗通过借助多轮对话、技术图谱等实现技术能力提升,并将使用场景明确化以降低问题难度,“对话能力、知识图谱跟具体的场景结合起来,语音交互的处理能力、智能性、实用性就可以好很多。”