对话科大讯飞马汉君:AIUI将让智能语音大爆发?
文/小羿
今年以来,随着人工智能和机器人技术的发展,智能语音行业迎来了一个爆发式的增长。最明显的趋势就是,做语义分析的公司越来越多,而且行业越来越细分,其中儿童市场和车载市场的语音解决方案也随之兴起。作为国内最大的智能语音厂商,科大讯飞发布了一整套的语音交互解决方案AIUI。科大讯飞将AIUI定义为物联网时代的人机交互标准,AIUI集成了科大讯飞在双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术和服务。该技术的核心是智能化的多轮对话管理和上下文理解。
近日,科大讯飞语音云平台的副总经理马汉君接受了网易科技的独家专访。作为AIUI的负责人,马汉君阐述了对语音、语言、语义的技术解决方案有着深刻的理解,以及对国内智能语音市场的变化和今年的趋势的看法。
马汉君在网易未来科技峰会上发言
以下为采访实录(由网易科技整理):
关于AIUI
网易科技:科大讯飞的AIUI到底是一个什么样的项目?怎样去定位它?
马汉君: 讯飞希望打造一套语音交互的标准,在这套模式中,我们把科大讯飞的语音识别、对语音的思考理解贯穿起来,AIUI就是一套软硬一体的模块方案。针对于聊天机器人,我们可以去做聊天机器人的场景定制,可以做一些智能家居的服务的定制。但是不管是怎样的模式,这些交互的程序,我们会把它固定下来。这种固定的交互模式比如说,AIUI是随时在录音的,你可以随时将它唤醒等等。当然,有些特性会开放,比如语音唤醒词、视频通话等等,方便用户自己定制。
不管是家庭的机器人,还是家庭智能设备,车载智能设备,AIUI能解决企业与客户之间的交互问题。AIUI不是一个系统,而是一套交互的解决方案。
网易科技:与DingDong平台是什么关系?
马汉君: AIUI是一套语音集成的解决方案,DingDong平台是从音乐本身的内容来做运营,从家居厂商的合作去拓展。前者是横向的方案,后者是纵向的拓展平台。
网易科技:AIUI有没有集成进某些系统,比如Android系统的计划呢?
马汉君: AIUI肯定是要融入到目前的系统上面的,例如Android系统、Windows系统等等,成为系统本身的一部分。
AIUI对于硬件的需求,首先是噪音环境的问题,这一点上就需要硬件上必须有麦克风阵列。系统方面,AIUI对运算能力有一定需求,也就是对CPU和GPU有一定要求。具体的我们会给出一套方案来,按照我们给出的参考来进行硬件设计,以便更好的进行降噪拾音。目前看来,AIUI只支持Android系统。就像游戏引擎对显卡的邀请,AIUI也会对硬件有一定要求。
讯飞自己的产品会打造一些标杆,比如讯飞与京东合作开发的DingDong音箱,我们会把它做成家庭应用场景中的标杆。在车载交互上也会与合作伙伴共同开发打造标杆型的产品。在儿童机器人、家庭机器人等领域我们会挑选一个战略合作伙伴。在教育领域我们要做全行业的教育解决方案。而在某些领域我们只作为一个技术方案提供方,我们会把我们的技术向合作方的合作领域提供。
网易科技:讯飞会专注于某些领域?说到与合作伙伴的合作,AIUI如何与他们合作改善交互体验?
马汉君: 讯飞会在很多的服务领域去拓展,在不同的领域有不同的定位。在家庭领域,讯飞与京东合作打造了DingDong音箱,这是一个标杆型的产品。在教育领域,讯飞会做深度的教育解决方案。在车载交互、机器人、其他智能硬件上面,讯飞提供底层的技术,通过与合作厂商的合作深耕这一领域。我们是与行业厂商一起合作来构建一个市场。
网易科技:说到合作,就会涉及数据的共享。那么讯飞是以一个什么样的模式来共享这些数据呢?大数据时代,用户都特别担心数据隐私的问题,在这方面如何去分配和协调?
马汉君: 关于合作,讯飞会关注一些普适性的数据。举个例子来说,比如音乐数据,这个数据不管是在智能家居、机器人,还是手机APP上,都有它的价值。在类似这些普适性的数据上,讯飞要做深做透。对于一些特定的行业才会使用的数据,比如说运营商,就需要运营商服务的业务留存数据,这方面我们必须选择与大的运营商进行深度合作,运营商一定有一些深度的想法,这就需要双方深度的合作。所以说,特定的行业更具特定行业的诉求来具体探讨。
对于用户的数据来说,讯飞是与合作伙伴共享的。即使有一些用户数据会留存在讯飞的平台上,也不会提供给第三方,而是会与合作伙伴共同决定是否进行深度开发。在此前提下,讯飞对于用户的数据只会用来做语音的优化。比如说讯飞与音乐平台合作语音搜歌,那么用户对于音乐的喜好这些数据要不要进一步往电商去探索,需要两方共同决定。
关于智能语音行业
网易科技: 在语音识别上,讯飞是不是已经足够完善,还有没有可以改进的空间?
马汉君: 从语音识别上看,在发音相对标准的情况下,识别的精准度已经很不错了。但是从实际交互的层面说,智能语音识别需要结合你的实际情况,甚至要结合上下文的语境,这个识别才能进一步的去提升。所以语音识别与语义理解是分不开的,还有与用户个性化数据的结合等方面。
网易科技:虽然讯飞已经是国内智能语音领域公认的老大,但面对这么多兴起的语义分析厂商,如何面对未来的行业竞争?
马汉君: 竞争肯定是存在的。今年,做语音识别的公司没有增加,但是做语义分析的公司增加了很多。这里有两个原因,语音识别上还是涉及到一些深度领域的知识,技术门槛比较高,需要技术沉淀。另外一个很重要的原因就是深度学习之后,将语义分析的门槛降低了很多,通过数据、模型、训练三个步骤,很快能得到一个不错的细分领域语义分析解决方案。但是语义这个东西往深做的时候,对你原有的技术沉淀积累要求很高,而且这个事情本来就是一个长跑的竞争。我们可以把语义分析这个事情形容是一个球队,当门槛降低了以后,很多业余的比赛是看不出差异性的,只有到了高度协同和对抗的时候才会显出更好的专业性。目前的很多语义公司,他们可能会专注某一个领域去做,但是真正到了成熟的时候,还是要依靠整体的专业性解决问题。
网易科技:那自然语言理解是不是从细分领域入手会更快的成熟?
马汉君: 是的。所以讯飞和其他的NLP自然语言理解的公司并不是竞争的关系。大家都会选一个具体的领域,在这个领域中看看谁能最先做透。当大家做的领域足够多,这个领域才会慢慢起来。
讯飞在切蛋糕的时候,还是聚焦在服务的需求上。我们可以把智能语音分为两类,一类是闲聊,另一类是服务。服务的需求就是车载导航、打电话、听音乐、导购咨询、简单信息互动。
目前的语义理解,还是以单句的形式,但是语义理解有时候必须知道你的上下文信息。所以,这方面大家在用深度学习来做一些突破。所以我认为,对于NLP来说,大家目前是刚刚找到突破口,还需要快速成长,预计在两三年以后NLP这方面会有一个明显的质变。
网易科技:您之前在网易未来科技峰会上说“机器人这个领域目前是属于前期扩张、快速沉淀的模式”您能否详细解释下这种商业模式?未来机器人的发展方向是什么?
马汉君: 做机器人这个方向是比较明确。举个例子来说,大家目前不清楚自己是要做商用服务还是家庭服务,这是两个比较大的不同选择。如果我面向的是儿童教育,但是在儿童教育领域,到底哪一个方向会产生比较清晰的路线,是儿童,还是情感,还是老年陪护,这些有很多公司探索,但是我们并不明白到底哪一块是最有前景的路。
那就需要去做前期的扩张,然后对用户数据进行快速沉淀分析,然后再决定朝哪个方向发展。在沉淀的过程中,讯飞对合作厂商来说可能更多的是一种助力的角色。更多的是要机器人厂商去做,找到用户的刚需等等。但是,在这个过程中,需要依赖交互的完善以及用户需求的挖掘。
关于语音在儿童市场、车载市场的应用
网易科技:对于目前讨论比较热的儿童市场、车载市场,您怎么看?
马汉君: 先看儿童市场。儿童市场上玩具的量是很大的,这其中包括可以语音讲故事的玩具。所以说,今年儿童市场的趋势可能是玩具更加高端化,产品上是玩具机器人这样一个形态,如果找到一个合理价格的结合点,这个市场很快会出现爆发。所以说儿童这个市场还是有很大的空间的,一个就是娱乐互动,一个是早期教育。从中国的家庭环境上来说,这个意愿或者是说用户需求还是蛮大的。但与此同时,这里边还有很多的问题,一个就是内容,你的机器人是否能形成体系化的内容,是否能吸引儿童的兴趣。另外一个方面在交互上,儿童的挑战很大,因为儿童的语言表达不像成人那么清晰。这两个方面需要进一步的突破。
在车载市场,讯飞也比较重视。目前我们已经把讯飞的方案继承在合作伙伴奇瑞的车上,今年四月份已经上市。其实,在车载领域有一个很大的挑战,就是从语音厂商到车载系统厂商,再到汽车厂商,这个融合会很难。讯飞的解决方案是在语音解决方案的基础上,提供车机、车载系统的一整套解决方案和汽车厂商合作,这样我们能把链条收到最短。同时,我们也可以按照车场的需求来调整这个方案。
网易科技:那么讯飞在自动驾驶上有没有涉足呢?
马汉君: 还没有尝试自动驾驶,因为目前自动驾驶还处于一个概念性的阶段。我们还是提供比较实用的交互解决方案,比如语音导航,通过全程语音来查询目的地,可以保证驾驶安全。在此之外,我们会尝试一些辅助驾驶的解决方案,而不是直接去研究自动驾驶的语音解决方案。
AIUI就是要树立行业标杆性的产品,一个是音乐方面做了DingDong音箱,在车载上也会与合作厂商共同打造标杆,与其进行深度合作。
关于今年的行业趋势
网易科技:预测一下今年智能语音的发展?
马汉君: 我认为技术方面最大的发展就是突破了单点的能力,从声学的远场识别,到语义分析和语义理解都有了很大的进步。今年会呈现一种整体的交互方案。我们提出的问题不会局限于某一个识别的问题,我们会突出的解决交互的问题。比如,“我想听,刘德华的歌”,我在说的时候中间有停顿,如果按照语音识别的结果,那可能识别成两句话,一句是“我想听”,一句是“刘德华的歌”,但是要把语音识别和语义理解结合在一起的时候,这两句话就是一个含义,而不应该拆成两句话来处理。如果再说“我想听他最新的歌”,那么这个“他”如果能从上下文理解的话,也能识别出来。还有就是在复杂环境中,机器人应该听哪些声音,哪些声音应该处理?这些都属于交互场景的问题,这些需要用整体的方案去解决。这就是我认为的今年技术上最大的发展。
从行业上面来说,并不是大家想象的那么乐观。今年确实因为语义交互对整个行业有一个明显的提升。所以会有更多的公司在语义上面去尝试,是否能深度融合进去。但是到底哪一个领域能够开花和落地?今年并不能完全展现出来。这个也需要一到两年之后,才能看出用户的趋势,那个时候才能进入一个比较大的量产阶段。