对话科大讯飞马汉君：AIUI将让智能语音大爆发？

网易科技 • 8年前扫码分享

文/小羿

今年以来，随着人工智能和机器人技术的发展，智能语音行业迎来了一个爆发式的增长。最明显的趋势就是，做语义分析的公司越来越多，而且行业越来越细分，其中儿童市场和车载市场的语音解决方案也随之兴起。作为国内最大的智能语音厂商，科大讯飞发布了一整套的语音交互解决方案AIUI。科大讯飞将AIUI定义为物联网时代的人机交互标准，AIUI集成了科大讯飞在双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术和服务。该技术的核心是智能化的多轮对话管理和上下文理解。

近日，科大讯飞语音云平台的副总经理马汉君接受了网易科技的独家专访。作为AIUI的负责人，马汉君阐述了对语音、语言、语义的技术解决方案有着深刻的理解，以及对国内智能语音市场的变化和今年的趋势的看法。

对话科大讯飞马汉君：AIUI将让智能语音大爆发？
马汉君在网易未来科技峰会上发言

以下为采访实录（由网易科技整理）：

关于AIUI

网易科技：科大讯飞的AIUI到底是一个什么样的项目？怎样去定位它？

马汉君： 讯飞希望打造一套语音交互的标准，在这套模式中，我们把科大讯飞的语音识别、对语音的思考理解贯穿起来，AIUI就是一套软硬一体的模块方案。针对于聊天机器人，我们可以去做聊天机器人的场景定制，可以做一些智能家居的服务的定制。但是不管是怎样的模式，这些交互的程序，我们会把它固定下来。这种固定的交互模式比如说，AIUI是随时在录音的，你可以随时将它唤醒等等。当然，有些特性会开放，比如语音唤醒词、视频通话等等，方便用户自己定制。

不管是家庭的机器人，还是家庭智能设备，车载智能设备，AIUI能解决企业与客户之间的交互问题。AIUI不是一个系统，而是一套交互的解决方案。

网易科技：与DingDong平台是什么关系？

马汉君： AIUI是一套语音集成的解决方案，DingDong平台是从音乐本身的内容来做运营，从家居厂商的合作去拓展。前者是横向的方案，后者是纵向的拓展平台。

网易科技：AIUI有没有集成进某些系统，比如Android系统的计划呢？

马汉君： AIUI肯定是要融入到目前的系统上面的，例如Android系统、Windows系统等等，成为系统本身的一部分。

AIUI对于硬件的需求，首先是噪音环境的问题，这一点上就需要硬件上必须有麦克风阵列。系统方面，AIUI对运算能力有一定需求，也就是对CPU和GPU有一定要求。具体的我们会给出一套方案来，按照我们给出的参考来进行硬件设计，以便更好的进行降噪拾音。目前看来，AIUI只支持Android系统。就像游戏引擎对显卡的邀请，AIUI也会对硬件有一定要求。

讯飞自己的产品会打造一些标杆，比如讯飞与京东合作开发的DingDong音箱，我们会把它做成家庭应用场景中的标杆。在车载交互上也会与合作伙伴共同开发打造标杆型的产品。在儿童机器人、家庭机器人等领域我们会挑选一个战略合作伙伴。在教育领域我们要做全行业的教育解决方案。而在某些领域我们只作为一个技术方案提供方，我们会把我们的技术向合作方的合作领域提供。

网易科技：讯飞会专注于某些领域？说到与合作伙伴的合作，AIUI如何与他们合作改善交互体验？

马汉君： 讯飞会在很多的服务领域去拓展，在不同的领域有不同的定位。在家庭领域，讯飞与京东合作打造了DingDong音箱，这是一个标杆型的产品。在教育领域，讯飞会做深度的教育解决方案。在车载交互、机器人、其他智能硬件上面，讯飞提供底层的技术，通过与合作厂商的合作深耕这一领域。我们是与行业厂商一起合作来构建一个市场。

网易科技：说到合作，就会涉及数据的共享。那么讯飞是以一个什么样的模式来共享这些数据呢？大数据时代，用户都特别担心数据隐私的问题，在这方面如何去分配和协调？

马汉君： 关于合作，讯飞会关注一些普适性的数据。举个例子来说，比如音乐数据，这个数据不管是在智能家居、机器人，还是手机APP上，都有它的价值。在类似这些普适性的数据上，讯飞要做深做透。对于一些特定的行业才会使用的数据，比如说运营商，就需要运营商服务的业务留存数据，这方面我们必须选择与大的运营商进行深度合作，运营商一定有一些深度的想法，这就需要双方深度的合作。所以说，特定的行业更具特定行业的诉求来具体探讨。

对于用户的数据来说，讯飞是与合作伙伴共享的。即使有一些用户数据会留存在讯飞的平台上，也不会提供给第三方，而是会与合作伙伴共同决定是否进行深度开发。在此前提下，讯飞对于用户的数据只会用来做语音的优化。比如说讯飞与音乐平台合作语音搜歌，那么用户对于音乐的喜好这些数据要不要进一步往电商去探索，需要两方共同决定。

关于智能语音行业

网易科技：在语音识别上，讯飞是不是已经足够完善，还有没有可以改进的空间？

马汉君： 从语音识别上看，在发音相对标准的情况下，识别的精准度已经很不错了。但是从实际交互的层面说，智能语音识别需要结合你的实际情况，甚至要结合上下文的语境，这个识别才能进一步的去提升。所以语音识别与语义理解是分不开的，还有与用户个性化数据的结合等方面。

网易科技：虽然讯飞已经是国内智能语音领域公认的老大，但面对这么多兴起的语义分析厂商，如何面对未来的行业竞争？

马汉君： 竞争肯定是存在的。今年，做语音识别的公司没有增加，但是做语义分析的公司增加了很多。这里有两个原因，语音识别上还是涉及到一些深度领域的知识，技术门槛比较高，需要技术沉淀。另外一个很重要的原因就是深度学习之后，将语义分析的门槛降低了很多，通过数据、模型、训练三个步骤，很快能得到一个不错的细分领域语义分析解决方案。但是语义这个东西往深做的时候，对你原有的技术沉淀积累要求很高，而且这个事情本来就是一个长跑的竞争。我们可以把语义分析这个事情形容是一个球队，当门槛降低了以后，很多业余的比赛是看不出差异性的，只有到了高度协同和对抗的时候才会显出更好的专业性。目前的很多语义公司，他们可能会专注某一个领域去做，但是真正到了成熟的时候，还是要依靠整体的专业性解决问题。

网易科技：那自然语言理解是不是从细分领域入手会更快的成熟？

马汉君： 是的。所以讯飞和其他的NLP自然语言理解的公司并不是竞争的关系。大家都会选一个具体的领域，在这个领域中看看谁能最先做透。当大家做的领域足够多，这个领域才会慢慢起来。

讯飞在切蛋糕的时候，还是聚焦在服务的需求上。我们可以把智能语音分为两类，一类是闲聊，另一类是服务。服务的需求就是车载导航、打电话、听音乐、导购咨询、简单信息互动。

目前的语义理解，还是以单句的形式，但是语义理解有时候必须知道你的上下文信息。所以，这方面大家在用深度学习来做一些突破。所以我认为，对于NLP来说，大家目前是刚刚找到突破口，还需要快速成长，预计在两三年以后NLP这方面会有一个明显的质变。

网易科技：您之前在网易未来科技峰会上说“机器人这个领域目前是属于前期扩张、快速沉淀的模式”您能否详细解释下这种商业模式？未来机器人的发展方向是什么？

马汉君： 做机器人这个方向是比较明确。举个例子来说，大家目前不清楚自己是要做商用服务还是家庭服务，这是两个比较大的不同选择。如果我面向的是儿童教育，但是在儿童教育领域，到底哪一个方向会产生比较清晰的路线，是儿童，还是情感，还是老年陪护，这些有很多公司探索，但是我们并不明白到底哪一块是最有前景的路。

那就需要去做前期的扩张，然后对用户数据进行快速沉淀分析，然后再决定朝哪个方向发展。在沉淀的过程中，讯飞对合作厂商来说可能更多的是一种助力的角色。更多的是要机器人厂商去做，找到用户的刚需等等。但是，在这个过程中，需要依赖交互的完善以及用户需求的挖掘。

关于语音在儿童市场、车载市场的应用

网易科技：对于目前讨论比较热的儿童市场、车载市场，您怎么看？

马汉君： 先看儿童市场。儿童市场上玩具的量是很大的，这其中包括可以语音讲故事的玩具。所以说，今年儿童市场的趋势可能是玩具更加高端化，产品上是玩具机器人这样一个形态，如果找到一个合理价格的结合点，这个市场很快会出现爆发。所以说儿童这个市场还是有很大的空间的，一个就是娱乐互动，一个是早期教育。从中国的家庭环境上来说，这个意愿或者是说用户需求还是蛮大的。但与此同时，这里边还有很多的问题，一个就是内容，你的机器人是否能形成体系化的内容，是否能吸引儿童的兴趣。另外一个方面在交互上，儿童的挑战很大，因为儿童的语言表达不像成人那么清晰。这两个方面需要进一步的突破。

在车载市场，讯飞也比较重视。目前我们已经把讯飞的方案继承在合作伙伴奇瑞的车上，今年四月份已经上市。其实，在车载领域有一个很大的挑战，就是从语音厂商到车载系统厂商，再到汽车厂商，这个融合会很难。讯飞的解决方案是在语音解决方案的基础上，提供车机、车载系统的一整套解决方案和汽车厂商合作，这样我们能把链条收到最短。同时，我们也可以按照车场的需求来调整这个方案。

网易科技：那么讯飞在自动驾驶上有没有涉足呢？

马汉君： 还没有尝试自动驾驶，因为目前自动驾驶还处于一个概念性的阶段。我们还是提供比较实用的交互解决方案，比如语音导航，通过全程语音来查询目的地，可以保证驾驶安全。在此之外，我们会尝试一些辅助驾驶的解决方案，而不是直接去研究自动驾驶的语音解决方案。

AIUI就是要树立行业标杆性的产品，一个是音乐方面做了DingDong音箱，在车载上也会与合作厂商共同打造标杆，与其进行深度合作。

关于今年的行业趋势

网易科技：预测一下今年智能语音的发展？

马汉君： 我认为技术方面最大的发展就是突破了单点的能力，从声学的远场识别，到语义分析和语义理解都有了很大的进步。今年会呈现一种整体的交互方案。我们提出的问题不会局限于某一个识别的问题，我们会突出的解决交互的问题。比如，“我想听，刘德华的歌”，我在说的时候中间有停顿，如果按照语音识别的结果，那可能识别成两句话，一句是“我想听”，一句是“刘德华的歌”，但是要把语音识别和语义理解结合在一起的时候，这两句话就是一个含义，而不应该拆成两句话来处理。如果再说“我想听他最新的歌”，那么这个“他”如果能从上下文理解的话，也能识别出来。还有就是在复杂环境中，机器人应该听哪些声音，哪些声音应该处理？这些都属于交互场景的问题，这些需要用整体的方案去解决。这就是我认为的今年技术上最大的发展。

从行业上面来说，并不是大家想象的那么乐观。今年确实因为语义交互对整个行业有一个明显的提升。所以会有更多的公司在语义上面去尝试，是否能深度融合进去。但是到底哪一个领域能够开花和落地？今年并不能完全展现出来。这个也需要一到两年之后，才能看出用户的趋势，那个时候才能进入一个比较大的量产阶段。

对话科大讯飞马汉君：AIUI将让智能语音大爆发？