腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径

亿欧网 • 6年前扫码分享

【编者按】2018年11月1日，为期两天的腾讯全球合作伙伴大会在南京举行，第一天主论坛上，腾讯各事业部对外表达了腾讯最新发展战略。总体来讲，腾讯整体发展战略制定了两张网：深耕消费互联网，拥抱产业互联网。腾讯将继续利用依靠自身的云、安全、AI和大数据能力为医疗、出行、教育、制造、内容等行业赋能。在2号上午人工智能分论坛中，腾讯AI Lab副主任及西雅图实验室负责人俞栋发表了演讲。

以下是俞栋关于人机交互的演讲，经亿欧整理编辑的演讲速记，供行业人士阅读参考。

人机交互的历史和目标

在计算机的发展历史上，随着技术的进步，发生过几次大的交互模式的演进。最近的两次大家比较熟悉的转变是从以鼠标/键盘为主的交互模式转换为以触摸和语音为主的交互模式。

交互模式的演进主要还是为了降低交互的困难程度，使更多人能够使用计算和智能设备，也使用户能够方便地使用更多形态和数量的设备。显而易见，每一次交互范式的转变都带来了新的用户群体、新的应用场景、新的商业模式、和新的想象空间。比如触摸方式的普及使很多老年人也会使用智能设备，语音技术的进展则使得我们可以远距离控制设备，极大地增加了可交互设备的数量

但是，新型交互方式并不会在所有场景中都完全替代已有的交互方式；在可预见的未来里，程序命令、图形界面和语音等交互方式都将有各自更为擅长的应用场景，基于智能处理技术的多模态交互将成为人机交互发展的未来。

多模态智能人机交互系统的优势

多模态的智能人机交互相比单模态的传统交互方式有几个优点。

腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径

优势1：交互自然

最明显的优点是交互的自然度和自由度，用户可以根据场合以及对不同模态的熟悉度来选择一种或多种方式与设备交互，比如用户可以用手势或语音或者结合手势和语音来表达同一意思。

优势2：信息融合

在很多场景下，单一的信息源往往不足以保证系统的准确率和鲁棒性，比如在高噪音场景下，语音信号会受到很大干扰从而影响语音识别的准确率。然而通过多模态信息的融合，比如同时基于手势、口型或面部表情我们可以获得更精确的语义信息。不但如此，多模态信息融合也可以使系统更准确地辨识用户、情感、场景、和发声人位置，从而降低交互的成本。

优势3：互为监督

不同模态之间可以互相提供关联和监督信息。不同模态之间的关联是语义理解的一个很重要的组成部分，比如当我们提到一个有实体的概念时我们往往会联想到这个实体的形状、声音、运动方式等诸多方面，又比如当我们听到咣当一声时会联想到门被关上了，并且头脑中会出现门的形象。这些都是通过多模态之间的关联学习到的。不同模态之间的关联和监督信息还能够帮助系统在运行过程中持续做自适应学习，比如当系统同时具备麦克风阵列和摄像头阵列时，麦克风和摄像头可以互相提供校准信息。

优势4：多维感觉

这对用户和系统都很重要，这是因为人在交互过程中，除了语言信息外还使用了很多副语言信息和非语言信息例如态度、情感、意图，而这些信息很多是通过面部表情和肢体语言来辅助表达的。多维感觉对用户尤其重要，因为用户可以在多模态交互系统中从视觉、听觉、触觉等多个维度来感知和体会智能设备想要表达的情感和语义。

智能人机交互系统的终极目标

智能人机交互系统的终极目标是使人与机器交互和人与人交互一样轻松自然。我们认为从以人为本的角度来看，理想的系统应该具有几个重要的指标。

腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径

目标1：不用学就会

最重要的指标就是不用学就会，如果用户愿意学习一些不熟悉的交互方式，他/她会有更多的选择，但是如果他/她不愿意学的化也能以其最自然的方式比如听觉和视觉与机器交互。

目标2：多模态交互

基于刚刚提到的多模态交互的优势我们认为这样的系统也应该是多模态的，这里多模态包含输入的多模态和输出的多模态，而由于智能设备可以提供屏幕输出，从输出的效率来说它们甚至可能比人更为优越。

目标3：深层次理解

为了使交互自然而有效率，结合场景、世界知识和历史交互信息对语义、语用和情感的深层次理解能力就成为了系统的核心能力。

目标4：拟人式对话

在系统的输出侧，如果系统能够以高逼真度、高自然度、和高清晰度的拟人形象、声音、用词、和表达方式来和用户交互，就能大大减小对用户感知能力的要求。

目标5：个性化交互

最后一个指标是个性化交互，这也是为了使交互更自然。比如当与小孩交互时我们会希望机器的回答匹配孩子的认知水平、智能设备的语调和口吻适合孩子。又比如当与不同人交互时我们会希望智能设备的交互方式和内容是用户所感兴趣的。我们虽然不知道这些指标到什么程度用户会觉得足够好，但我们知道如果智能设备可以生成对话和形象使之表现得和与用户进行视频通话的朋友一样自然，那智能人机交互系统的终极目标就达到了。

当前智能交互系统距离期望目标尚远

这样的系统是很多研究人员努力的方向，我们已经有了一些进展，但是离我们的目标还有不少的距离。比如，虽然用户可以用语音和系统交互，但是用户往往需要适应机器，需要学习如何和系统交互以及系统能理解什么。

在多模态交互方面，各模态往往互相独立或只有单一模态，没有充分发挥多模态能提供的能力和体验。对语义、情感、和场景的理解也还远远不到位，往往只有在非常特定的垂类上有一定的理解能力，超出这些垂类系统就表现得非常弱智。机器在交互过程中脸部表情和声音还不自然，并且有时会出现前言不搭后语的情况，更不用说通过不同的语调，借助不同的语气词，使用不同的回答方式，并结合丰富的面部表情和肢体语言来和用户交互。系统对用户也没有或只有简单的辨识和建模，对答没有统一风格也缺少个性化特色。

我们可以看到，人机是一个高度协同的系统，为了降低对人的要求和限制，我们必须通过技术手段提升机器的能力。这里是一个高度简化的多模态交互系统，我们只列了语音和视觉两个模态的输入和输出。不过，这已经足以让我们看到系统的主要能力和信息流。在目前的系统中，这个框架图中的每一个模块都还不完善，都需要很多的前沿研究和细致的工程实现。要实现人机智能交互的终极目标我们面对的挑战还很多。这里我列举其中的四个挑战和我们正在研究的解决方案。

挑战一：复杂场景下语音唤醒和识别

在多模态交互系统中，语音作为对人来说最自然和最常用的交互手段是不可或缺的。虽然语音识别技术经过这些年的研究已经能在近场识别中达到或超过实用的门槛，但在很多真实远场场景下性能还远远不够，而远距交互是语音优于其他交互方式比如键盘和触摸的关键点。这里主要的挑战来自于重口音和鸡尾酒会这样的场景。

为了在这些复杂场景下提升系统的识别率，我们的解决方案需要结合声源和人脸信息来辨识说话人及其方向，使用多通道语音来分离和跟踪特定说话人的语音，并利用该说话人信息做识别自适应。目前的交互系统中有一个很大的痛点是用户需要经常使用唤醒词来唤醒系统，这使交互过程不够自然，效率不高。我们认为结合语义、目光交流、和视觉场景分析是减少交互中唤醒词使用次数的重要方向。

挑战二：对话、场景、和情感理解

理解能力，这不仅包含自然语言的理解还包含场景和情感层面的理解。自然语言理解被广泛地认为是目前系统里最薄弱的一个环节，这是因为语言是用来刻画和描述世界并传递信息的，所以要理解一个语句所对应的实体或概念，我们往往需要了解这个实体或概念相对应的视觉、听觉、触觉体验以及和它相关的其他概念。而且，为了提升语言交互的效率人们往往假设许多背景信息交互的双方是已知的，不需要在对话中提及或传输。

这些都表明要提升理解能力很重要的一点就是构建一个关于世界的模型，这个模型可能不止包含语言表达的知识还包括与概念相关的其他模态信息。这也表明为了使系统更有效率地和用户交互需要建立用户模型，用以描述用户的个性、习惯、爱好、对话历史，以及用户所了解的世界，有了用户模型，系统就可以针对性地进行个性化交互，也可以比较容易地理解和用户相关的语言。另外，为了提升对对话场景和情感的理解，我们可以同时利用声音和视觉信息来判别场景和情感。

挑战三：智能对话管理

对话需要逻辑上一致、语义上连贯。与人与人交互类似，人机交互也有不同的目的，并且多种目的的交互方式往往会在同一个对话段里出现，对话系统需要能灵活处理不同类型的对话而且需要因人而异。一个可行的实现方式是将任务型、问答型、和闲聊型对话分解成可复用的更小的数量巨大的微技能，并通过统一的多层次对话管理模块整合在一起。对话管理模块需要能支持用户主导和系统主导的对话，能在两者之间自由切换，并对不同个性的用户使用不同的对话策略。

挑战四：高逼真度多模态对话回复

这是为了使用户能够和与人交互那样自然地得到信息反馈。在视频展示方面，我们的做法是逐步实现低成本、高可定制化、可控人脸实时动态三维建模和高真实度纹理生成和渲染。这里是我们和腾讯NEXT Studio团队合作的Siren虚拟人，可以看到我们在高逼真度智能控制语音和人脸方面的一些进展。

在对话回答的生成方面我们从数据中总结出各种表达语义信息的模板，并利用它们作为基本回复方式结合用户模型和对话状态生成最后的回答，并和视频同步合成具有情感的表情和声音。

一直以来，技术都是推动商业环境进化的重要因素，而目前最热的技术升级趋势，无疑是人工智能。当下，尽管人工智能行业本身已经进入了一个平稳的发展期，但它对于各行各业的赋能却正在以更热烈的姿态进行。

2018年11月30日上午，亿欧将在北京国贸大酒店举办“新技术·新动能创新者论坛”，以技术为核心要素，从行业角度出发，探讨新技术趋势下，企业如何把握升级机会、跟上时代节奏，在诸多竞争者中脱颖而出。

详情及报名链接： https://www.iyiou.com/post/ad/id/730

腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径