天猫精灵资深技术专家王浩：：AIoT时代，从语音交互提升到多模态融合交互

猎云网 • 4年前扫码分享

10月16日，在FUS猎云网2020年度人工智能产业峰会上，阿里巴巴天猫精灵事业部人工智能资深技术专家王浩受邀发表《懂你的家庭助手——AIoT时代无处不在的人机交互入口》的主题演讲，他表示，交互体验从传统的机械交互到触屏交互，再发展到现在的语音交互阶段。天猫精灵今年将重点从语音交互升级到多模态交互，从无屏的智能助手变成带屏的智能助手。

“原来天猫精灵只是有耳朵、有嘴，它能听、能说，现在我们给它加了一个眼睛，它还能看到。我们希望天猫精灵达到跟真实人类一样的助手能力，来帮助用户解决问题。”王浩说。此外，他表示，在家庭场景里，过往设备大都比较孤立，未来在AIoT和5G时代下，希望每个家庭都能通过一个天猫精灵助手，以AI技术为核心，去联通所有设备，包括连接设备和人，这才是一个真正的IoT时代。

今年年初，阿里巴巴宣布将人工智能实验室天猫精灵业务升级为独立事业部，由阿里云IoT负责人库伟负责。2016年，阿里云内部孵化人工智能实验室，并在2017年7月正式对外推出智能音箱品牌“天猫精灵”，凭借着先发优势和阿里巴巴平台资源等，“天猫精灵”一经推出就受到广泛关注，并多次在销量中位列第一。

10月16日，FUS猎云网2020年度人工智能产业峰会在北京金茂万丽酒店隆重举行，近百位知名资本大咖，独角兽创始人、创业风云人物及近千位创业者共聚一堂。

本次峰会由猎云网主办，猎云资本、企业管家、猎云财经、锐视角协办。峰会以“AI UP！”为主题，聚焦人工智能产业的应用，通过展示多领域多维度人工智能技术和产品以及分享讨论AI在不同场景中最新落地应用，展现人工智能产业落地应用的最新成就；并围绕人工智能产业的“进击”与“破圈”，探讨AI技术如何为产业赋能。

以下为王浩演讲实录，猎云网整理删改：

现在，阿里巴巴菲住布渴酒店不断吸引着国内外游客去打卡。在酒店，你会体验到另一个网红产品——天猫精灵，这个语音交互助手可以帮你去做你想要做的事情。

我们一直在思考下一代交互入口是什么？大家知道每个人的智能手机是触屏时代，触屏交互改变了传统的机械交互，比如说键盘、鼠标，包括用遥控控制电视，还有用洗衣机原来是按键式，微波炉也是按键式的，现在这些都已经是触屏式。再往下走，就是另一个交互体验——语音交互，比如现在天很冷，你打开灯，打开空调就是随手说一句，自然有设备帮你把这个事情做了。

今天，天猫精灵从无屏的智能助手到带屏的智能助手，原来它只是有耳朵、有嘴，它能听、能说，现在我们给助手加了一个眼睛，它还能看到。

这里想跟大家继续分享的是我们一直在打造的天猫精灵家庭助手，大家知道它是一个虚拟的机器人，我们希望它具备人同样的能力，

先介绍刚刚发布的三款带屏音响，还有更多，我只是列出来三款。这里给天猫精灵加了一个眼睛，能够更清晰的看到用户想要什么，相当于视觉操控。天猫精灵家庭助手在“听”、“说”和“看”三方面都进行了提升。

天猫精灵资深技术专家王浩：：AIoT时代，从语音交互提升到多模态融合交互

可以称为“闻声识人”功能，在过去的传统方法里，一个用户语音跟天猫精灵说话，天猫精灵听到之后，我们采用的是声学模型和语言模型。在这里也给大家普及一个概念——语音识别，就是把声音转化为文字的一个技术，我们经常叫做ASR，这是英文缩写的结果。今年我们采用了与谷歌同样的端到端深度语音识别模型，大幅提升了天猫精灵在听用户下达指令的时候不出错的状态。

在过去一两年努力当中，在用户接受、允许情况下，用户可以去注册自己的声纹。以后用户跟天猫精灵说话，天猫精灵可以识别这个用户是谁。比如一个小孩不开心了，天猫精灵可以给他讲一个比较好玩儿的故事；如果是大人不开心了，天猫精灵可以给他讲一些鸡汤人生哲学。这块我们也做出了一些成果，比如三口之家里爸爸、妈妈和小孩，谁在跟天猫精灵说话，它都可以判断出来。

传统方法是先语音识别，然后做语义理解，然后做执行。我们现在采用的是端到端的方法——语音语义一体化。以前人机交互方法是先转化为文本，文本进行自然语言理解然后执行。现在我们采用跟真人非常相似的方式，人机交互过程当中靠语音去执行就行。比如我们交流，并不需要再把我的话翻译成一个文字，然后看到文字再理解，而是通过语音直接理解，然后去执行。

语音合成技术，就是将文本转化为语音的技术。有点类似于人的嘴巴一样，可以有不同的声音，天猫精灵有自己的声音，也可以根据用户定制化，这里并不是录制的，而是根据任何文本能动态的读出来。

我们今年把传统的统计模型转化为深度的语言合成模型，主要有三个模块：前端自然语言处理、升学模型和声码器。通过对比我们可以发现，在传统方法里，机器的感觉还是非常重，现在我们加入拟人效果之后，天猫精灵声音更接近真人，这部分我们做了很大的突破和提升。

今天不用介绍人脸技术了，大家很熟悉人脸识别的AI技术。“看”的技术，我们今天看一看小孩手指点读的功能，我们希望它能看到你的手指在点课本，相当于家长在辅导孩子。以前是家长给孩子来读课本，现在我们希望通过机器替代家长承担的这部分压力，机器帮小孩去读。这样的话，相当于孩子在课本上想读什么就可以自己来学习。

我们刚才已经提到了，语音可以进行操控，但有的时候点个赞，或者我是操控往左往右，只要天猫精灵看到你的动作之后，它自然也会知道了你下达的指令，除了语音交互说停止之外，你可以攥个拳头也是停止。这块相当于在手势识别，包括本身的点读识别之外，我们也进行了更好的突破，未来去给用户更好的体验。这里可以看到我们工程师在测试，这是天猫精灵眼睛里面看到的用户，它在领悟用户的一些指令信息。

天猫精灵资深技术专家王浩：：AIoT时代，从语音交互提升到多模态融合交互

。什么叫多模态，就是说除了有语音，比如说中间是一种语音的交互，上面是一个视频的交互，因为它看到你，它能听到你，还有一个文本的交互。它现在可以一边看书，一边听，一边说，这是一个真实的人在现实生活当中一个多模态的交互的过程。我们目标就是打造这种拟人的、跟真实人类一样的助手能力，来帮助用户解决问题。

我们与其他会刚刚发布的智能音箱，加载了多模态交互全新的智慧全场景。

这里我们还是有一个使命，马老师说让天下人没有难做的生意，我们天猫精灵拆解来说，希望每个家庭都有一个天猫精灵助手。我们希望在未来AIoT、5G时代下，在设备的连接和控制上，我们希望也能有各种服务。5G时代互联网是什么，我们希望重新定义——以AI技术为核心，以家为中心，打破设备和场景的边界。大家知道以前设备都是比较孤立的，我们希望通过天猫精灵能连通这些所有的设备，包括跟设备和人，这才是一个真正的IoT时代。我们希望打造跨领域场景化的“懂你的家庭助手”。

大家可以看到我们信息助手、教育助手、娱乐助手、智能家居助手、生活服务助手、健康助手，我们希望服务中国4.3亿的家庭用户。我们还有很长的路要走，也希望各位能支持我们，随时帮我们反馈很好的建议。

我们的口号也很清晰，万物有精灵，生活有良伴。