天猫精灵资深技术专家王浩::AIoT时代,从语音交互提升到多模态融合交互
10月16日,在FUS猎云网2020年度人工智能产业峰会上,阿里巴巴天猫精灵事业部人工智能资深技术专家王浩受邀发表《懂你的家庭助手——AIoT时代无处不在的人机交互入口》的主题演讲,他表示,交互体验从传统的机械交互到触屏交互,再发展到现在的语音交互阶段。天猫精灵今年将重点从语音交互升级到多模态交互,从无屏的智能助手变成带屏的智能助手。
“原来天猫精灵只是有耳朵、有嘴,它能听、能说,现在我们给它加了一个眼睛,它还能看到。我们希望天猫精灵达到跟真实人类一样的助手能力,来帮助用户解决问题。”王浩说。此外,他表示,在家庭场景里,过往设备大都比较孤立,未来在AIoT和5G时代下,希望每个家庭都能通过一个天猫精灵助手,以AI技术为核心,去联通所有设备,包括连接设备和人,这才是一个真正的IoT时代。
今年年初,阿里巴巴宣布将人工智能实验室天猫精灵业务升级为独立事业部,由阿里云IoT负责人库伟负责。2016年,阿里云内部孵化人工智能实验室,并在2017年7月正式对外推出智能音箱品牌“天猫精灵”,凭借着先发优势和阿里巴巴平台资源等,“天猫精灵”一经推出就受到广泛关注,并多次在销量中位列第一。
10月16日,FUS猎云网2020年度人工智能产业峰会在北京金茂万丽酒店隆重举行,近百位知名资本大咖,独角兽创始人、创业风云人物及近千位创业者共聚一堂。
本次峰会由猎云网主办,猎云资本、企业管家、猎云财经、锐视角协办。峰会以“AI UP!”为主题,聚焦人工智能产业的应用,通过展示多领域多维度人工智能技术和产品以及分享讨论AI在不同场景中最新落地应用,展现人工智能产业落地应用的最新成就;并围绕人工智能产业的“进击”与“破圈”,探讨AI技术如何为产业赋能。
以下为王浩演讲实录,猎云网整理删改:
现在,阿里巴巴菲住布渴酒店不断吸引着国内外游客去打卡。在酒店,你会体验到另一个网红产品——天猫精灵,这个语音交互助手可以帮你去做你想要做的事情。
我们一直在思考下一代交互入口是什么?大家知道每个人的智能手机是触屏时代,触屏交互改变了传统的机械交互,比如说键盘、鼠标,包括用遥控控制电视,还有用洗衣机原来是按键式,微波炉也是按键式的,现在这些都已经是触屏式。再往下走,就是另一个交互体验——语音交互,比如现在天很冷,你打开灯,打开空调就是随手说一句,自然有设备帮你把这个事情做了。
今天,天猫精灵从无屏的智能助手到带屏的智能助手,原来它只是有耳朵、有嘴,它能听、能说,现在我们给助手加了一个眼睛,它还能看到。
这里想跟大家继续分享的是我们一直在打造的天猫精灵家庭助手,大家知道它是一个虚拟的机器人,我们希望它具备人同样的能力,
先介绍刚刚发布的三款带屏音响,还有更多,我只是列出来三款。这里给天猫精灵加了一个眼睛,能够更清晰的看到用户想要什么,相当于视觉操控。天猫精灵家庭助手在“听”、“说”和“看”三方面都进行了提升。
可以称为“闻声识人”功能,在过去的传统方法里,一个用户语音跟天猫精灵说话,天猫精灵听到之后,我们采用的是声学模型和语言模型。在这里也给大家普及一个概念——语音识别,就是把声音转化为文字的一个技术,我们经常叫做ASR,这是英文缩写的结果。今年我们采用了与谷歌同样的端到端深度语音识别模型,大幅提升了天猫精灵在听用户下达指令的时候不出错的状态。
在过去一两年努力当中,在用户接受、允许情况下,用户可以去注册自己的声纹。以后用户跟天猫精灵说话,天猫精灵可以识别这个用户是谁。比如一个小孩不开心了,天猫精灵可以给他讲一个比较好玩儿的故事;如果是大人不开心了,天猫精灵可以给他讲一些鸡汤人生哲学。这块我们也做出了一些成果,比如三口之家里爸爸、妈妈和小孩,谁在跟天猫精灵说话,它都可以判断出来。
传统方法是先语音识别,然后做语义理解,然后做执行。我们现在采用的是端到端的方法——语音语义一体化。以前人机交互方法是先转化为文本,文本进行自然语言理解然后执行。现在我们采用跟真人非常相似的方式,人机交互过程当中靠语音去执行就行。比如我们交流,并不需要再把我的话翻译成一个文字,然后看到文字再理解,而是通过语音直接理解,然后去执行。
语音合成技术,就是将文本转化为语音的技术。有点类似于人的嘴巴一样,可以有不同的声音,天猫精灵有自己的声音,也可以根据用户定制化,这里并不是录制的,而是根据任何文本能动态的读出来。
我们今年把传统的统计模型转化为深度的语言合成模型,主要有三个模块:前端自然语言处理、升学模型和声码器。通过对比我们可以发现,在传统方法里,机器的感觉还是非常重,现在我们加入拟人效果之后,天猫精灵声音更接近真人,这部分我们做了很大的突破和提升。
今天不用介绍人脸技术了,大家很熟悉人脸识别的AI技术。“看”的技术,我们今天看一看小孩手指点读的功能,我们希望它能看到你的手指在点课本,相当于家长在辅导孩子。以前是家长给孩子来读课本,现在我们希望通过机器替代家长承担的这部分压力,机器帮小孩去读。这样的话,相当于孩子在课本上想读什么就可以自己来学习。
我们刚才已经提到了,语音可以进行操控,但有的时候点个赞,或者我是操控往左往右,只要天猫精灵看到你的动作之后,它自然也会知道了你下达的指令,除了语音交互说停止之外,你可以攥个拳头也是停止。这块相当于在手势识别,包括本身的点读识别之外,我们也进行了更好的突破,未来去给用户更好的体验。这里可以看到我们工程师在测试,这是天猫精灵眼睛里面看到的用户,它在领悟用户的一些指令信息。
。什么叫多模态,就是说除了有语音,比如说中间是一种语音的交互,上面是一个视频的交互,因为它看到你,它能听到你,还有一个文本的交互。它现在可以一边看书,一边听,一边说,这是一个真实的人在现实生活当中一个多模态的交互的过程。我们目标就是打造这种拟人的、跟真实人类一样的助手能力,来帮助用户解决问题。
我们与其他会刚刚发布的智能音箱,加载了多模态交互全新的智慧全场景。
这里我们还是有一个使命,马老师说让天下人没有难做的生意,我们天猫精灵拆解来说,希望每个家庭都有一个天猫精灵助手。我们希望在未来AIoT、5G时代下,在设备的连接和控制上,我们希望也能有各种服务。5G时代互联网是什么,我们希望重新定义——以AI技术为核心,以家为中心,打破设备和场景的边界。大家知道以前设备都是比较孤立的,我们希望通过天猫精灵能连通这些所有的设备,包括跟设备和人,这才是一个真正的IoT时代。我们希望打造跨领域场景化的“懂你的家庭助手”。
大家可以看到我们信息助手、教育助手、娱乐助手、智能家居助手、生活服务助手、健康助手,我们希望服务中国4.3亿的家庭用户。我们还有很长的路要走,也希望各位能支持我们,随时帮我们反馈很好的建议。
我们的口号也很清晰,万物有精灵,生活有良伴。