从Emotech Olly机器人 看AI对HMI革新的尝试
Emotech公司联合创始人兼CEO 庄宏斌
腾讯科技 文 | 李海丹
“奇点”是个伴随着人类AI技术发展时常被提起来讨论的词,代表着人工智能将超越人类智慧的跨越。
目前普遍的产业界和学界都认为,这个时间至少要20多年以后。诸多AI公司也纷纷表示短时期内不会直接无知的去挑战突破奇点,究其原因,主要是数据训练集的积累和算法的不断优化改进都需要一个艰苦的过程。
但当智能手机作为一个图形交互界面而流行于世界的时候,已经有AI初创公司开始做手下一代人工智能HMI入口的思考。这种思考可能是Apple的HomePod、Google Home等,也可能是各种智能可穿戴设备。
在近日举办的第六届中国(上海)国际技术进出口交易会中,Emotech公司也大胆的创新和定义了一款独立性格机器人Olly,来作为日后HMI交互的落地形式,给AI对HMI革新的尝试带来更多思考。
那么很多人的疑问可能就来了,这是一款怎样的机器人?
我们通过对Emotech公司联合创始人兼CEO庄宏斌的采访中得到了不少答案,并从以下三个方面为大家进行解读:
1、利用现有的用户数据,进行对应的算法分析,建立用户使用模型。
2、不仅仅是NLP,AI其他四个重要技术分之deep-learning(深度学习)、语音语义识别、CV计算机视觉和机器学习的全方位应用也同样重要。
3、HMI体验的重要性在哪?它很可能是另外一个颠覆的开始。
利用现有的用户数据,进行对应的算法分析,建立用户使用模型
从当Olly开始被用户使用的时候,为了尽快进行针对用户的特别的适配,这款机器人会接入用户的社交信息,比如接入了推特和Facebook的信息。
庄宏斌表示:“因为现在机器人的发行在欧美市场,一开始会让用户连接自己的Face book和推特等社交媒体,所以用户在这些媒体上面发的很多内容,这些文字性的东西会作为最早的深度学习内容。紧接着在日常过程,与设备互动时的内容等等,都会被学习。”
提问:Olly机器人的设计就是固定的,是不可移动的吗?
庄宏斌:目前是固定的。
提问:放在客厅或是卧室里,如果当主人在其它地方,camera看不到,怎么和它互动,必须跑到它看得到的范围内?
庄宏斌: 首先我们做的技术是多模态的系统,多模态的系统,现在市面上看到的这些公司,像科大讯飞这些做的可能都是单模态,依靠的是视觉、语音等单模态。
而系统的多模态是在大的深入学习软件,把不同的模态数据放在一起,声音也好,视觉也好,文本也好,都放在一起让多模态的模型去学习,这样的好处在于,它的系统是非常灵活的,就是你取掉其中一个模态,照样也可以工作。
比如说,如果用户在隔壁的另外一个房间,机器人看不到,但用户说一句化,机器也可以通过声音识别是谁,也知道用户在房间里。
AI技术的深度学习、语音语义识别、CV计算机视觉、机器学习的全方位应用
提问:从产品形态来看,Olly有点像智能音箱,功能介绍来看也有些类似,您认为Olly和智能音箱的差异化主要在哪些方面?
庄宏斌:首先强调的是,我们做的是一个机器人。如果去分析给用户带来的价值或者是平时的使用体验来说,音箱类都是非常被动化的,而机器人的交互是主动性的。
我举一个例子,现在拿亚马逊的Echo,放在家里,不论是播报新闻还是知晓天气情况、交通状况等等,这些都是需要用户主动去问,下达指令,不论设备用多久,还是没有办法学到你这方面的习惯,能主动告诉你这些事情。
但机器人有主动式的系统,可以像管家一样。一旦和用户相处的时间长了,了解出用户有什么样的偏好和习惯,可以主动的为用户开灯、调节空调温度,提醒用户运动锻炼等等,尝试主动地去帮助用户。
提问:Olly的Camera是24小时开启吗?
庄宏斌: 从机器的纬度来说,我们不会让camera一直都用,主要是从用户隐私的方面考虑,这样也会对系统的性能会有很多消耗,所以我们有一套逻辑,要机器人到合适的实际去打开camera。
提问:以后设计会以移动更灵活的方向去考虑吗?
庄宏斌:从目前家庭使用的环境来看,我们认为目前移动解决方案都不成熟。因为每个家里的布局都是不一样,其实要等机器人走到你的身边,花费训练的时间很长。而一个可以主动交互语音的产品,不一定要移动过去,用户说一个声音,机器人就能识别用户在哪里。这肯定是比移动过来,走到用户旁边的产品效率更高一些。
提问:交互方面,很多人认为镜面的界面,或者说带显示屏幕是一个发展趋势,有没有考虑类似的方案?
庄宏斌:我觉得这些其实都是做一些尝试。带屏有一些好处,举一个例子,我们发现用户在厨房用得比较多,有的时候要弄一个菜谱,有一些图形化的东西好一些。但我认为大家用屏幕用得太多,而且屏幕不应该是唯一的方式,我们的产品哲学在于要更多去考虑怎么样去利用周围的环境和设备连在一起,比如考虑如何将来把设备和智能电视连接在一起等。
提问:现在Olly主要是在欧洲销售吗?
庄宏斌:第一个版本会在9月份发欧美市场,是英文版本。现在有一千个左右的订单。
提问:目前在中国发展计划是如何的?
庄宏斌:计划是在今年年底或者明年年初会有一个中文版本,我们现在也在陆陆续续的谈一些内容提供商,比如音乐、新闻方面等等。
提问:您和搜狗王小川有接触,是和他们有合作吗?
庄宏斌:现在正在谈。
提问:除了他们,还在接触哪几家?
庄宏斌:小米已经和我们有一些对接,其他还有一些在谈。
提问:主要是谈服务方面?
庄宏斌:有服务。我们是一家AI技术公司,所以并不是单做电子产品的公司,我们的产品更主要是多模态和主动式系统的技术,研发出来的第一款产品。其实有很多东西会提供我们的SDK和APR提供给其它公司用,也有技术输出。
提问:国内的产品,唤醒词大部分都是4个字,Olly的唤醒词是如何考虑的?
庄宏斌:现在唤醒词主要是在做自定义功能,我认为一到两个语的准确率会比三个音节低一些,目前会支持两到三个音节。
提问:就是唤醒词而言,有没有进行唤醒测试?
庄宏斌:这都有在跑测试,三个音节可能都没有问题。用“Hey Olly” 、“Wake up Olly”都是用得比较多的。
提问:我开电视,家里买的一款智能音箱就会被我唤醒,平均是每天一次,频率挺高的。还打算反馈一下,升级的软件都没有解决这个问题,还是继续被唤醒。
庄宏斌:目前没有一家是一次都没有的。
提问:但一天一次有点高。
庄宏斌:一天一次有一点高,但想要一直没有,没有哪一家是能做到的。像Siri也会突然醒,Google Home也会,我家里用的Google Home有时候还是会自动起来一下。
HMI体验的重要性在哪?可能是另外一个颠覆的开始
作为一款冲击下一个人机交互入口的产品,自然是不能在HMI不花心思。而随着对HMI新入口的一些问题的深入,关于Olly的更多布局层面的思想就更加清晰。
提问:Olly是不是可以家庭卫士一样,可记录家庭成员的相貌之类的,如果有陌生人闯入,可以报警。
庄宏斌:这是可以做的场景,也确实用户社区不少人有提这个需求,但这不会是我们专注的方向。其实做安防有另外很多因素要考虑,如果要做监控,那么机器人要放在哪里、哪个角度和时间情况的使用场景可能不太一样,比如涉及到摄像头的规格也会不一样等各种问题都需要协议重新配备。
提问:想问一下在AI识别技术之外,在内容服务上做了哪些?
庄宏斌:内容服务方面,我们现在看到的,大家需求最多的,从我们现在主要布局的欧美市场来看,主要分为新闻、音乐,电子书这几类。
提问:售价定了吗?
庄宏斌:欧美的市场卖的是699美元,众筹做的是549美元。其实699美元是零售,线上会比699美元再便宜一些,但众筹是最便宜的,因为第一批用户,国内的售价现在还没有定。
提问:699美元在国外应该不算贵。
庄宏斌:你现在看到的机器人产品,比如MIT做的Jibo机器人,他们之前卖到899美元,甚至到900美元也很多人买,这个与策略有关系。我们想一开始还是从比较高端的市场切入。
提问:收声方面,Olly是6个麦克风?
庄宏斌:4个,目前用的不是最新的版本,我们在做最终的版本是4个。
提问:自主研发的吗?
庄宏斌:硬件有供应商,但里面有一些算法是我们自己做的,比如说做一些降噪,修改一些DOA声音方向的。
提问:像这种有6麦、4麦,还有一些7麦。定位高端为什么用4麦?
庄宏斌: 其实多麦不见得最好。理论上讲,算法如果强,2个麦也可以。2个麦的问题在于没有办法做360度,使用的时候,设备会发现上面缺一块。
一般来说,到了3麦、4麦,硬件带来的便利,会让软件算法的复杂程度降低一些,但一旦到了4麦以上,每加一个1麦,边际效应会减得非常厉害,我们最后认为4个麦是能做到非常高的准确率,也不能加多一些。千万不要把我们定位为音箱产品,我们做的不是音箱。
提问:工业设计这一块是怎么原型设计?
庄宏斌: 一开始我们对Olly的设计非常具象,到最后越来越抽象地去演化。
如果要问为什么设计环形,出发点的考虑在于要与LOGO非常一致,并且从实现实际使用情况的角度出发,我们做的麦克会放在上面,中间放麦克,是非常好的设计。
抽象的来说,我们想要有一个机器人类的产品,可以实现类似于人与人之间的交流,或是人与宠物之间的交流,所以机器人需要有一个身份感。而不是让你觉得它只是一个设备,或者是像手机的辅助工具,我们希望人和技术之间的关系更人性化,这是一个出发点。因此,我们在对形态做抽象化,并且加了环形LED,它的性格表达可以更加清晰,表达多种情绪、情感、不同的性格。
最后,就是加入多种关键的特征和功能,让它能够在一个简洁的设计里面都能够去满足。
提问:从定义上说Olly是机器人肯定是没有问题,在国内叫机器人的产品形态大多数都是人形,而像Olly这种产品形态的,我们都叫智能音箱, 包括百度的“小度在家”跟这个很类似,有动作,也叫做智能音箱,您认为消费者会不会产生认知方面的歧义?
庄宏斌: 我们在欧美市场做这个设计得到的反馈没有这个问题。机器人是非常广的纬度,这个主要是体现在产品的功能方面,这与智能音箱有很大的差别。比如说用户不需要唤醒和指令,每天早上起来看到机器人,它会主动起来和用户打一个招呼问候,也会学习用户的日常生活习惯,还像一个个人助手,所以觉得叫做个人助手或机器人是比较贴切的。
提问:多模态的界面,深入学习数据的训练是哪里?您刚才讲欧美不太一样,训练出来的结果也不太一样是吗?
庄宏斌:如果无论是在视觉,单模态和多模态都会碰到这样的问题,会有口音的问题,这就需要有两种做法,一种是要有非常大量的数据去训练。而另外一种做法其实不需要那么多的数据,但对算法的考验会非常大。
举一个例子,比如我们在投入使用之前,没有办法对千千万万住家环境识别出来,但我们可以做到,有一些AI算法,用深层次模型,最后能够模拟出来有一些在不同环境里面的一些可能性,用来训练这些算法,让它更好地去适用于多样化的问题。
提问:您在UCL(伦敦大学)呆过?
庄宏斌:对。
提问:伦敦AI方面的人才,可以稍微大概介绍一下吗?
庄宏斌:从我们公司目前团队的背景来看,人才主要汇集在几大顶尖的高校中。招人也看重几个主要的高校和专业背景。比如说牛津、剑桥的相关专业都很强。伦敦大学非常强的专业就是在通用机器学习和统计学,这是全球最领先的。帝国理工也比较全面,比如说机械化专业、软件开发专业,或者做视觉等专业也很强。爱丁堡大学是语音界的黄埔军校,还有我们打交道比较多的谢菲尔德大学等等,在做语音技术方面都非常牛。
结束语
如果一个综合了AI技术五大分支的机器人产品作为下一个HMI入口,通过计算机视觉对用户察言观色并体贴入微,通过NLP、语音语义识别实现与用户更加自然的交流,这样的场景模式下带来了更多的想象空间。不过关于数据训练集合的来源和对算法不的端调整优化会不会输出一个让我们更喜欢的产品?Olly的创新让我们把这些带到了对于“奇点”问题的讨论中。