专访简仁贤:如何用情感交互拯救智障的机器人
本文系网易智能工作室(公众号 smartman 163)出品,此篇为《AI英雄》专访第2 8 期。聚焦 AI,读懂下一个大时代!
作者 | 小羿
我问自己,为什么会爱上你
我感觉一切忽然都不重要了
我所掌握的所有执念都消失了
我找不到明确的答案,我也不需要明确的答案
我相信自己,相信自己的感觉
我不想再尝试成为,真实的我以外的东西
我希望你会接受这样的我
――萨曼莎
这是电影《 Her》中女主人公人工智能系统萨曼莎对身为人类的男主人公西奥多的爱情表白。这部电影获得了第86届奥斯卡最佳原创剧本奖,也勾起了人们对于未来世界的憧憬。简仁贤便是是深受这部电影影响的人之一 。
作为前微软(亚洲)互联网工程院副院长,微软小冰研发的奠基人之一,简仁贤在 2015年为了让机器人具备情绪情感,毅然走上了创业之路。如今,他创立的情绪情感识别公司竹间智能科技已经走过了两年的时间。
什么是情感识别?能否拯救智障的机器人
为什么现在的机器人感觉很智障,为什么它们的交流如此生硬机械?
在简仁贤看来,人与人之间的交流是自然的交互,包括图像视觉、声音与文字,都是有情感在的。而要想达到自然的人机交互,就必须使机器具备情感识别和理解能力。两年以来,简仁贤将大部分经历放在了情绪情感技术的打磨上。采访一开始,简仁贤就迫不及待地向网易智能等媒体展示了他们与 Google在人脸情绪辨别上的对比测试成绩单,并进行了细致的解说。
据简仁贤介绍,竹间智能的一家合作伙伴将竹间智能 Emoti-Face API与Google cloud vision API的做了对比。
注: 测试对比采用香港中文大学 ExpW数据库作为测试集,测试机里有9万多张人脸。
测试结果显示,竹间智能的人脸情绪 API可以辨识9种情绪,包括开心(Happy)、生气(Angry)、哀伤(Sad)、惊讶(Surprise)、害怕(Fear)、反感(Disgust)、轻视(Cotempt)、困惑(Confused)、中性(Neutral)。但是Google的人脸情绪API只能辨识4种情绪,分别是愤怒(Anger)、喜悦(Joy)、悲痛(Sorrow)、惊讶(Surprise)。
在同一个测试集里,竹间智能的人脸识别的准确率是 96.68%,Google是81.52%。在人脸表情识别度上,简仁贤介绍,这个维度测试同一张照片场景中不同灯光、角度下的三个人脸情绪,还有六张不同人脸情绪的识别。最终结果显示,竹间智能的准确率达到了81.57,Google只有70.84,前者比后者高出15%。简仁贤总结说,开心是最好辨认的情绪,在惊讶、哀伤的情绪上竹间智能领先Google的比较多,而生气这个情绪很难辨认。
与此同时,简仁贤还向网易智能介绍了人脸情绪的识别规律,竹间智能采用的是对表情给一个几率值,比如是 0到1分数,哪个分值大就是哪种情绪。比如第一张脸系统判断其他情绪值都是是0,只有开心值是1,就判断整个情绪是开心的。而Google的做法是用四个值来衡量,Very Unlikely、Unlikely、Likely、Very Likely,用这个四个值的分数去辨别情绪。
简仁贤称,竹间智能对于人脸情绪识别的算法,大部分都是原创的,架构训练和速度更快,不管是在 CPU还是在GPU上测试,与其他算法相比都是运算时间最少的。而且运行存储十分小,容易直接做到单机上,甚至低端手机上。简仁贤对自己的技术充满了信心,“希望竹间智能能将自己的人脸情绪识别技术拿到业界做一个公开的评比。”
在人脸识别方面,除了 9种情绪之外,竹间智能还对人脸做了22种属性的识别,包括性别、肤色、皮肤质量、头发颜色、是否戴眼镜、长发还是短发、哪种胡子、年龄等等。
简仁贤称,皮肤质量公司最新做的人脸属性,可以识别斑点、黑斑、痘痘、黑眼圈、深皱纹、浅皱纹、晒伤、红斑、油性皮肤、干性皮肤等等,这部分已经得到了应用。
除了在人脸上进行情绪识别和属性的开发之外,竹间智能还做了 22种语义的情绪(基于文字)和4种声音的情绪(基于声音)。人脸表情、语义文字、语音声波,三种情绪识别融合在一起构成了竹间智能最核心的情绪情感识别技术。
在数据积累上,简仁贤称情绪情感的数据是买不到的,市面上多是一些只能做正负向两个维度情绪的数据。为此,竹间智能除了少部分用公用数据外,大多数都是自己采集,从爬数据、清洗、标注,累积了大量的数据、数据集、训练集、测试集,以及算法的迭代。 “因为情感情绪是非常难标注的,所以我们累积了两年,拥有超过100万张精确标准过的人脸。”简仁贤表示。
基于情感情绪做人机交互,这条路走得通吗?
情绪情感的识别理解是竹间智能的核心技术,在此之上,简仁贤把公司定位一家人机交互公司。
“竹间智能不是图像公司、也不是语义公司,而是基于情感情绪的人机交互公司。”简仁贤这样给自己的公司定位。
在简仁贤看来,要做到好的人机交互,必须要从人脸视觉上、语音识别、文字理解上都做到情绪情感的理解,并把三者融合起来。 “只有这样才能让机器人,甚至是AI交互技术实现突破,实现深层的人机交互和理解。”
”在人脸识别方面,我们着重的是对于人脸的理解,有别于其它的视觉公司是做安防、人脸验证、刷脸等技术。“简仁贤称,竹间智能在人脸识别上只做情绪情感,其商业模式是在人脸识别上提供情绪情感的辨识和决策。
简仁贤表示,情绪情感的识别对机器人的语音识别、语义理解方面也有很大帮助。 “我们有很多合作伙伴提供语料,都是用户讲了一大堆事情,关键词就超过十个,按照传统的方式无法匹配,还要让用户一遍遍地去做选择题。我们的做法是首先辨别情绪,如果情绪极端不满,不管你讲什么,先安抚和道歉,之后我再去判别你的意图。”
“比如说在机场的场景上,乘客可能会问“北京到上海的这个班机在哪里值机?”如果机器人通过摄像头识别出乘客很慌张,后台马上帮忙查询航班,然后可能会先安抚乘客别着急,还有一个半小时才起飞,时间还来得及,我帮您查到了,是在XX号值机窗口,从这边往右转...."简仁贤认为,这才是真正的人机交互。
机器人根本听不懂你在说什么?问题在上下文理解和记忆
对于目前人机交互最难的语义理解技术,简仁贤也发表了自己的看法。他说,当下很多对话机器人或聊天机器人也好,或者是 QA问答系统也好,其实它是不理解语义的。
“比如说你跟机器人讲,某某明星好丑啊,然后机器人就说,是啊很丑。可是他不知道你是在讲谁。如果我把某某明星换成敏感人物,形象、性别敏感的人物,这样的就会造成言论的错误。”简仁贤表示,如果只是随便抓一条语料来回这个话,就很容易造成当下的一问一答关健词的回话。”仅依靠关键词匹配和后台搜索是做不好语义理解的,它只会导致聊天的效果是不可控的,失去了人机交互的黏性。“简仁贤揭了bot们的底。
简仁贤认为,语义理解应该是包括上下文的理解和记忆两部分。由上下文和记忆的理解再来理解情绪情感,然后识别意图,才有办法得到一个理解的结果。只有真正理解每句话的意图,机器人才有办法判断如何回话。
“记忆包括短期记忆和长期记忆,短期记忆指的是我们在对话的48小时之内的东西,长期记忆是有关于你的属性,你喜欢什么,不喜欢什么,你的年龄,你的爱人是谁,你住哪里,老家哪里,你喜欢谁的电影,喜欢听谁的歌等等。”简仁贤对网易智能表示,对于记忆的部分,竹间智能是从对话里面用语义理解的技术,去把这些抽出来,然后去除隐私信息,再建立起来的。
但即便这样,人机交互的语义理解部分还是存在的很大的问题,尤其是中文,同一句话可能在不同的场合表示不同的意思。
简仁贤表示,目前在开放式领域,能够精准的判断你的意图是做不到的。但是如果限定在特定的对象或环境中,就比较好。 “在开放式领域,比如我在家里说太吵了,那我说的是外面吵还是电视太吵?但是如果我对着电视讲,太吵了,我的意图是把声音关小一点。”“我对证券业说,我的股票主力走了没,主力是什么意思?我对一个球队说横打主力是谁,这个主力跟那个主力不一样的。所以我对着特定领域的“主力”,这是代表不一样的意思的。“简仁贤解释到。
目前,竹间智能已经根据特定领域做了几百种意图,这些意图识别准确率达到 90%以上。“但是仅仅建立一个特定领域的理解还是不够的,我们会配合合作伙伴,利用他们的数据来做一个适合他们的,这就成了解决方案。“简仁贤表示。
技术落地,如何将人机情感交互用到行业中?
技术搭建成熟以后,简仁贤发现还是不能达到真正的效果,所以他的团队将触角伸向了应用领域。 “只有到行业里去应用,才能够拿到真实的用户的使用数据,对你的模型才能做更精进。”简仁贤说。
简仁贤认为,在应用领域,是一个快速迭代的过程, “像我们的情绪情感的模型做了四代了,我们的意图引擎也重写了四次了。包括我们的语义理解,语义理解的部分都重写了两次。就是因为我们获取到的的信息不一样,但是我们的架构很低耦合,可以让我们做到快速迭代。所以场景的应用是很重要的。“
目前,竹间智能的情绪情感的人机交互解决方案已经用到了电商、金融和物联网等领域。
在金融领域,竹间智能主要服务金融、证券、保险三个子领域。 “比如金融业务之前问答系统,用户的黏性和效率都是很低的。传统的问答系统其实需要人工维护,而且维护成本相当高。因为他们要写几万个,甚至于十万个以上的模板来维护,都是模板维护,它不是人工智能。所以传统的客户系统,他们是急需要智能的,用人工智能的技术来解决。”据简仁贤向网易智能透露,目前金融部分的业务已经成为竹间智能的主要To B业务。
其次,电商、零售、快销这些领域是竹间智能最开始接触应用场景。 “比如电商客服场景,用户进来有可能说,我货订了这么久,为什么还没收到?对于商家来讲他需要知道你的意图是什么,是要查物流吗?可是首先我们通过情绪识别出不满,先安抚,然后再查物流告知货什么时候送到。”简仁贤称,这样的人机情感交互完全有别于传统的机器人客服。“传统的智能客服系统都是不智能的,如果用户跟机器人讲,我这个货订了好几天了都还没收到。机器人会回复:我猜你要问的是,1,2,3.......然后你再选,然后选完以后可能最后再给你选择。”简仁贤说到。
另外,竹间智能目前还利用 22种人脸属性以及9种时尚穿着识别,为美妆导购产业服务。“包括快销品、护肤品、化妆品,跟脸有关系的场景都可以用到,我们可以依据人脸属性和情感情绪,做适时的个性化推荐和导购。”简仁贤说。
第三个落地场景是物联网部分,包括机器人、手机、电视等。 “这三个应用领域是可以融合的,比如说机器人公司将产品卖给银行网点的,刚好我们有银行的知识,就可以用上了。我们的商业模式是一个体系的,这样容易把服务串起来。”
简仁贤表示,公司的目标是在未来两到三年,通过融合视觉、声音、文字三种情绪识别技术,做出一套完整的多模态人机交互解决方案。当然,这个解决方案是可以高度定制化的。
对于未来的商业模式,简仁贤认为,情绪情感识别是非常专业和垂直的技术,是在走大公司没有专注的事情,也不会和市面上特别火的图像识别公司产生冲突。, “其实在AI的领域里,只有靠小公司才有办法在特定领域里做出来一些场景,大公司不可能为其它的公司需要AI场景的做定制化服务。”简仁贤表示,竹间智能未来会给一个标准的解决方案,然后在标准的解决方案上面为客户进行定制化。
“很多人说服务机器人不看好,我说服务机器人在未来三五年会很流行,特别是在无人店。”简仁贤表示,我们现在希望把服务机器人变得很智能,把情感元素加进去,把意图元素加进去,融合各式各样的场合。(完)
关注网易智能公众号(smartman163),获取人工智能行业最新报告。