谷歌超敷衍的Allo背后,是超智能的图像识别技术

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

编者按:Ariel Fuxman是谷歌研究科学家,他于2006年从多伦多大学获得计算机科学博士学位。他2015年加入谷歌,之前的8年时间在微软担任高级研究员。本文中他介绍了谷歌在I/O大会上新推出的智能聊天应用Allo,到底有怎样神奇的智能回复功能,以及这些功能是如何通过 图像识别 技术实现。

 

谷歌今天发布了智能聊天应用Allo。从开发Allo的第一天起,我们就想打造一个真正特殊的产品,通过机器智能的力量,让聊天变得更加简单、更加高效、更有表达力。Allo的一些特殊功能Photo Reply。我们利用了机器学习来理解分享的图片到底有什么内容,从而给用户提出丰富的自然语言回复建议,用户只要简单点击就能发送,省去了打字的麻烦。这让用户使用手机小键盘的时候,也可以非常方便地让聊天对话比较有料。

举个栗子,当你的朋友升级成为父母,难免会非常激动地给你发来(你并不感兴趣的)小娃照片。   谷歌超敷衍的Allo背后,是超智能的图像识别技术

图片来自 Google Research Blog 。

此时Allo就给你提供了几个快捷回复的建议:

选项一:哇啊啊啊!

选项二:好可爱!

选项三:可爱的宝宝!

(这完全是对晒娃无感的我,一向惯用的敷衍方式。)随手一点,再也不担心友谊的小船说翻就翻。

幕后功臣Photo Reply

今年冬天的时候,谷歌产品经理Patrick McGregor和Ryan Cassidy给了我们一个挑战:敢不敢做一个简化媒体分享的聊天软件,并且同时让用户玩得开心、获得很好的谷歌体验。我与Vivek Ramavajjala、Sergey Nazarov和Sujith Ravi等几位同事一起,接受挑战,开始打造Photo Reply。

我们利用了由机器感知团队开发的谷歌图像识别技术,来将图像和语义个体联系起来——人、动物、汽车等等。然后,我们应用了一个机器学习模型,将识别出来的语义个体与自然语言回复联系起来。我们的系统为几千个个体类型生成了回复,这些类型是从谷歌知识图表的一个分类学子集中取出,并且有可能在不同的粒度等级上。举个例子,当你收到一张小狗的照片时,系统可能会监测出这条狗实际上是一条拉布拉多犬,并建议你回复“超爱拉布拉多!”或者当有人给你发了一张意大利面的照片,系统会监测出意面的类型,然后说:“意大利扁面超好吃!”甚至不一定是关注细类,可以上升到美食文化的层面,回复说:“我超爱意大利美食!”

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

面对上图中的意大利面,系统建议回复:“意大利扁面超好吃!”“我超爱意大利美食!”图片来源 Google Research Blog

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

面对玫瑰的图片,系统建议回复:“好漂亮!”“好爱玫瑰!” 图片来源 Google Research Blog 。

我们发现系统有一项功能特别有用,就是它不仅能针对具体的物体建议回复,还能针对抽象的概念。它可以针对事件(生日聚会、婚礼等等)、自然风景(日出、远山等等)、娱乐活动(登山、露营等等)以及更多的类别来建议回复。另外,系统还可以基于与图片内容有关的情绪,来进行回复建议,例如“开心”。下面的两个例子,是针对抽象概念的回复:

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

针对毕业典礼的图片,系统建议回复:“恭喜!”“你成功了!”图片来源 Google Research Blog 。

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

针对跳伞活动的图片,系统建议回复:“太刺激了!”“胆子太大了!”图片来源 Google Research Blog 。

学习个体-回复之间的联系

Photo Reply在运行的时候可以识别分享照片中的语义个体,触发针对性的回复。这项模型将语义个体与自然语言回复联系起来,而模型是通过Expander离线学会的,Expander是谷歌一项基于图片的大规模半监督学习平台。我们打造了一个很大的图表,节点对应图片、语义个体以及文本回应。图像的边界指明了图片中的语义个体何时被识别、针对一张图片的具体回复何时确定以及照片之间的视觉相似点。有一些节点被“标记”了,我们通过在图表中传播标记信息,来学会未标记节点之间的关联。

为了说得明白一点,我们可以看看下面这张图表。这里有两张表:红色标记对应“好吃”回复,蓝色标记对应“美味”回复。“意粉”和“扁面”这两个节点没有标记,但是因为他们与红蓝两种标记都很近,算法可以学会这两个节点应该与“好吃”和“美味”回复联系起来。注意,通过这种方式,我们将“扁面”语义个体与“好吃”回复联系了起来,即便是图表中的所有扁面图片都没有直接与该回复有联系。Expander可以以超大的数量来进行此类学习,搞定包含几十亿个节点、几千亿个边界的图表。

  谷歌超敷衍的Allo背后,是超智能的图像识别技术

图表例子。图片来自 Google Research Blog

Photo Reply是多模式学习的一个很棒的例子,在这种学习模式中,计算机视觉和自然语言处理结合起来,从而创造出一种非常好的用户体验。今年夏天晚些时候,Allo就会正式上线安卓和IOS平台。到时候记得用Allo发发照片,看看谷歌的人工智能到底会如何回复呢?

 

Via Google Research Blog

随意打赏

谷歌智能眼镜谷歌卫星图像谷歌搜索技术谷歌智能围棋谷歌智能家居图像识别微软谷歌图像识别谷歌图片搜索谷歌智能手表谷歌语音识别
提交建议
微信扫一扫,分享给好友吧。