Facebook：人工智能描述图片，让盲人“看见”

创业邦 • 9年前扫码分享

从Facebook增长团队中随便找一个人，问问他/她这样一个问题：“在Facebook获取10亿日活跃用户的过程中，哪个功能起到了最重要的作用？”对方给你的回答一定会是：“照片。”自从2005年Facebook上线一年以来，用户已经在这个平台上上传了无数的图片。图片分享功能也成为了Facebook最受欢迎的功能之一，并且让它成为了全世界用户最多的社交媒体。可以说，我们已经习惯了Facebook的图片分享功能，很难想象如果确实了这个功能，Facebook会变成什么样子。但是在过去的10年中，无论是Facebook还是其他社交媒体，都没有解决这样一个问题：世界上有数百外的盲人以及视觉功能障碍者，他们很难体验到Facebook的图片分享功能。

但是从今天开始，Facebook想要解决这个问题，他们将会采用人工智能技术，自动向盲人和视觉障碍用户用语音对屏幕中的图片进行描述。这项技术是由Facebook的无障碍团队所开发的，这个团队至今为止已经成立了5年的时间。该团队的领导人为杰夫·维兰德（Jeff Wieland），他此前曾是Facebook产品集团的用户研究人员。这个团队此前曾经针对iOS版Facebook应用开发了字体大小调整功能，目前已经有10%的Facebook用户每天都在使用这个功能。

使用语音向视力障碍用户播放图片内容描述

从今天开始，这个新功能将会率先登录iOS版Facebook应用，安卓版和网页版也将会在不久之后添加上这个新功能。该功能使用了机器学习技术，能够识别出图片中的各种物体。所谓机器学习，是当前硅谷最火热的一项技术之一，例如你可以给计算机看足够多的图片，例如狗的图片，在经过分析和比对之后，它就能识别出所有图片中出现的狗。Facebook的这个新功能除了能够识别出图像中的物体之外，还能够通过语音对图片进行详细的描述，让盲人用户“听”到图片。

虽然这个技术仍处于其早期阶段，但是它目前已经可以准确识别多种类别的物体，例如交通工具（汽车、船舶、飞机），自然现象（雪、海洋、日落），体育（篮球场）和食物（寿司等）。这项技术还能够识别图片中所出现的人的一些特征，例如婴儿、微笑、胡须等，甚至还能够分辨出用户的自拍。

就在上周的时候，我亲自造访了Facebook位于Menlo Park的无障碍使用实验室，近距离的体验了这个新功能。除了维兰德之外，陪着我的还有另外一名Facebook工程师马特·金（Matt King），值得注意的是，金本人就是一位盲人。金在出生的时候就有视觉障碍，在大学期间，他不幸的丧失了全部视力。从上世纪80年代开始，他就一直致力于计算机设备的无障碍使用推广工作。如今，他成为了Facebook的一员，他的愿望就是让全世界所有的盲人和视力障碍人士也能够毫无障碍的使用上最新的计算设备和应用服务。

如今，盲人在使用互联网的时候，他们最主要的方式，就是借用屏幕阅读器——这是一个可以描述屏幕上各种元素的软件，它可以描述屏幕上的链接、按键和文本等信息。正是由于这种软件的存在，盲人才能够体验到互联网带来的便利。在过去数年内，网页本身也变得对盲人越来越友好。而且越来越多的科技企业也开始注重为盲人用户创造便利，例如当前各种智能手机都拥有无障碍使用功能。

许多网页还没有为盲人用户提供便利

但是尽管如此，当前许多网页仍然没有为盲人用户提供足够的便利。金表示：“虽然你可以听到文件的名称，但是你并不知道这个文件是否可以点击。而且这个使用过程一点趣味都没有，盲人用户依然无法流畅的使用互联网。而且现在的互联网上，图片是非常主要的一个组成部分。正常的用户可以体验图片分享给他们带来的快乐，而对于我来说，图片是一个遥不可及的东西。为了解决这个问题，Facebook曾经提出了许多种解决方法。我们想过，鼓励人们在上传图片的时候同时添加文字描述，从而让盲人也可以知道图片中的内容。但是这种做法显然会增加普通用户的使用负担，因此这个方法无法大规模普及。”

Facebook用户每天会分享多少张照片？我们来看一组数字：每一天，用户都会在Facebook、Instagram、Messenger和WhatsApp等平台上上传20亿张图片。让用户为这些图片添加文字描述，显然是完全不可行的。因此，Facebook想到了人工智能这项技术，他们开发了一个可以自动识别图像内容的软件。金表示：“对于这个问题，我们需要找到一个切实可行的解决方式。既然盲人看不到图片，至少应该让我们了解图片中都出现了什么内容，让我们也可以像其他人一样，用另一种方式享受图片所带来的愉悦。”

在演示过程中，金打开了多个带有图片的Facebook文章。他关上了设备的屏幕，这样一来，我们也看不到上面的图片，以此来模拟盲人的使用体验。顺便插一句，如果你想对你的网页进行重新设计，最好的方式就是关上显示器，假装自己是个盲人，忘记此前所有的设计。金早已经熟悉了屏幕阅读器的使用方式，在经过几次点击之后，他告诉我们一切已经就绪了。

突然手机发出了声音：“文章题目：周日晚间腐败”。之后，手机对文章中的图片进行了描述：“披萨，食物”。随后金重新打开了计算机的屏幕，屏幕上是一个大号的意大利香肠披萨。之后他又进行了一次尝试，这一次他的手机说文章题目为：“庆祝”，图片描述为：“三个人在室外微笑”。打开屏幕之后，图片上果然是三个人站在室外微笑。金表示：“凭借这个技术，我现在终于能够更好的了解好友发的内容了。”

Facebook并不是唯一一个使用机器学习来帮助用户理解图片内容的企业；如今人工智能已经在许多领域为人们提供各种各样的帮助。谷歌的照片服务和Flickr也使用了类似的技术，这些服务都能够使用人工智能技术对用户上传的图片进行分析和归类，帮助人们更快的找到他们要找到的照片。但是不可否认的是，如今这个技术还不够成熟，也错误频出。例如去年谷歌的照片应用错将两个黑人识别成了“猩猩”，谷歌也不得不为此进行了公开的道歉。

在默认情况下，Facebook的这个技术只会为图片添加一个标签，前提是算法自信对于此次识别的精确度在80%以上。但是在一些敏感情况下——例如牵扯到人种——这个技术将会在为盲人用户提供语音说明之前要求后台为该图片添加更多标签。在无法准确识别的情况下，这个技术不会为图片添加任何标签。维兰德表示：“在一些情况下，没有数据要好于错误的数据。”

“在一些情况下，没有数据要好于错误的数据。”

出于安全起见，很多科技公司都会强调新技术还处于“起步阶段”。而Facebook的这项技术，真的是才刚刚起步。如今这个技术只支持一个平台，而且只支持应用一种语言，这个世界上还有无数的物体是这项技术无法准确识别的，例如它只能分辨出“披萨”，但是让它分别出“意大利香肠披萨”，就有点强人所难了。但是尽管如此，Facebook的无障碍团队依然希望将这个技术用在更多场景下，他们目前正在开发两个新工具：视频物体识别工具，以及视觉Q&A工具。前者很好理解，就是识别视频中出现的物体。而后者则更复杂一些：用户可以就图片中的内容对Facebook的AI进行提问，AI给出相应的回答。例如，你可以问AI图片里都有哪些人，之后AI会进行脸部比对，给出图片中用户Facebook好友的名字。

目前，这个技术或许只能代表一个技术趋势。但是在被大规模采用之后，它将会给Facebook带来巨大的机遇，由于一些显而易见的原因，盲人和有视觉障碍的人们很少使用Facebook这个服务。但是金表示：“接纳有着巨大的力量，而排斥则让我们感到非常痛苦。我们开发这种技术将会有着巨大的影响，可以让盲人意识到，我们也有能力使用这种风靡全球的社交媒体服务，这对于我们来说非常重要。我们希望让每一个人都参与进来，我们也会尽全力让所有人都参与进来。”（翻译：鲁行云，编辑：picar）