机器在凝视人性深渊:走进脸书的人工智能开发团队
编译丨拓扑社 原野
背景介绍:Facebook 作为全世界最大的社交网络平台,其实在很多年前就已经悄然实现了转型。今天的 Facebook,是绝对以人工智能技术作为核心技术支撑的。我们在互联网上所享受到的每一个服务,其实都与 AI 息息相关。AI 究竟会给我们的生活带来怎样的概念?AI 在 IT 产业中究竟扮演着怎样的角色。今天这篇长文就带领大家走近 Facebook 的人工智能团队。
一次心怀疑云的接任,却意味着一个新时代的开始
「从今天开始, 你就是『Facebook应用机器学习小组』的负责人了。你的任务, 就是要通过人工智能的方式, 让咱们这家世界上最大的社交网络平台加速腾飞。你愿意承担这个角色吗?」眼前的这个人平静地说道。
Joaquin Quiñonero Candela 听到这话, 有些懵, 他想答应, 但是话到嘴边却犹豫了。
这个出生于西班牙的科学家, 形容自己是标准的「机器学习怪咖」, 此时的犹豫犯难,倒不是因为他对人工智能技术没信心。事实上, 他亲眼见证了在人工智能技术的帮助下,Facebook 取得了多大的进展。
2012 年,他加入 Facebook 公司, 刚一进公司,他就亲眼见证了公司在战略方向上面的重大调整, 具体就体现在利用人工智能来让广告商的内容日志变得更加有效, 传递到更加准确的受众那里。更重要的是, 他也在公司内部不断地对人工智能技术进行推广, 实践, 他的团队即便没有受过什么人工智能方面的培训, 他也教着手下人如何让人工智能在工作里发挥作用。
久而久之, 整个广告业务部门对机器学习知识技能整体上有了长足的进步。但是, 面对现在这个具有战略意味的重大使命,面对他即将升任『Facebook应用机器学习小组』的负责人,他怀疑人工智能是否可以站在 Facebook 发展更高的尺度上去发挥作用。
他回忆那次提拔的情景:「我当时答应的时候,迫切的想要知道人工智能技术里是否存在着如他们所期盼的那种价值存在的。」
尽管当时心存疑虑,Candela 还是接下了这份差事。而到了现在, 两年时间过去了, 回望过去刚刚接这份工作时所流露出的担心和疑虑,Candela 自己都觉得好笑, 这分明是杞人忧天嘛。
就在上个月,Candela 在一次工程师聚会上这么说道:「 我要做一次非常郑重的声明。没有人工智能, 就没有今天的 Facebook。每一次你使用 Facebook、或者 Instagram、或者 Messenger, 你也许没有意识到会发生什么。但我可以很明确的告诉, 你每一次浏览中体验的提升, 每一次细小的, 微不足道的满足感的渐进, 这里面全是人工智能在发挥作用。」
让 Facebook 能够矗立在科技浪潮之巅的技术:人工智能
去年 11 月, 笔者前往位于 Menlo Park 的 Facebook 总部,采访 Candela 以及他的团队成员, 终于让我意识到了人工智能现在已经成为了 Facebook 赖以存活的「氧气」。
其实, 当人们谈到 Facebook 在人工智能领域上面所取得的建树, 人们的目光往往绕过他们, 望向了 世界顶级的「Facebook 人工智能研发团队」(FAIR) 。这是另外的一个组织, 领头人是神经学专家 Yann Lecun。FAIR 与 Google、微软、百度、Amazon、Apple 各公司的人工智能研发团队一道, 每一天都在争分夺秒的展开竞争。
现在的电脑在看、听、甚至转换等途径上之所以能够产生这么大的进步, 就有赖于这些精英团队的努力。他们在基于人脑的研究基础上, 开发出来了一个数字化的神经网络。
而今天文章中的主人公 Candela 所作的事情则跟上面会有一点不一样。你光是从名字上面就能隐约捕捉到一些区别。他的团队叫做「应用机器学习团队」。 该团队的目的是要将 FAIR 的研究成果, 联同其他的一些技术, 一起整合到 Facebook 现实存在着的产品当中。如果在此之上还能做到点儿什么的话, 那么就是让公司里每一个工程师都能拥抱人工智能技术, 都能将这种全新的科技融入到自己工作的每一天当中去。 因为 Facebook 没有人工智能就走不到今天, 而人工智能的进步, 需要全体工程师一起努力才可以实现。
美国大选刚刚落幕, 次日, 新闻界就爆出一条猛料:正因为 Facebook 上肆虐猖獗的假新闻假消息, 才使得特朗普这次赢得了美国大选。面对这样的指责, 马克·扎克伯格当然不肯背这口锅。他大声回击道:「能这么想的人一定是疯掉了!」之所以小马这么气愤, 其实还有另外一层原因。关于 Facebbok 假消息肆虐的指责是火上浇油, 因为在此之前, 人们对 Facebook 在 Newsfeed 上不实消息的泛滥就已经愤怒不已, 他们认为这一切都是在 Facebook 睁一只眼闭一只眼的纵容下才导致的。对 Facebook 的指责攻击在 Facebook 内部也产生了震动, 但主要涉及某些 Facebook 更高层面的管理者, 跟 Candela 并没有什么关系。但即便如此,Candela 认为自己肩膀上的担子很重, 因为他知道:Facebook 要对「虚假新闻指责」进行有力的回击, 那么就得依靠机器学习来办到, 而这里面就有他的团队努力的身影。
在采访过程中,Candela 给我准备了一个小小的惊喜,这个惊喜能够很好的展示他们团队的工作成果。对于我来说,这有点儿像魔术了。他给我看了一份视频,视频里首先展现出来的是某个具有强烈个人风格的画家的作品,然后软件竟然会以这种个性十足的风格,重新画出来一张图。这让我想到了某些你在 Snapchat 上看到的绝活把戏,那种将照片变形出毕加索立体主义的想法似乎已经得到了应验。
他解释道:「这个软件背后的科技叫做 神经网络风格转移 。这是一个大型的神经网络,它经过训练后,就能够利用某一种特定的风格来重新临摹最初的那张图片。」说着,他掏出手机,咔嚓拍了一张照片。然后他点击了一下,划动了屏幕一下之后,这张照片变成了梵高《星夜》画作的衍生品。
更令人印象深刻的是,这种应用还可以一边播放着视频,一边给视频添加上某一种特定的风格。而眼下的这一切都是我所能看到的,我看不到的是:Facebook 正在用这样的技术打造自己的的神经网络,它将作用在世界上每一部手机上面。
但如果横向来比对一下,这种科技并不是什么新鲜事儿了。Apple 公司此前就对外宣称自己已经在 iPhone 上面做了一些神经网络计算。但之所以这对于 Facebook 来说值得一说,是因为 Facebook 团队要做到这一切难度有点儿大,毕竟,他们不控制硬件。
Candela 说道: 之所以团队能够完成这样的「把戏」,主要是因为团队的工作是累进性质的。也就是说一个项目完成后,另外一个项目是站在这个项目基础上继续向前开发,项目与项目之间有着明显的关联, 这样工程师不需要接受太多的培训就能开发出与之类似的产品。所以,项目进度很快,成果一个又一个的拿出来。
他说道:「我们从一开始决定开启研发工作,到最终进行公众测试,这总共就只花了 8 周的时间。这真的是太难以置信了。」
除了「项目累进型开发」这一点之外,能够如此高效地完成这个工作还有赖于企业内部的协作机制,这其实就是 Facebook 本身的文化。在此次开发过程中,Facebook 内部团队与团队之间几乎不存在什么门槛壁垒,大家完全不是各自为战,就比如说移动团队本身就对 iPhone 的硬件非常了解,这也就使得 Facebook 的数据中心可以将图片很好地投射在 iPhone 屏幕上。
这种技术带来的好处可不简单,它可不是说方便你自己恶搞一个朋友亲戚的视频短片,让它看起来就像是美国电影《惊声尖叫》一样。 事实上,人工智能技术让 Facebook 变得无比的强大。从短期来看,Facebook 在翻译语言、理解文本上面会有更加快速的响应表现;从长期来看,它可以实现对你所看到的,你所表达的内容的实时分析。
他说道: 「我们是一家社交网站,对吧?我们需要预测人们对于某段内容会出现的反应,我的系统必须做到几乎同步反馈。」
Candela 又看了一眼他刚拍的自拍,那张有明显梵高画作风格的照片,毫不掩饰他神采中透露出来的骄傲。「通过在手机上运行复杂的神经网络运算,事实上,我们是把人工智能交到了每个人的手中。这可不是碰运气碰来的。首先,我们是在公司内部一点点的普及人工智能的重要性,然后再推广它。」
他顿了顿,说道:「这真的是一条漫长的艰辛之路啊。」
他是如何将人工智能带到 Facebook 的?
Candela 生于西班牙,当他三岁时,全家搬到了摩洛哥。在那里,他上了一所法语学校。尽管他在科学和人类学方面获得了非常高的高分,但是他还是觉得报考马德里的大学,去学在他的概念里最具有挑战性的专业:电子通讯工程。这门学科要求的不仅仅是你要对硬件有所掌握,比如「天线」、「放大器」,同时你还需要理解数据。「数据」在当时可是非常酷的概念。
在当时,他已经自己开始设计一套系统,系统中的智能过滤器可以提升移动电话的信号。现在的他将其称之为「一个婴儿的神经网络」。自那个时候,他的人生有了明确的方向,他对机器训练算法的热爱超过了一切,也超过了编程。在 2000 年,他在丹麦进行了一个学期的学习,也就是在那里,他遇到了机器学习领域的教授 Carl Rasmussen,此人师从具有传奇色彩的 Geoff Hinton(自孩童时就在机器学习上展现了惊人的天赋)。也就是在遇到了 Carl Rasmussen 之后,他对机器学习的热情进一步高涨。在毕业之际,Rasmussen 发出邀请,希望他继续深造博士学位,他果断地选择了机器学习。
在 2007 年,他进入位于剑桥的微软研究室工作。 他进入工作岗位没几天,立刻就意识到了在全行业内,围绕着人工智能,各家公司都在全力以赴地进行研发。 微软在那个时候即将发布 Bing 这款搜索引擎,但是在「搜索广告」领域的某个关键环节还需要进一步的提升,即「它需要预测什么时候用户会点击广告。」
微软当时觉得在公司内部展开一次竞赛,胜出的团队所给出的解决方案会投入到产品实践当中,而团队成员将获得一次免费去夏威夷度假的机会。19 个团队参与到这次竞赛当中,而 Candela 成为了最终的胜者。他虽说是得到了一次免费去夏威夷游玩儿的机会,但是,微软在进一步测试他的解决方案时,并没有将其应用到 Bing 搜索引擎性能的提升中,他当时感觉自己被人给欺骗了。
这次对他工作成果的否定反而激发起来他无尽的斗志和决心。之后,他开始在公司内部进行疯狂的演讲推介,面向公司同事,他做了超过 50 次的演讲,并开发了一个模拟器来展示他所开发的算法高明之处在哪里。甚至于他还跟踪过负责做人工智能相关决策的副总裁,吃自助餐的选菜的时候刻意接近他搭话,副总裁去上厕所的时候也跟着,在旁边的尿池看似无意,实则主动创造谈话机会。
在 2009 年,Bing 上终于搭载了 Candela 所开发的算法。而在 2012 年年初,他的职业生涯再一次迎来了重大转变。
当时他的一个朋友在 Facebook 工作,某个周五,他们俩相约在 Menlo Park 园区见面。就在这次相互诉说工作近况如何的闲谈之中,他才意识到原来在 Facebook 还有如此与众不同的一种企业文化: 人们不像他在微软,为了进行某项测试工作还得可怜巴巴地向上面打申请,请求批复。Facebook 的员工想做什么有充分的自由度。 于是,周一一上班,他就去参加 Facebook 的面试,很快,他就拿到了 Facebook 开出来的 Offer。
加入到 Facebook 广告团队之后,他的工作任务就是让 Facebook 推送出更加精准,跟用户有关的广告。那个时候整个平台上还没有用机器学习呢。Candela 回忆道:「当时我们使用的模型都是非常简单的,几乎没有什么技术含量。」
同期加入 Facebook 的员工还有 Hussein Mehanna,他之前也是微软的老员工。(在本文中我们采访的好多 Facebook 员工都是从微软跳槽过来的。巧合还是其他原因?)当时他没有进 Facebook 的时候,原以为 Facebook 已经做好了拥抱人工智能技术的部署,但是事实上什么都没有。Facebook 拥有着遍布全世界的人际网络,丰富的信息资源,但是却没有合适的软件帮助 Facebook 从里面提取出来价值。于是,此人也选择加入 Facebook 助他一臂之力。此人目前已经是 Facebook 核心机器学习团队的总监。
说到目前的「机器学习平台」,Mehanna 进一步解释道。在上个世纪,人工智能领域基本上可以算是「荒原」,而正是因为借鉴了人脑的工作机制,并在此基础上开发出了一些模型,人工智能技术才突破瓶颈实现飞跃。在 Facebook 广告的这个例子上,系统做了一件人力无法企及的事情: 针对某一个具体的广告,软件能够迅速,准确的预测有多少人会点击它。 Candela 和他的团队成员就是基于机器学习的流程,开发出一套全新的系统。
说是系统,更应该称之为平台。因为团队成员的愿景是,所有工程师都能够在这个平台上研发,建模还是机器学习会非常容易完成并复制。
要开发这样的机器学习系统,有一个非常重要的前提:一定要获得高质量的数据,而且越多越好。幸运的是,这方面正好是 Facebook 最大,最优质的资产。 当你的产品上每天有超过 10 亿人在上面互动,上面产生的数据量那真的是一个天文数字,而这正好可以用于机器学习。一旦你开始进行测试,用户行为的案例取之不尽用之不竭。
其他的团队,个人也可以借此开发自己的产品。人工智能技术由此在公司内部慢慢被人所熟悉接受,慢慢推广出去。 Candela 总结了一下:「其实这是一个非常简单的三部曲。首先是你需要关注性能表现;其次你需要提升实用性,最后你需要围绕着它开发一个社群。」
Candela 的广告团队用事实证明了机器学习技术给 Facebook 带来了怎样的创新和转型。 「我们在预测广告的点击数、点赞数、访客到客户的转化率上面,越来越准确。而这样的技术正在慢慢蔓延到 Facebook 其他的产品和服务商。」
在 2015 年的 12 月,Facebook 又成立了另外一支新的「应用机器学习团队」,Candela 兼任这个团队的负责人。同时,他还跟 FAIR 保持着紧密的联系。FAIR 团队在纽约、巴黎、Menlo Park 都有分支,而事实上,应用机器学习团队的成员往往就坐在 FAIR 成员的旁边。
这种紧密合作的关系,你可以通过 Facebook 上大家 Po 出来的照片意识到。在过去的几年时间里,利用 AI 技术来训练系统识别物体,已经成为了一个非常普通的工作。把一个物体放置到一个场景里,让系统在这个场景中把这个物体识别出来,又或者给系统看一张照片,让系统自己得出结论它是在门内拍摄的还是门外拍摄的。
就在最近,FAIR 的科学家们又有了新的进展,他们将神经网络训练到可以识别出照片中每一个物体,通过这个物体在照片上的具体位置,物体与物体之间呈现着怎样的关系,系统可以清楚的知道这张照片给我们展示的是什么。 就比如说系统通过照片中人物的姿势,可以判断出来人们是在拥抱,还是某个人正在骑马。
FAIR 的科学家之一 Lecun 说道: 「我把研发进展拿给应用机器学习团队的人看。他们想了一下说道:』你知道吗?如果放到现实中,有一个特别的用处。那些盲人,或者视觉严重损伤的人,他们只需要将手指放到一张图片上,手机就可以形容图片上的物体是什么,图片整体内容又是什么了。」
Candela 说道:「我们无时无刻不在相互沟通,分享一切进展。从科学到项目,这之间的过渡是需要黏合剂的,而我们就是这个黏合剂。」
Candela 将 AI 的应用分成了四个大的板块:视觉、语言、语音以及相机特效。这四个板块都指向了一个目标:「内容理解引擎」。 在这里,他还专门对「内容」下了明确的定, Facebook 是要让软件能够从留言中捕捉到人们的真实意图,从语音的语调、语气中提取出细微的区别,通过人们面容中一闪而过的表情,解读出你的情绪在一天中跌宕起伏的曲线,并将这一切全部归档。
Candela 认为:「 我们的工作其实就是对 AI 进行一般化归纳。通过这种方式,在内容爆炸的互联网上,我们需要让软件能够理解和分析内容,我们需开发一个底层的、一般化的系统,一个项目完成后,其成果可以造福于其他相关项目。 如果我能找到一种算法,将一个任务中所形成的知识迅速地挪移应用到另外一个项目上,这本身就挺酷的不是吗?」
正是因为人工智能技术成为了一个平台,才使得 Facebook 能够这么快地推出产品。就比如说 Instagram,在一开始,系统让用户的照片是按照一种逆时间顺序排列的。但是到了 2016 年的年初,它决定使用全新的算法,按照相关性来给照片排级。
Candela 说道:「Instagram 要做出这样的转变,完全不用平地起高楼。他们只需要自己的工程师中间有一两个对机器学习比较精通的,然后负责让他们跟外部若干个研究排名应用的团队保持对接,很多研究成果直接拿过来复制即可,如果有一些不懂的地方随时请教即可。 正是因为团队间成果共享,且在人工智能的平台上知识迁移成本很低的特点,使得 Instagram 在仅仅几个月的时间内,就完成了一次脱胎换骨的转变。
除了对某个平台实现较为单一的人工智能的升级换代之外,AML 团队还在不断地寻找其他机会,跟 Facebook 各种不同的研发团队进行合作,将人工智能技术跟其他的技术产品相结合,从而打造出一个前所未见的功能,并针对 Facebook 这样的用户群进行投放。
AML 下属的干支团队中的工程师 Tommer Leyvand 说道:「我们在使用机器学习技术打造产品的核心功能,并永远致力于取悦我们的用户。」该人之前曾经供职于……等等,又是微软公司!
这里还有一个非常有力的例证:它的名字是 Social Recommendations(社会化推荐)。一年以前,一个 AML 工程师和 Facebook 分享团队的一名产品经理在聊天时弹起来了这样一个现象:当人们在 Facebook 上询问身边的朋友,当地有什么好吃的馆子或者其他优质服务时,人们的互动程度会很高。
但是如何将推荐信息有效地识别,并且推送到用户的时间线上呢? 在过去,分享团队一直是通过「单词短语匹配」,也就是将「请求推荐的短语」和「推荐的短语」进行匹配。 但是这并不一定就奏效,因为每天是有 10 亿个更新出来的,往往匹配出来的东西不准确。但是,在他们经过一番讨论之后, 他们决定利用神经网络训练技术,通过把模型放到现实生活中去测试,逐渐的,研发团队能够识别出来不同的人问话之间的细微区别,不同的诉求。之后,系统可以在某个指定的区域,找到那个想要知道「在哪儿吃比较好」、「哪儿买鞋子比较划算」的人,这进一步会触发一个请求,同样也是在机器学习技术的支持下,它还能找到一个提供靠谱建议的人,然后将这个馆子或者鞋店的具体位置发送到用户 News Feed 的地图上。
对于图片和视频来说,AML 团队已开发出了一个机器学习远景平台 Lumos,它能够对发布在 Facebook 上的所有照片、视频进行理解和加工。任何人都可以在这个平台去建模,然后放到特定情境中去实践,看看它是否达到预期效果。
Lumos 的发明者之一 Paluri 给我做了一个很简单的演示。他打开笔记本,运行 Lumos 平台,开始一项机器学习领域中的简单任务:不断地提升神经网络识别直升机的能力。有一个页面上堆叠了各式各样的有关直升机的照片,如果你要滚动浏览是看不完的,要有 5000 多张。有些图片上还不能算是直升机,比如一些玩具,或者飞翔在天空,貌似直升机的飞行物,或者是老鹰。我不是工程师,更别说是一名人工智能专家了,但是我在这里却能帮助他们进行机器学习。一旦机器选错了图片,那么我就点击否定的按钮示意它错了即可。
但最终,这种依靠人力来去鉴别,辅助培训的方式要被淘汰掉。这个环节将被自动化。Paluri 计划在明年,将需要人工介入识别的工作量下降到百分之一。
而从长期来看,Facebook 是要将视觉识别和自然语言处理平台的技术相结合,从而实现更加具有「生命力」的人工智能技术。
但是,要完成上述的目标可不是简单的事。因为社交平台上出现的一切问题都归结于人本身。要知道,这是一个拥有几十亿用户的平台,上面流窜着的很多信息就连人都很难从中分辨真伪,你又怎能指望机器帮你把这一切都彻底解决掉呢?但 Candela 对此还是有一些信心的:「我们不可能随机地将很多无关的信息推送到用户眼前,我们更不可能只从一处来源提取信息,目前在机器学习领域已经有好几个团队同时进行研发,让机器在内容发现上处在一个恰当的水平线上。
当 Facebook 发现自己深陷「虚假新闻」的舆论风暴旋涡时,它让所有人工智能团队出动,采用各种技术手段,将炮制的虚假新闻从平台上剥离出去。这可是前所未有的全员行动,就连致力于长期战略发展,具有一定顾问性质的 FAIR 团队都出动了。而 FAIR 的表现也没让任何人失望。他们开发出来了一款名叫 World2Vec 的模型,它给神经网络赋予了记忆的能力,这可以帮助 Facebook 给每一段内容都打上标签,例如它的出处是哪里?它是经由哪些人分享传递的?(这里特意说明一下,Google 科技创新产品中有一个叫 Word2Vec,不是一回事儿)。在这样的技术支持下,Facebook 可以清楚虚假新闻的模式,传递路径都有着怎样的特点,然后再将其识别、剔除出去。
「其实,识别虚假新闻的能力,跟找出人们最想看的页面的能力没有什么区别。」LeCun 总结道。
本文为拓扑社编译,未经同意不得转载或引用
寻求报道&合作请联系:tobshe@itjuzi.com
关注拓扑社微信:tobshe,获取更多内容哦~