Facebook动态消息揭秘(三,完)

36氪  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

编者按:本文编译自 Slate 的探秘 文章 。作者难得探访到了 Facebook 的动态消息团队,了解到了是谁控制着你在 Facebook 看到的动态消息,以及为什么它那全球最有影响力的算法要不断改变。篇幅较长,我们将连载刊出,此为第二部分。

Facecook 的动态消息揭秘(一)

Facebook 的动态消息揭秘(二)

几个月内,Mosseri 和他的团队对这个专门小组的反馈已经变得越来越依赖,以至于他们开始把小组扩大到全国的范围,付费让全美各地有代表性的样本每天对他们的动态消息进行评级和点评。到了 2015年 夏天,Facebook 解散了诺克斯维尔的小组,但同时把质量小组扩大到海外范围。Mosseri 的直觉是对的:动态消息算法存在着 Facebook 的数据科学家自身无法识别的盲点。于是他们用人类的量化反馈来补盲。

新闻质量小组对算法当然至关重要,但该公司也越来越意识到单一来源的数据无法说明一切。对此 Facebook 的做法是开发一套相互制衡的体系,每一次动态消息调整都必须通过一连串不同类型受众的测试,然后用各种不同的指标来进行判断。

这种平衡做法就是 Menlo Park 的排名工程师、数据科学家和产品经理团队每天都要做的任务。他们是一群像 Sami Tas 这样的人,后者是一名软件工程师,其工作是将动态消息排名团队提议的变更转化为计算机能理解的语言。这个下午,我朝他身后看过去的时候,他正在向我解释一个看似微不足道的问题。然而,Facebook 现在认为,这类小问题正是关键所在。

大多数时候,大家对动态消息里面看到的故事不关心的话就会往下翻过去。有些故事甚至会把他们给惹毛了,他们就会跑到帖子右上方点开那个小小的下拉菜单狠狠地点一下 “隐藏帖子。”

但是,每个人对 Facebok 的用法都不一样。Facebook 的数据科学家意识到,85%的隐藏动作其实是一小部分的用户(5%)干的。再深挖下去,Facebook 发现这 5%里面又有一小部分人几乎把看到的所有故事都隐藏掉了—甚至连自己喜欢和评论过的故事也这样。结果证明,对于这些 “超级隐藏癖” 而言,隐藏故事并不意味着他们不喜欢它,这只是他们用来标记 “已读” 的方式罢了,就像把消息归档进 Gmail 一样。

但是他们的动作给 Facebook 赖以对故事进行排名的数据造成了偏差。由于这东西太复杂,动态消息算法并不打算根据每个用户的行为进行单独建模。你的点赞在价值方面跟我的完全是一样的,隐藏的价值也一样。然而,对于超级隐藏癖,排名团队决定进行特别处理。Tas 的任务是对代码进行调整,识别出这一小部分人,然后把他们隐藏动作的负值打个折扣。

这个修补听起来好像很简单。但这个算法对 Facebook 来说太宝贵了,所以对算法的每一次调优都必须进行测试—首先是离线模拟,然后让很小的一组 Facebook 员工试,接着是一小部分 Faebook 用户,最后才是全面上线。每一步公司都会收集变更对指标的影响,这些指标包括用户互动情况、在网站的消耗时间、广告收入,以及页面加载时间等。他们还利用分析工具来实时观测任何上述关键指标大的异常变化,并设定了一些内部告警,自动发通知给动态消息团队的关键成员。

一旦变更通过了上述测试,Tas 就会在每周例行的 “排名会议” 上呈交结果数据,然后得经受住 Mosseri、Allison、Marra 以及同事的有关对各种指标影响的连珠炮攻击。如果团队认为变更是好的,不会产生意外后果,负责 iOS、Android 以及 Web 代码的团队就会逐步把它推给公众。

即便是这个时候,Facebook 也无法确定变更不会产生某些预想不到的、微妙而又长期性的影响。为了预防这一点,Facebook 保留了一个 “抵抗小组”—有小部分的用户在几周或几个月的时间之后才会看到变化。

把动态消息算法说成一个会让人误解。这不仅是因为它其实是数百个解决(组成显示哪些故事给人看这个大问题的)更小问题的小算法的结合,而且由于所有这些测试、“抵抗小组” 的存在,实际上这个主算法在全球随时都会有十几个版本在同时跑。Tas 针对 “隐藏故事” 的调整是在去年7月31号宣布的,大部分人都没注意到他在 Facebook 上的那篇提醒的帖子。但是现在那些超级隐藏癖也许会对自己的动态消息更加满意了,进而会继续使用 Facebook,跟朋友分享故事,并观看让这家公司活下去的广告。

Facebook 的质量小组给公司动态消息团队提供了前所未有的更加丰富、更为人性的数据。排名团队的 Tas 等人在寻找和修复算法盲点方面因而也变得越来越娴熟。但还有一群人 Facebook 越来越倚重:你我这样的普通用户。

过去 6 个月,Facebook 一直在进行着一项调查,调查内容是让部分用户在两个并排的帖子里面选自己喜欢的—Facebook 想从比质量小组样本范围大得多的群体里面去收集同类数据。不过普通用户不断增多的参与并不仅限于这个公式的输入端。过去 2年,Facebook 已经赋予了用户更多的权力去控制他们的动态消息。

算法仍然是动态消息帖子排名背后的驱动力。但 Facebook 正在逐步赋予用户更多调整自己动态消息的能力—这个 Facebook 本来一直都是抵触的,认为这种控制又麻烦又没有必要。Facebook 已经花了 7年 的时间来改进排名算法,Mosseri 说。它有机器学习向导,可以进行逻辑回归分析,根据用户过去行为预测将来他有可能会参与哪些帖子的互动。“我们还会再花个 10年 左右的时间,然后继续改进这些机器学习技术,” Mosseri 说:“但现在只用问别人 ‘你想看什么?不想看什么?你希望在动态消息栏顶部一直能哪一位朋友的消息?’ 这些问题也能得到很多有价值的东西了。”

算法时代还没有终结,但发展速度有变化了。

这就是现在 Facebook 允许每一位用户自问自答的一些问题。朋友的帖子如果你不想再看到,你可以 “取关” 那位朋友,或者 “少看一点” 某类故事,并且指定 “先看” 那些朋友和页面,这样每次登录的时候动态消息栏顶部显示的总是他们的帖子。但是对于一般用户来说,做这些事情没那么简单明了。你得点击帖子右上方很小的一个灰色的下拉菜单才能看到那些选项。大部分用户从来都不会这么做。但随着全自动的动态消息存在的限制越来越明显,Facebook 对高亮显示这些选项有变得愈发的习惯,偶尔还会弹出个提醒,上面放着相关解释和帮助页面的链接。它还测试了用户与动态消息交互的新办法,包括替代方案、基于主题的动态消息、以及表达除喜欢以外其他反应的新按钮。

这种变化部分是出于防御。正像 Facebook 以前对 Myspace 干过的事情一样,近年来,对 Facebook 的统治地位构成的最大挑战的正是那些网络新贵—他们完全绕开了这种数据驱动的做法。Instagram 的做法就是把你关注的所有人的照片按照时间顺序统统放上去,因而迅速获得了流行。2012年,Facebook 把 Instagram 给收购了,这在一定程度上解除了部分威胁。Snapchat 避开了病毒式传播和自动过滤的做法,而是采用更加亲密的数字化交互形式,从而成为了青少年社交网络之选,侵蚀了 Facebook 的市场。

Facebook 不是近年来唯一遭遇算法优化的局限性的数据驱动型公司。Netflix 著名的电影推荐引擎已经开始愈发依赖于付钱给别人整日去看电影来做推荐和电影分类。为了抵消 Amazon 自动化 A/B 测试的影响力,CEO 贝佐斯极其重视个人用户的特殊投诉,还专门设立了一个公众信箱。当然,在算法时代真正来临之前就宣布它已结束是草率的,但是它前进的速度已经变了。Facebook 的 Mosseri 本人就拒绝给决策机制贴上 “数据驱动” 这个标签,它更愿意用 “数据知情(data-informed)” 这个词。

Facebook 的动态消息排名团队认为,自己排名做法的变化正在获得回报。“随着我们根据大家告诉我们的东西不断地改进动态消息,我们看到的是在动态消息排名方面已经做得越来越好,我们的排名跟用户自己对故事的排名更接近了,” Scissors 说。

但是让用户自己控制可能也会有不好的地方:如果他们搞错了自己真正想看的东西怎么办?人可是经常会犯错误的。如果 Facebook 记录我们在线行为的数据库至少在某些方面的确比我们更了解自己呢?提供大家说自己实际想看的动态消息究竟能不能让他们不像以前那样上瘾呢?

Mosseri 告诉我对此他不是很担心。他解释说,迄今为止的数据表明,赋予调查更多权重,让用户有更多自主权提高了整体的参与度以及在网站的消耗时间。尽管从短期看这两个目标会有点受影响,但 “我们发现动态消息在质上的改进似乎与长期互动存在关联。” 如果情况继续是这样的话那可真是巧了。但要是说 Facebook 在做动态消息的这 10年 时间里学到了什么的话,那就是 数据永远不会告诉你整个故事,算法永远不会完美 。今天看起来有效的东西,明天也许就会露出错误的马脚。出现这种情况时,每天去 Menlo Park 上班的那帮人就得读一堆的表格、开一堆的会,跑一堆的测试,然后再一次修改算法。

本文编译自: slate.com ,如若转载,请注明出处:http://36kr.com/p/5042018.html

“看完这篇还不够?如果你也在创业,并且希望自己的项目被报道,请 戳这里 告诉我们!”

随意打赏

提交建议
微信扫一扫,分享给好友吧。