Netflix视频推荐的背后:算法知道你想看什么 互联网TMT数据 | 中文互联网数据研究资讯中心

Netflix视频推荐的背后:算法知道你想看什么

 

艾玛特里安(左)和葛梅兹-乌里韦(腾讯科技配图)

2013年8月8日《连线》杂志网络版近日刊载文章,通过对流媒体视频服务提供商Netflix两名高管的专访,讲述了这项服务向用户推荐视频背后的故事。

以下是这篇文章的全文:

如果你喜欢二十世纪六十年代的《星际迷航》(Star Trek),那么Netflix向你推荐的第一部非《星际迷航》影片很可能会是最早的《碟中谍》(Mission: Impossible)系列。而如果你喜欢的是最新的电视剧《神秘博士》(Doctor Who),那么Netflix则很可能会向你推荐描述超自然现象的英国版电视剧《我欲为人》(Being Human)。要是你喜欢看《杀出个黎明》(From Dusk Till Dawn),那么你的Netflix主页上就会出现一行字:视觉效果惊人的暴力动作冒险片。

很多人都想要了解Netflix是如何利用其算法来向用户推荐剧集的,这在很久以前就已经是一种深受人们喜爱的“运动”;但是,在浩如烟海的大数据以及无法计量的评分星级的背后,到底是什么东西在发挥作用呢?

在位于硅谷的Netflix总部,有800名工程师正隐身于幕后展开工作,而正是他们所从事的工作让Netflix的算法能向用户推荐他们可能喜欢的剧集。根据Netflix的估测,其视频服务观众有75%的观看活动的推动力来自于推荐。在今年夏天,Netflix推出了一项新功能,允许家庭成员用独立的队列来标记自己最喜欢的剧集。在今年3月份,这家公司的DVD总出货量达到了40亿大关;但单单是在第一季度,其视频服务向用户流播放的总时长就超过了40亿个小时。

我们最近对Netflix产品创新和个性化算法副总裁卡洛斯·葛梅兹-乌里韦(Carlos Gomez-Uribe)和工程主管泽维尔·艾玛特里安(Xavier Amatriain)进行了采访,对话的内容是,他们是如何控制向用户推荐什么视频的。以下是采访内容摘要。

问:在你们向观看《星际迷航》的用户推荐《碟中谍》时,是什么东西在幕后发挥着作用?

葛梅兹-乌里韦:通过查阅元数据的方法,你能在这两部电影之间找到各种各样的相似性。这两部电影是不是大约在同一时间被创作出来的?它们是不是倾向于拥有相同的评分?此外,你还可以查看用户行为——浏览、播放和搜索等,从而找到它们之间的相似性。有些时候,相似性取决于你跟谁说起这些视频。以导演佩德罗·阿莫多瓦(Pedro Almodóvar)为例,你可能看过由他执导的四部电影,这些电影彼此之间存在极大的差异。但是,他的言论拥有非常强大的说服力,因此只靠他自己就能让这些视频变得彼此相似。而如果换一位导演——比如说斯皮尔伯格——那么情况可能就会变得不一样了。

问:是谁来为Netflix鉴别电视剧和电影的特点的呢?

艾玛特里安:我们有40多名员工专门负责以人工方式来对电视剧和电影进行标记。有些自由职业者也会帮我们做这件事情,以此赚取一些额外的收入。我们所有的分析师都是电视和电影爱好者,其中有很多人都拥有娱乐行业的从业经验。很明显,他们都拥有自己的个人口味,但他们作为分析师的工作则是具有客观性的。我们对分析师进行了培训,让他们保持客观的态度来对待自己的工作。

问:现在Netflix已经把重点放在了提供视频流播放服务上,那么推荐活动因此而发生了怎样的改变呢?

艾玛特里安:当我们还是一家DVD邮购公司时,人们会给我们一个评分,表达自己的思维过程。你在自己的队列中加入某些东西,是因为你想要在几天以后观看这些内容;你作出购买决定意味着需要花费一定的代价,而回报则会推迟一段时间。但在流媒体播放服务中,你开始播放某些内容,然后发现自己不喜欢,那么换一个看就是了。用户不能因为作出显性反馈而真正获得利益,因此他们付出的努力也就会变少了。

问:那也就是说,一度曾是Netflix基石的预测评分已经变得不那么重要了?

葛梅兹-乌里韦:测试表明,预测评分实际上已经不再那么有用了,用户正在播放什么内容才是非常有用的。我们正在进行一种转变,也就是从单单只重点关注评分和评分预测转向依靠一个更加复杂的算法生态系统。

问:Netflix会一直追踪我的观看历史吗?

艾玛特里安:我们能知道你播放和搜索过哪些视频,或是对那些视频进行了评分。此外,我们还能知道你播放视频的时间、日期和使用的设备。我们甚至还会追踪用户交互活动,如浏览或滚动等行为。所有这些数据都会被注入多种算法,每种算法都针对一个不同的用途进行了优化。从广泛的层面上来首,我们的大多数算法都是以一个假设为基础的,那就是相似的观看模式代表着相似的用户口味。我们能利用相似用户的行为来推断你所喜爱的内容。

问:那也就是说,如果我在午夜时间用iPad看Netflix视频,就会看到与晚上8点在电视上观看节目不同的推荐了?

艾玛特里安:一段时间以来,我们一直都致力于在推荐中引入上下文环境。我们有数据表明,在一个星期中的不同日子里,在一天的不同时间段,用户的观看行为都会有所不同;此外,他们的观看行为还会随着设备的改变而有所差异,有时候甚至就连用户所在的位置也会产生影响。但是,想要贯彻上下文环境下的推荐颇具挑战性,目前我们正致力于这项工作。我们希望,能在不久的未来使用这种方式来进行推荐。

问:为什么我会在推荐中看到如此之多的三星级甚至是两星级的电影呢?

葛梅兹-乌里韦:人们喜欢把《辛德勒的名单》(Schindler’s List)等电影的评分打得很高,而不是我喜欢看的《热浴盆时光机》(Hot Tub Time Machine)这样的恶搞喜剧片。如果你只向用户推荐四星级或五星级的电影,那并不意味着他们想要在某个周三工作了一整天以后还想看那样的电影。我们所拥有的数据中,最重要的是有关观看行为的数据。

艾玛特里安:我们知道,许多评分都是“成功指南”式的,而并不是反映你们的日常活动。

问:在你们面前,我们似乎没有什么事情可以隐瞒。

葛梅兹-乌里韦:很多人都会告诉我们说,他们经常会观看外国电影或是纪录片。但在实际生活中,这种情况发生的次数并不是很多。

问:推荐是否会对观看行为造成影响呢?

葛梅兹-乌里韦:位置很重要。推荐的视频越是接近第一的位置,那就越有可能被播放。在页面上,推荐视频所处的位置越高,被播放的可能性也就越高。

问:你们的推荐与其他公司有社么不同呢?

艾玛特里安:我们所做的几乎所有事情都与推荐有关。上周我曾造访过 eBay ,他们告诉我说,90%的用户购物活动都来自于搜索;而我们则恰恰相反。推荐是很重要的,而搜索功能只有在我们无法向用户推荐他们想看的内容时才会发挥作用。

问:算法推荐是否存在任何局限性?

葛梅兹-乌里韦:我曾在一年以前看过法国惊悚片《不可告人》(Tell No One),后来一直都试图找到类似的电影。但这部电影的内容团队中的一个人告诉我说,那样的影片在这个世界上仅此一部。

随意打赏

提交建议
微信扫一扫,分享给好友吧。