搜评分,已是人们选电影的标准动作了。大多数时候,评分对观影体验有一定的指导意义,但我们也都看过 5 分的好片,以及 8 分的烂片,不得不追问一下——这些分数到底是怎么来的呢?主流评分平台豆瓣、格瓦拉、IMDb 在评分方式上又有何不同?
请看四部电影在三个平台上的评分:
《最后的巫师猎人》
豆瓣:5.8 格瓦拉:7.9 IMDb:6.0
《星球大战7:原力觉醒》
豆瓣:7.3 格瓦拉:8.1 IMDb:8.4
《碟中谍4:幽灵协议》
豆瓣:8.3 格瓦拉:8.8 IMDb:7.4
《捉妖记》
豆瓣:7.0 格瓦拉:8.8 IMDb:6.2
很奇怪吧?格瓦拉在上述电影中给出的评分都是最高的,豆瓣和 IMDb 除了在《最后的巫师猎人》中给出了近似的评分,另外两部中差异接近 1 分——这是不小的差别,毕竟每个人的心中都有一个“是否值得看”的分数底线。
熟悉的老豆瓣
豆瓣 CEO 阿北于去年底解释过豆瓣的评分机制 ,他称之为“一个一亿多人的大众评审团”。由于豆瓣不能购票,评分人群是纯粹为分享观点而评价,可以粗略认为豆瓣电影评分来自一个有一定电影评判知识、又乐意点评电影的“爱好者评审团”。豆瓣的评分算法简单粗暴,用阿北原话说:
我还写过计算豆瓣评分的最早的几版代码(不难,加起来除下人数)……豆瓣没有专家评审,但有一个一亿多人的大众评审团……这个评分会自动出现在豆瓣各处,中间没有审核,平时也没有编辑盯着看。 每过若干分钟 ,程序会自动重跑一遍,把最新打分的人的意见包括进来。
- 算术平均数
- 每隔“若干分钟”抓取一次数据
关于水军的问题,阿北的解释是:“水军是有的,但豆瓣评分很难刷得动。”意思是,水军的作用仅限于上映推广期,后期大量评论涌入后水军的影响可以忽略。知乎有一个获得 7000+ 赞同的回答精辟地指出了豆瓣评分的正确理解方式:
新兴的格瓦拉
格瓦拉与豆瓣最大的区别在于,豆瓣是爱好者社区起家,而格瓦拉是卖票起家,这就构成了评审团的属性差异。可以认为格瓦拉评审团比豆瓣更加大众化(不那么文艺),用户更多是根据观影的抽象体验评价影片。很难说这个差异有多大,但有一个特点是公认的——格瓦拉评分比较高。
据格瓦拉工作人员介绍,他们评分规则有这些特点:
- 影片初始评分为 7 分,当用户达到“一定数量”则开始显示变化
- 格瓦拉评分代表购票用户的评分,非购票用户会被独立记录
- 对购票用户的评分采用权重算法,具体无可奉告
不难看出,格瓦拉评分机制是为卖票而生的。在初始的分值锁定规则下,7 分成为了大多数片子的安全底线,不至于这也解释了格瓦拉普遍较高的评分。当然,格瓦拉本质就是一款购票应用而不是电影社区,因此分数虽然缺乏绝对公正性,在自己平台内还是有一定参考价值的。
国际的 IMDb
IMDb 是 Internet Movie Database (互联网电影数据库)的缩写,始于 1990 年,是一个国际权威性的电影点评网站。它采用的算法比上述两家都要神秘一点。主要特点如下:
- 每部电影至少要收到 5 个投票才会显示评分
- 用户可以反复投票,但网站只记录最新的一个
- 网站重新抓取数据间隔不超过 24 小时(似乎比豆瓣周期要长)
网站里写得明白:“我们不会简单地把评分加起来除以总票数,我们用的是加权平均数。” 算法的细节与格瓦拉一样无可奉告:
为了避免人为操纵票数,保持投票系统的公正性,我们在任何情况下都不会公布加权算法的细节。但请放心,这里不会有偏见。
尽管每部电影的评分算法无可奉告,IMDb 解释了他们在 TOP 250 榜单中使用的贝叶斯算法( 公式请跳原网页 )。此外,TOP 250 只允许有一定评论历史的“老用户”参与该榜单的投票。据 知友陈博学介绍 ,算法背后是这么个原理:
电影 A,十个人看过,全部评分均为 10 分; 电影 B,十万个人看过,评分平均值为 9.8 分。
请问你愿意相信哪部电影更加优秀??贝叶斯算法的核心思想就是避免让电影 A 的最终得分会超过 B。
当然啦,再复杂的算法也挡不住刷票,尤其是狂热的粉丝自发的刷票。例如说《蝙蝠侠:黑暗骑士》就曾被粉丝刷上榜首(下图),但这个第一只维持了几天,很快《肖申克的救赎》又重新登顶并维持至今(共计收到近 160 万票)。
你的眼睛高于一切评分
总之,评分的区别来自于四个方面的原因:
- 用户属性
- 评分算法
- 评分数量
- 无可奉告
近几年来国内上映的电影品质与院线硬件都有明显提升,不少人已经把去电影院当成每周的必修功课。各平台评分机制各有不同,都尝试给出一个能反应观众评价的指标;而每个人观影的诉求也不同——消磨时间、约会、品鉴、学习,各有所爱。因此大可不必拘泥于评分,用自己的眼睛去享受电影才是最重要的。
图片:《最后的巫师猎人》、《肖申克的救赎》、《蝙蝠侠:黑暗骑士》、IMDb、知乎