大数据预测世界杯,大力神打了谁的脸?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
大数据预测世界杯,大力神打了谁的脸?
本文作者为虎嗅实习生罗砚同学

世界杯的狂欢结束,还在天台上的球迷们,可以下楼睡觉了。狂欢之余,大家对世界杯的热情让比赛结果具有了商业价值,更促使了机构们热衷对比赛的预测。比起上届的章鱼保罗,机构们的预测背靠大数据资源和技术,预测起来都更有底气。但是他们的预测是不是真的算得上大数据?它们具体又是怎么操作的呢?

1.百度:高考作文跟世界杯不一样哦!

百度预测今年精准预测了五一的景点爆满情况和部分高考作文题,当然不会放过世界杯这个机构们测试大数据能力的舞台。制约大数据的一大问题就是海量的数据,搜索巨头百度在这一点上拥有先天的优势。

百度北京大数据实验室的负责人张桐(Zhang Tong)介绍称,

在百度对世界杯的预测中,我们一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素。

百度大数据部利用大数据搜索过去5年内全世界987支球队的3.7万场比赛数据,共涉及到19972名球员和1.12亿条相关数据,这些数据的来源基本都是互联网,再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而做出预测结果。

针对本届世界杯的16场淘汰赛的预测,准确度达到了100%。而今年频频爆冷的小组赛阶段,百度对比赛结果的预测准确率也达到了58.33%,这一结果高于微软语音助手Cortana和必应搜索联合得出的56.25%的准确率。但是100%的准确度也只是猜胜负,德国和巴西7:1的结果就和百度预测的,德国将会以微弱的优势赢下巴西(51%对49%),二者相去甚远。

其实百度在世界杯开赛前预测的冠军是巴西,我会说?

2.微软:小冰、 Cortana、必应家小齐上阵

微软公司对世界杯的预测除了以往比赛历史外,考虑了更多的因素:地理位置、草坪、天气、大量预测的参考(群体智慧),还使用大量的公开数据——博彩市场、民意调查、社交媒体以及其它在线数据,通过欧洲赔率市场最有名的指数Betfair(必发指数)来构建预测模型,并通过微软的个人语音助手Cortana和必用搜索引擎发布。微软的分析似乎更有大数据的气质,相较之百度的参考因素更像依靠经典理论的传统统计分析。

基于微软的分析, WP8.1 Cortana预测巴西世界杯的战果是15胜1败。微软表示,Cortana进行预测会综合考虑主场优势,这也是为何在预测巴西对决荷兰的季军争夺战中认为巴西会取胜的一个因素。

这次世界杯15胜1败的战果是,就上一场比赛结果对下场比赛的预测。而早在2013年12月,微软研究院就“高瞻远瞩”,声称开发了一款Excel软件,用大数据来预测2014年世界杯。预测结果是:巴西将夺冠,夺冠率达到22.5%,远远高于其他对手,如今似乎没人拿出来打脸了。

3.谷歌:关键时刻掉链子?

谷歌从Opta Sports的数据中,分析了职业足球联盟、世界杯小组赛中队员们的表现,引入了由BigQuery工程师乔丹·提加尼开发的实力排行榜系统,来推测他们将会在本届世界杯有什么样的表现。此外,还考虑了观众热情程度的数据,来计算主队优势。

谷歌则预测了16进8和8进4的两轮比赛,而谷歌在12场预测中有11场正确,准确率为91.67%,预测八强赛时,对关键的德法大战预测错了。
在大数据概念的推广过程中,对流感等疾病的大数据预测一直是传播的范本,但是,2013年谷歌对于流感的预测与美国疾病控制中心汇总后的结果相比,就夸大了几乎一倍。大数据预测的准确性,仍然是一个需要长时间研究的课题。

4.高盛:传统模型宝刀已老

拥有世界最顶尖的经济学家的高盛,通过对自1960年以来的正式国际14000场足球比赛数据的回归分析来构建预测模型,还通过泊松模型分析了每场小组赛的比分情况。其思路完全是传统的统计分析,并没有体现大数据的总体样本的特点。模型和算法也遵从了投资公司善用的经典模型,并没有完全根据本次世界杯的命题来答题。

高盛在小组赛预测的准确率为37.5%,并在世界杯开始前,预测东道主巴西最有可能斩获世界杯冠军,夺冠几率为48.5%,比任何参赛球队高3倍。甚至给出了最终决赛的结果,巴西将以3比1的比分,战胜最后的宿敌阿根廷。即使大数据还不够成熟,但是传统的样本分析在大数据结果面前还是相形见绌的。

5.雅虎:当机器被情绪误导

雅虎科学家小组基于,Tumblr上所有有关世界杯的讨论都存在有价值的信息,利用了轻博客网站Tumblr的数据来估计每支国家队的优势。雅虎科研小组表示他们从831亿篇Tumblr博客中筛选了1.889亿篇文章用于分析,自2月至5月,他们将注意力集中于2730万篇与世界杯“相关博文”。针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量,例如在“与世界杯有关的帖子里被提及的国家队”。

雅虎预测德国将打败葡萄牙,而西班牙将击败荷兰,而最后的冠军是巴西。可怜被雅虎提到的两只会获胜的队伍,西班牙和巴西都已耻辱性的比分被打败。据说社交网络数据可以预测传染病和犯罪现场,这是因为传染病和犯罪现场中可以利用社交网络发布内容的客观成分,而且大量分散的信息组织起来形成了意义。但雅虎把它用到预测足球比赛上,显然被网友们的情绪误导了。

6.德国科隆体育学院:专业范儿试刀

据科隆体育学院官网称,该校格罗尔教授领导的研究小组用他们设计的计算机模拟算式对本届2014年世界杯可能的结果进行了共10万次测算,考虑因素不仅包括各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素等。

德国科隆体育学院的研究人员在世界杯开赛前,就抛出了预测结果:预测认为德国、巴西、哥伦比亚、阿根廷、比利时和荷兰6支队肯定能打入八强,西班牙即使杀出小组赛也会在八分之一决赛中被巴西淘汰。其后巴西、德国、阿根廷和荷兰半决赛,最终将由巴西和阿根廷争冠,巴西夺冠概率20.4%,阿根廷14.7%。现在看来,除了决赛,其他预测得都还挺准。

7.德意志银行:敢和宠物比精准

据英国《卫报》网站6月9日报道,德意志银行预测,英格兰队将在巴西世界杯中夺冠。德银建立了量化分析模型,计算参数包含球队的世界排名、以往战绩、球员构成和赌球市场赔率。得出的夺冠概率是巴西名列第一,紧随其后的是德国、西班牙、法国。但是,德银表示这样的预测太乏味也太传统,于是德银引入了一系列条件,最后得出了英格兰是冠军的结果。他们的理由是,上一次英格兰夺冠时,队中就有很多利物浦球员,和这次情况一致,因此他们确信英格兰队将在巴西夺冠。
无独有偶,英国最大的宠物连锁店“家中宠物(Pets at Home)”,让一只名叫Roo的会通灵的斗牛犬来预测,结果它预测英格兰会在决赛中击败意大利夺冠。

他们得出了相同的结论,还真是可爱。

8.数据新闻网站FiveThirtyEight:巴西粉

天才数据分析师内特·西尔弗(Nate Silver),曾经在2012年美国总统大选中准确预测了50个州的选举结果,为了预测棒球选手的成绩而开发了统计工具PECOTA,新创办了一个使用统计数据来分析所有现象的新闻网站FiveThirtyEight。

不过,专门从事比赛结果预测的平台,也没有在世界杯的预测中保住节操。FiveThirtyEight预测巴西能击败德国,并在决赛中捧杯。

决赛结束后,黄健翔在微博上转了他4月做出的预测,巴西、阿根廷、德国、意大利、法国、荷兰、英格兰各队命运全都说中。大数据在世界杯期间的狂欢也不能代表其成熟,或许在足球领域还比不上专业人士的经验分析。

回想世界杯开赛前,机构发布的预测结果大多是巴西大热门,西班牙有希望等论调。而百度、微软准确率近乎100%的预测,都是在基于上一场比赛结果的基础上预测下一场。大数据的策略是发现,以及猜测、印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度调整。这才有了他们在赛前预测巴西,赛中算准德国的两种预测。

大数据时代分析的瓶颈不再是算法和存储,而是接近于总体的海量信息,以及如何与具体的命题相结合的模型建构。在巨头林立的今天,对于普通人海量信息首先是无法逾越的门槛,但是这正是大型网络公司们的优势。特别是这次预测变现优秀的百度、必应和谷歌这类的搜索引擎,而百度也专门创立百度预测,以期更多得干预到日常生活。

Big data is like teenage sex.Everyone talks about it, nobody really knows how to do it.

人们一直想找到如何能更准确认识世界的方法,从样本统计到大数据运算,大家都谈在概念,却鲜有人能将其与真正的商业、生活结合,产生有意义的结果。对于正在玩大数据概念的互联网公司而言,具体到怎样建立有效模型,提高计算结果的准确性,还在摸着石头过河。
加入文集

随意打赏

提交建议
微信扫一扫,分享给好友吧。