事物之间可能存在着一些简单的因果关系,但公司需要清楚每种因果关系都可能产生意想不到的结果。
2011年夏天,曼城队助理教练大卫·普拉特决定利用数据分析来解决球队在表现方面遇到的一个棘手难题。普拉特发现,尽管球队阵容中拥有多名高大强壮的球员,但他们的角球得分情况却不尽如人意。
在征求了俱乐部内部数据分析师的意见后,该队增加了对内旋角球(球转向守门员方向)的使用。战术转变产生了惊人的效果。在整个赛季中,曼城队依靠角球打入15个进球,成为英超角球得分效率最高的球队,其中2/3的进球采用的是内旋角球。
这一实践为数据驱动型决策提供了强有力的支撑。但是,还有一个附加因素需要考虑:主教练曼奇尼最初对数据的实际价值持怀疑态度。事实上,早在两年前,曼奇尼曾就球队角球的使用情况咨询过俱乐部的数据分析师。分析师回应,他依靠直觉偏爱采用的战术——外旋角球(球飞向远离守门员的方向)从数据统计上看并不理想。
曼奇尼选择相信自己的直觉而非数据分析的导向性建议。因为直觉告诉他,球旋向远离门将的方向减小了门将触球的概率,同时增加了进攻队员冲顶时争到头球的概率。但当曼奇尼发现两种变数存在某种联系的时候,直觉却模糊了他对两者关联程度的判断能力。换句话说,外旋角球和进球数可能存在着某种关联,但数据表明,内旋角球和进球数存在着更为直接的因果关系。
这一案例研究为我们改善商业决策带来哪些启示?一家美国零售商最近发现,两种不同变数之间存在着某种有趣的联系。当天气变冷,肉桂葡式蛋挞的销量上升500%——并非所有的葡式蛋挞,只是肉桂这一个品种。面对这种零星数据,零售商要做出抉择。每当预测天气即将转冷时,应该储备多少肉桂葡式蛋挞?还有一家零售商发现,羊奶干酪打折似乎能促进红酒的销售。希望减小红酒库存的时候,是不是应考虑羊奶干酪打折这种方法?
这两个问题的答案取决于大数据分析的核心问题:弄清相关性与因果关系之间的区别。人类善于发现事物的相关性——这是进化的特征——但是却在发掘直接相关事物的关系时显得有些笨拙。将相关性误解为因果关系所做出的决策是危险的,可能会遭受惨败,因为你所期待看到的影响可能并不会发生。
最近的一项研究显示,某国的巧克力销量与诺贝尔奖的人均比例之间呈现明显的相关性。各国是不是都该鼓励公民增加巧克力的消费来提高获得诺贝尔奖的人数呢?
为有效利用大数据,相关性分析应仅作为一个出发点去考虑。如果两个变量存在关联,我们该如何应对?当然,政府在推行“巧克力替代教育”的政策之前,应当首先考虑一下其他因素。比方说,看看那些获得诺贝尔奖人数较多的国家相对教育水平和研究预算,与巧克力消费相比,这两个变量与获诺奖的因果关系显然更大。
同样,那些葡式蛋挞和羊奶干酪的零售商们在拥有十足把握以前,需要对他们的假设进行验证。比如说,在确定因果关系存在以前,考察一些商店肉桂葡式蛋挞的“库存积压”情况;或者采取打折销售羊奶干酪的方式,看看红酒销量是否真的增加。
事物之间可能存在着一些简单的因果关系,但公司需要清楚每种因果关系都可能产生意想不到的结果。肉桂葡式蛋挞销量的增加是否意味着其他产品销量的减少?红酒销量的增加是否也意味着啤酒销量的减少或者牛排销量的增加?影响现代供应链的因素很多,而且还在不断增加:天气、社交媒体、特价商品、食品安全新闻等,都会影响消费者的行为,以及零售商应该购置多大规模的存货。这基本上就是一个混沌系统,完全准确地预测将来要发生的事情是不可能的。但模型越完善,预测就越准确,预测越准确,行动结果就越理想。
数据分析就像一幅印象派油画。当你退后观察,并把各个部分视作一个整体时,这幅画的意境才开始浮现,近距离观察是无法理解其中内涵的。这可以帮助我们解释为什么曼城队的新角球战术不太可能会长久取得良好的结果。实施从外旋角球到内旋角球的简单战术转变:多开点内旋球,少开点外旋球,这一简单的战术转变,亦会忽略了每场比赛中每次出现破门机会时的某些独特变数。
(本文作者为凯捷大数据与统计分析策略负责人 )