大数据时代,让我们通过数据来找机会,而不仅是解决问题!读《决战大数据》
本书作者车品觉是阿里巴巴集团商业智能部副总裁、数据委员会会长,也被业界称为大数据实践的先行者。近年来,大数据方面的图书出现了不少,但大数据这个时代的来临,给当今的商业带来了极大的冲击,多数电商人无不“谈大数据色变”,并呈现出一种观望、迷茫、手足无措的状态。
本书至少有两个特点,第一,书中的例子几乎都是事关电商的例子,目前来说电商的处理环节可能会是比较长,所涉及的数据也更多,能够理解了电商层面的数据,对于其他行业的数据理解可能也会更到位一些。第二,本书第一次将阿里的大数据秘密展现出来,将阿里运营和管理的数据的方法很通俗地表达出来。相信本书的这两个特点会对电商的从业者有所帮助。
下文特意节选作者的数据化的思考和本书的最后一章《大数据,未来商业的利器》节选内容,让读者先睹为快。
----------------------------------------------------
忽略了趋势,过去的价值一文不值
我们通常都认为,经验应该是越多越好。一个有经验的人总是更能够在很多事情上做出正确的判断,因为积累使然。但事实上,我们发现,有时候经验越多,似乎越容易让人犯一些低级错误。这就好像,你会发觉往往天天研究彩票和股票的人总是发不了大财,而往往是一个菜鸟莫名其妙地就中了大奖和买了一只牛股。
为什么经验有时会使人犯低级错误呢?在这里,我们应该将其分成两种情况来看待:
一种是信息不对称;另一种则是逻辑错误。
当我们讨论信息的不对称时,
首先要讲的就是经验。经验是对过去的度量,但不是所有经验信息的质量都很好。
在经验的数据库里,肯定有一些信息是正确的,有一些是错误的。当经验中混有很多噪音干扰时,我们会跟随错误的经验做出判断,此时,我们就会发现自己变笨了。
比如,在使用没有评估过的经验时,你用 A方案获得了成功,用 B方案却失败了,而且在评估的过程中也不是单纯的 0或1,而是用 0~1的范围来度量的。说到这个,就要提到数据分析师了。一般而言,数据分析师对于信息是很有洁癖的,也就是在对于经验的累积上,他们对质量把控得十分严格,如对于数据信息的排序、分析可靠的信息源进行多次使用、了解信息的出处和知道信息的提供者等。根据这些,数据分析师在它们的辅助下做出了决定。这意味着,你所有的信息来源都需要有正确的途径和渠道,不然,这个决策也会出现偏差。
除此之外,
还有一个因素导致经验使人变笨,那就是在分析时忽略了趋势,
这个道理可以用赛马的故事来举证。
在香港,你经常会发现拿着一大堆材料的人会分析马匹的数据。比如,有人会根据一匹马进行 1 200米跑的时间,来计算它未来可能跑完全程所需要的时间。但我们发现,还是有很多人因算错导致赌马失败。为什么呢?因为历史数据和我们今天面对的情况中出现了一些假象。香港大多数赌马的人,他们最终收集到的数据都是受到影响的,而不是经过清洗的,当然是不准确的。每一个赌马的人都在看过去的数据——马会会给每一个赌马者提供前三场赛马的数据,大家只会关注这个结果,而不会去关注赛马当天发生了什么。如果是我,则会去回看录像,就可能发现其他的情况。比如,如果这匹马本来想发力,但前面有马匹挡住了它,它才被扣除了两秒钟;或者骑师扬鞭,鞭子掉了,扣除 5秒钟;再或者有些马发脾气偏离跑道,也要扣除秒数。当排除所有意外算出的时间,就是干净的、没有影响因素的真正经验了。这时候,我们得到的第 1~3名的数据和最终比赛结束公布出来的第 1~3名的数据就会不一样。
除此之外,还要观察有关赛马成长的趋势问题。事实上,在每一场赛马里都会出现很多意外,如果这些意外都不出现,也会直接导致结果的不同。因为每匹马幼年和成年的状态是完全不同的,因此它的数据价值评估也是不一样的。一匹马 3~4岁等同于我们人类 18~25岁,体能上会出现非常大的变化;又或者,年幼的马匹对于骑士的体重非常敏感,多 1~2磅就会有非常大的影响,但长到 5岁后,负重对其的影响则会慢慢降低,这就是硬趋势。即便有很多过往经验的数据都不能很好地匹配今天你要做的事情时,意味着经验需要将数据进行清洗——把当天的影响因素都找出来,并还原,这时候得到的数据才是正确的经验。
结论就是,经验使人变笨的原因在于你之前的经验本身就存在误差,即数据源本身就存在问题,而这种误差一般人看不出来。因此,在过去的经验积累本身就有问题的情况下,根据经验得出的结论自然会使人犯低级错误。
你永远不要假定这个世界是真空的,所以你还需要多多观察频繁出现的新数据。当有新的数据出现时,以往的经验就需要重新做评估了。
|