如何做好数据分析让运营效率提高100倍?
导师:王武佳,拥有十年社交经验。原51.com副总裁。擅长利用数据分析使运营工作事半功倍。
大家好,今天晚上很高兴来到馒头商学院,跟大家分享一些做互联网产品的一些心得,特别是数据分析方面的心得体会、还有一些教训和经验。
1、第一个故事
我先跟大家分享两个故事。第一个故事是关于“中国股票研究中心”的故事。故事是这样的,1月2号的时候,有一个人叫Peter,Peter收到一封来自“中国股票研究中心”的邮件,向他表示这个月市场会上涨。结果市场果然上涨,前段时间股票不错,很多人不知道在座的大家有多少买过股票。然后Peter收到这封邮件的时候,他不是很在意,因为大家都知道所谓的元月效应这回事,即好几年来都是一月份的股价涨的多。到了2月1号的时候,他又收到另外一封邮件,向他表示市场即将下跌,这一次,那封信又给说中了!Peter现在终于开始相信这个研究中心真的是有点水平。3月1号的时候,Peter又收到一封信,情形还是一样的。
Peter觉得很神奇,他主动联系对方,希望下个月还能收到同样的邮件,过了一个月,4月1号邮件如期而至,但这时候这个研究中心表示,前几封邮件预测太准了,结果引起了证监会的高度重视,他们以后不能再像以前那样大规模的免费发送邮件了,只能对少数有见识的VIP客户提供投资建议,而你是非常幸运的一名,获得了有限的100个VIP购买资格。
你是怎么看待这个“中国股票研究中心”呢?
A、这个肯定是有内幕的,否则怎么可能预测得这么准呢?
B、世界上什么样的人物都有,估计真的是预测水平高吧。
C、不知道怎么回事,既然这么准,要不买个VIP资格试试吧!
连续几次收到这样的邮件,我觉得要是换作在座的任何一个人,估计都会很心动。真实的情况是这样的,这个所谓的“中国股票研究中心”,他向市场上的非特定对象群发了大概1000封的邮件,然后把这1000封里面分为2组,一组是说告诉他接下来股票会涨,另一组告诉他会跌,每次发送的时候,总有一半的人是收到预测是准的邮件,而另一半的人可能就收到预测是错误的邮件。接下来循环同样发送几次之后,可能每次连续几次总有几个人收到的邮件是始终预测正确的,而Peter就是那个始终预测正确中的一个用户。
这样的案例可能大家在其他地方也看到过。他告诉我们一个道理,即在数据分析中你有时候会看到一些数据很稳定地朝一个方向变化,并不一定代表着真相就是这样的。
2第二个故事
第二个故事,这个故事发生在二战时候。英国,当时盟军跟德军在英国上空进行了惨烈的空战。但是发现空战的结果是盟军受到很大的损失,所以盟军就希望在自己的战斗机上增加一些装甲保护,但是大家都知道飞机的装甲是不可能无限制的加的,因为装甲越多,飞机一定是飞得越慢,然后耗油量越大。于是,空军就请来一些专业的统计学家、数学家,一起来分析看看能从现有的飞机的数据上看看在那些部位增加装甲是最划算的。
这个故事的主人公沃德教授就跟空军一起来到了维修基地,大家做了一轮统计下来之后,发现所有盟军正在维修基地中维修的轰炸机的机翼上,弹孔是分布的最多。但是发动机舱跟驾驶员座舱的弹孔数是最少的。于是,空军就比较倾向于希望能够加强机翼部分的装甲。在这个时候统计学家就有了跟那个空军完全不一样的看法,沃德教授就建议,他觉得应该是加强飞行员座舱跟发动机舱的装甲,因为那里发现的弹孔最少。
如果是你,你是同意沃德教授的看法呢还是同意空军的看法?我给出的答案是说我同意统计学家的看法,因为这里涉及到我们数据分析中的一个“幸存者偏差”。大家可以看到,虽然我们统计下来是那个机翼上中弹是最多的,但是实际上大家不要忘了这里我们所选取的样本并不是所有参与战斗任务的所有的轰炸机,而只是在维修基地中这些能够幸存下来的飞机。实际上我们在战斗过程中大量损失的飞机并没有在这个维修基地中出现,可能在空中就爆炸了或者怎样。
统计学上把这个叫做“幸存者偏差”。因为我们在分析数据样本的时候,只关注那些幸存者的数据。所以这个故事也告诉我们一个道理,做数据分析中选择样本是非常重要的。你如果只看到幸存者的样本,导出来的数据跟结论就是有偏差的。
前面讲的这几个案例可能跟我们的互联网产品工作都相差比较远。但是,统计分析的道理不仅是在我们的产品设计中有用,实际上在我们工作生活的方方面面,我们只要带着数据分析的思维,很多情况下都是非常实用的。
3、如何判断竞争对手数据的真实性?
接下来继续讲一个跟我们产品分析工作比较相近的一个案例,是一个关于情报分析的一个案例。这个案例的对象是一个比较有名的视频网站。这个网站在财报中披露到他们网站当年的高清视频服务的收入1.2亿,月均活跃付费的用户超过70万人。我们怎么确定财报中的这些数据是真实的呢?大家在平时在工作中也会经常遇到各种各样的数据,听到各种各样的八卦数据,到底是不是真实的呢?比如说,大家经常会听到说那个什么什么APP,它的最近的活跃又有多少啦,注册用户又有多少,每天新增多少用户啦,或者什么什么产品的订单数最近又有多少啦,这些数据我们是可以通过一些其他的方法来校验这是不是真实的。
我们就讲这个现在要分析的这个视频网站的案例。我们经过对他的网站进行研究之后,发现他的会员频道,这个视频网站的包月会员频道上有一个栏目,叫做新增会员。连续24小时,每隔一到两分钟,我们就把这个网页刷新一下,并且截图,然后把所有出现的用户名录入这个表格。
大家可以看PPT上的这样一个样本,我们把这些东西都记下来,然后把这些东西整理成一个Excel表。这个案例是几年前的一个案例,当时是在公司内分享,大家可以看一下,其实道理都是类似的。我当时是12年的时候,3月29号,这个是当时在网络上一个报道取下来的一个东西,就是3月29号的时候,这个报道中的记者,做了一个连续24小时的监测,从当天早上的九点到第二天早上的九点,取了这么多数据之后,我们会发现,这些数据是非常完整的,也 就是说这些数据有极少量的有断点存在。比如说这次刷新的最后一名,刚好是下一次刷新的第一名,那就是连续的,没有断点的。
我们刷新了24小时发现,这种断点很少,所以说取得的这个数据的质量还是很高的,然后我们把数据串起来放到Excel里面做了一个分析。最后算下来,这个网站每月的包月的付费的人次不过是9000个人,跟这个公司在财报上披露的70万人其实相差是非常大的。讲这个案例的就是跟大家分析一下,其实大家平时听到的很多数据啊之类的,都可以用类似的分析方法来去分析。比如说你看一个App里面的说活跃数量啊之类的,有些App是有论坛的,你可以看看这个论坛里面的发帖数、回帖数,跟它官方公布的数据做一个比较,就可以发现很多问题。
4、数据的来源渠道
接下来我们讲到具体分析的一些方法,首先数据分析讲究一个数据的来源。主要有几大类的来源,一个就是用户行为的数据,主要有两类,一个在Web分析上我们把它叫做点击流数据,其实手机上也是类似的。我们以前在Web上的时候用百度统计,google统计很多,那在手机上大家都用友盟之类的。还有一个就是数据库。就是我们跟很多业内的朋友交流,也发现很多大家都在自己的公司里面做了很多这种BI系统来跟踪用户的一些数据。其他一些是定量或者定性的一些数据,比如说用户调研的一些数据,问卷啊,包括竞争对手的一些数据,有了这些数据之后,第二步我们就可以开始分析了。在分析之前,我觉得有一个非常重要的事情就是一定要弄清楚,我们分析这些数据的指标的含义是什么。
5、每个数据指标的含义一定要清晰
举个例子来说,我们发出了1000万的邮件,到达率是99.99%,打开率是19%,点击率是19%,那看过信的人都点击了,说明设计很棒,效果很好。从点击的情况来看,80%的客户都是新访客,说明我们这次活动对抓取新用户是非常成功的。唯一的缺陷是我们网站的抓住客户的能力,访客来到网站之后,平均的访问时长只有19秒钟。我们下一次应该进一步优化这个网站,总体来说我们的营销活动还是非常成功的,投入了只有20万,但是追踪到了200万的销售额,我们的ROI是1000%。
假如说你的同事给你发来了这样一封邮件,跟你说总结近期做的一个活动,得出这样一个结论,你看了之后会有怎样的感受。你的理解是不是类似这样的,发了1000万的邮件,到达率是99.99%,那到达率是99.99%,是不是意味着有999万的用户收到了邮件呢?打开率是19%,那是不是意味着190万的客户打开了邮件呢?那点击率也是19%,那也就是说有190万的用户点击了你的邮件,是不是这样呢?
所以这样很自然就推出一个结论说我们所有打开了邮件的客户都点击了邮件里面的链接,这是不是大家理解的东西呢?后面还说这190万中有80%都是新用户,我们达到的效果就是原来的190万的80%,即152万的人这些新用户对我们重新有了一个了解。停留时长是19秒,还有200万的销售,那毛利率是20%的话,利润有40万,我们才花了20万的成本却取得了40万的利润,那这个效果是太划算了。
这个理解究竟对不对呢?我们不能望文生义地区理解一些东西,我们得仔细辨别一下我们这些指标的含义。比如说这里面说的到达率是99.99%,这个到达率本身就有很多含义。一般来说,在邮件营销中,所谓的到达率是指对方邮件服务器没有拒收的这样一个信息。但是,没有拒收,不代表这个用户真正收到了你的邮件。因为有的时候,对方邮件服务器认为你是垃圾邮件,实际上并没有把这个东西投递到你要的收件人手上,但是他也没有给你返回错误,所以说你在这个数据上统计出来就会得到一个偏高的数据。一般来说,实际上真正的到达率是比我们数据上能看到的要低一些了。理解并且弄清楚这个到达率的定义是很重要的。
打开率是怎么定义的?从字面上理解说打开率就是有多少人打开了邮件,这个地方就要说到一个坑了。我们统计打开率的办法,技术上的原理是在我们邮件的正文页面中嵌入了一张一个像素并且透明的图片。在服务器上,我们统计这个图片被加载的次数。如果我们弄清楚他的原理我们就知道,图片的加载次数跟真正打开的数据并不会完全吻合。造成这个差距的原因可能是这个用户打开邮件的时候是用纯文本的方式,看不到我们html页面,或者说我们的图片服务器加载得比较慢,可能用户已经看完了邮件,但是这个一像素的图片还没加载完。或者其他原因。总体来说我们实际的打开率应该是会比我们统计到的打开率要高一些的。
了解这些指标定义之后,我们会发现这些东西跟我们想像的望文生义、简单理解的东西还是有点差别的。在数据分析中,用户的细分是很重要的,你如果没有细分,就是没有认知。你虽然投入只有20万,但是我们可以跟踪这20万里面有多少是新用户产生的,有多少是老用户产生的,这样就会更容易了解我们真实产生的利润是多少。
6、数据分析三步走
再来说说我们做数据分析一般的步骤会有哪几步。第一步,我们要了解这些指标的含义跟定义,以及统计的方法,然后我们要找到一个比较合适的指标来衡量我们做这种产品,做这个活动希望达成的目的跟效。
第二步就是研究这些数据,把无效的跟虚假的部分剥离,这个做运营或者做推广的同学可能会更加有感觉一些。包括我们投放广告,很多的假量啊之类的,这里面要好好去分析跟剥离的。
第三步就是通过测试或者一些辅助性的指标来计算和长期监控这些数据。通过数据来对产品进行改进,对活动的方案进行调整。
第一个就讲到说我要了解这个数字的一个含义定义,然后去理解我们真正所做的活动或者产品。讲这样的一个例子,还是说Peter,案例中Peter在新浪微博上看到菲利普空气炸锅这样的一个产品广告,点进去之后发现这个空气炸锅正在做特价促销,买东西全场免费,还送一堆赠品,他看到这个东西非常激动。于是就记下了这么一回事。过了两天,他在上班的时候,忽然想到自己要买个电饭煲,就找到了购物搜索的网站去比下价格,看完这个价格之后觉得不错,决定去买。但是买的时候很不巧,忘记带U盾了,所以也没买成。回家之后打开电脑,打开百度,一个个开始去搜索,搜索这个网站的名字跟电饭煲的名称,点开第一个链接,刚好就是你付费关键词的链接,把产品买下来了。
我们看这个案例会发现,用户购买的流程其实有好几步,在微博上看到,起到一个曝光的作用;第二步,进到比价网站上进到他的官网又详细了解,第二步可能是详细了解;第三步才是需要真正激发用户购买欲望,促使他下单的这种临门一脚的步骤。在产品传播的每一个阶段,这些渠道对我们产品都是有意义的,不管是微博还是比价网还是各种各样的百度搜索。我们发现用户在购买我们产品的时候,都围绕了这些渠道,但是我们在把每个渠道的数据拿出来单独去统计的时候,每个渠道效果好像都不是太好。
比如某个用户在微博上看了之后,当时并没有去买。因为当时可能还没下定购买决心,然后在购物搜索引擎去搜索各类产品的时候,打算下单,但是忘了带U盾,所以又没买成。类似这样的一些情况。当然这个案例本身有些极端。但是我们会发现最终用户下单是在百度上搜索了你网站的名称,然后进行购买。最终点击的是百度的那个SEM的付费搜素链接。
从最终结果上来看,百度的SEM的转化率是最高的。因为不管是从哪个渠道过来的用户,最终都会在百度上搜索以后再购买。很多用户都会有这样的行为。最终会导致我们觉得好像微博效果也不咋样,那我们就不投微博了。最后还是百度的效果最好,那我们就在百度上投放越来越多的广告,花越来越多的钱。实际上我们会发现有的时候我们把资源投给那些ROI很高的产品或者渠道,我们整体的ROI反而越来越差。
所以我们在统计跟分析数据的时候一定要了解清楚用户使用的,接触我们产品的整个流程跟场景,脱离开场景做数据分析,往往可能会得到一些比较可笑的结论。
第二步就是研究数据,把无效的和虚假的部分剥离开来。在这些数据的研究上,有几类的异常其实是可以重点关注的:一个是时间上的异常,比如说你作为一个电子商务的网站,是卖母婴用品的网站,结果在凌晨一两点的时候,购买量特别大,我觉得这个是有问题的。大部分妈妈一两点的时候都在陪宝宝,不大可能有时间去上网买东西。你要警惕你购买采购的流量质量是不是有问题。比如行为上的异常等等。
你的自然流量,拿现在的APP或者网站注册来说,我们现在大部分的APP或者网站注册都流行用手机号注册,手机注册一定会遇到有的人注册码发不出去或者多次输入这样的情况。在自然流量的用户中,这种指标应该是相对比较稳定的,比如说有百分之一到二的用户会重复获取三次以上的验证码。但是你往往发现,在一些假的量上面买到的一些渠道,这个指标上的重试次数都是非常整齐划一的,非常干净的,都是1,这也是分辨你采购的这个流量是有问题的一个重要指标。当然还有地域上的异常,来源上的异常等。
第三步,还可以通过测试指标跟辅助指标长期监控来分析这些数据的隐性效果和长期效果。我们不管是做产品的还是做市场推广运营的,往往很难通过一个指标来确定我们的产品或者我们的活动效果是怎样。大家一定要注意跟踪多个指标。
我们来看一些比较实战的案例。第一个案例是你在QQ和新浪上都花同样的钱投放了广告,在QQ上一天带来了7万个访客,20个订单;在新浪上一天大概有6万个访客,30个订单。于是我们就得出了结论:在新浪上投放的性价比比QQ更高。这样认为一定是正确的吗?我们来分析一下,从访客上来说,好像QQ的效果会更好,它带来了7万个访客,新浪只带来了6万个访客。从订单数来看,新浪带来的更多,有30个订单。大家有过数据分析经验的一些朋友就可以看出光是看这两个数据我们很难得出精确的判断。
我们还要对这个数据里面的用户质量进行分析。这些用户的质量不是说你一天就能看出来的,7万个访客,第二天还在继续登陆或者继续使用你网站的人有多少,我们把第一天来访然后第二天还来登陆的用户叫做二代用户。可以看一下,同样的价钱投放,在新浪、QQ上哪个产生的二代用户更多。
订单我们也要具体去分析,这些订单的总额的话是QQ产生的更多呢还是新浪产生的更多,订单的分布也是很关键的,比如新浪这边可能有30个订单,30个订单总金额也很高,但是可能大部分订单的金额都产生在其中一两个客户身上,其他的用户都花了很少的钱。这时候我们就要进一步去看这些订单金额的分布,如果是像刚才说的那样分布的话,那就要注意可能这个渠道的客户呈两极分化。有一些非常高质量的用户,有些用户质量就很差。
7、用户细分非常关键
所以在数据分析中我们始终强调的两个东西,一个就是用户的细分,另外一个就是后续辅助指标的一些跟踪,比如说30天的消费率,二次消费率,30天以后的消费率之类的。做综合分析以及把这些付费的用户和没有付费的用户细分来看。
下面一个案例,有两个活动页面,A页面的跳出率是80%,B页面的跳出率是90%,而A页面最终产生了400个订单,B页面最终产生了只有200个订单,所以我们得出怎样的结论呢?如果说我们得出一个结论A页面的活动较为吸引人,或者说页面设计比较好,所以A页面的效果是比较好的,是这样吗?我们可以看一下,这里面说A页面的跳出率是比较低的,订单数也比较多,所以A页面效果比较好。乍一看好像是这样。但是我们用我们刚才说的细分方式再去跟踪一下可能会得出不一样的结论。
我们仔细去分析一下会发现,做一下细分,比较常见的方法是把新用户和老用户分开。我们会发现在A页面上老用户的占比是比较多的,按照常理来说,新用户的跳出率肯定是要比老用户的跳出率高很多,所以说对A页面来说,这方面其实是比较划算了,因为A页面的老用户会比较多。实际上我们如果把用户进行一个细分就会发现,如果只看新用户,新用户在A页面跟B页面,其实跳出率是一样的,转换率也是差不多的。B页面在这方面就不太划算了,因为B页面的新用户比较多,看起来数据就比较难看。
但是如果我们反过来只看老用户的细分,我们反而会得出一个结论,B页面它的跳出率其实是更低的,转化率也就更高。所以,我们从这个案例发现,如果我们不做细分,光看数据,就会发现其实A页面效果会更好,但是如果我们做了细分,会发现B页面反而更好,所以说在数据分析中,细分是非常非常重要的。
讲到细分,有一个概念叫“平均数陷阱”。不管自己在统计分析中还是看市面上的媒体报道啊之类,经常会讲到平均数是多少。在这个平均数中,平均数往往隐藏了很多很多真相,我们自己在分析中要特别注意这一点。
8、平均数陷阱
我举一个比较极端的例子,这是我之前看到的一个数据。有报告显示:截止2011年8月,中国家庭的资产平均为121.69万,城市家庭平均资产为247.6万,农村家庭平均资产为37.7万。大家可以看到这个数据来说,感觉好像中国还挺好的嘛,挺富裕的嘛。甚至有人会觉得:哎哟,我又拖大家后腿了,是不是?如果光看平均数的话,确实会得出这样的一个结论,说中国人好像还是挺富裕的。
但是我觉得在这个过程中,我们不妨看一个中位数。中位数是什么概念呢?比如说我们有五个数,平均数的算法就是把五个数的总和然后除以五。中位数的意义就是取这五位数的中间这个数,五位数的中间这个数就是第三位数,第三位数的数字是多少,这组数的中位数就是多少。也就是说中位数代表着,比如说这组中位数是十,那就是说这组数据中,有一半的样本是比十要低的,有一半的样本的指标是要比十要大的。
我们会发现,把中位数拿出来一看,中国家庭的资产的数据其实是不太乐观的,城市家庭的总资产我们这里显示的数据是237.5万,但实际上中位数只有37.3万,也就是说在中国有一半的城市家庭资产数是低于37.3万的。我们看平均数就会觉得中国人平均家庭都有两百多万,但实际上有一半的家庭他的资产是不足37万的,所以有时候中位数比平均数更能揭示事实的真相。
我们再设想这样一个案例,如果你开了一家店,开始兴冲冲地分析数据,你会发现你的消费者平均访问你这家店的间隔是20天。所以我们会得出一个结论:每十天来我店里访问一趟的人就是我的忠实消费者,每20天来我们店访问一次的就是一般消费者,如果该客户一个半月没来,他可能流失了……那么我得出的一个结论是什么呢?我要按照用户的生命周期模型来找到容易流失的客户,给他们每人发10%的优惠券,挽救他们回来。这样的结论正确吗?
我给出的建议还是在这基础上做用户的细分,我们光是看一个平均数,即你的消费者平均访问你们店是20天一次,这里面的信息量是不足的。我们发现不同的零售业,他的用户访问平均时长是不一样的,比如说一些五金店,一般人去五金店,家里多长时间才需要买一次铁钉、铁锤。
如果你是一个木工或者水泥匠这类的人,你可能光顾五金店的频率就很高。所以如果你能把你的用户分为专业顾客跟普通顾客的话,你会发现这两种类型的细分人群,他们访问的间隔是完全不一样的。对于普通的消费者来说,他很少去五金店买,你给他发优惠券,也不会增加他的到店访问频率,因为他平时生活中用不着。对于一些专业的消费者来说,他访问的频率可能很高,所以他对价格也比较敏感,你给他发优惠券,可能会大大刺激他的消费额或者消费频率,可见,用户细分是非常非常重要的。
9、不细分,毋宁死
我们甚至可以提出一个口号叫:“不细分,毋宁死”。有这样一个案例,在我们的一个产品中共有100万个用户,月活跃用户是10万,即有10万人在当月访问我们的网站或者APP,总共产生了一万个订单,平均每十个访客来产生了一个订单,所以我们整站的整体活跃率就是10%。活跃率的定义就是月活跃用户除以总注册用户。这是我们整体的一个数据。我们可以按照很多方式来细分我们的产品,可以按照专业用户跟业余用户进行细分,也可以按照新用户、老用户进行细分。
10、有哪些用户细分的好方法?
我这里给大家提供一个细分的方法。可以根据客户累积的购买次数,把用户列成新注册用户、或者首次购买的用户、二次购买的用户、或者累积有三次及以上购买的用户。你会发现如果把这些用户做这 样的细分之后,每个群体的购买行为,活跃率都有很大的区别。新注册用户的活跃度就很高,这个当然大家可以想象到的,刚来没多久,活跃率肯定是很高的。同时,三次购买以上的用户活跃率也很高。
我们不同的细分,甚至可以说是我们认识这个世界的很关键的视角,如果没有细分,我们不知道怎么认识这个世界。所以数据分析其实也是看待世界的角度。
还有其他的细分方法,比如用户注册时间。注册时间可以分为老用户,当天新注册用户,注册一个月以内的用户。还有生命周期,可以分为活跃期啊,学习期,衰退期。还有子产品的属性,你网站上提供很多产品,有的购买消费品,有的购买母婴用品的,有的购买图书,不同的用户群体,他的行为是有非常大的不同的。
我可以给大家简单归纳一下,今天是一个比较基础的数据分析的分享。如果大家对数据分析比较有兴趣的话,我可以推荐看两本我觉得确实特别好的两本书,一本书叫做《统计陷阱》,很薄的一本书,我觉得特别有启发,列举了常见统计分析的一些数据陷阱。另一本书叫做《决策与判断》,那这本书是做行为心理学的很专业的两个哈佛的教授写的,特别好。
最后,很高兴能在馒头商学院与大家一起分享这些东西!
来源:馒头商学院