神策数据CEO桑文锋:大数据分析的五个重要环节
【编者按】眼下, 人工智能 颇热,但仅有算法的AI只是空中楼阁,数据才是AI的基石。近日,在“硅谷之声—— 大数据 技术达人中国行专场”上, 神策数据 创始人兼CEO 桑文锋 分享了他对如何做好数据的心得体会,干货满满。
本文转载自数据猿,作者 桑文锋;由亿欧编辑,供行业内人士参考。
硅谷作为当今全球 科技创新 的前沿阵地,一直吸引着全世界人的目光,对于中国高科技人士来说也同样具有这样的魔力,是众多梦想家的理想去处。
为了让大数据领域创业者、数据工程师等技术人才更好的了解最前沿的硅谷技术和文化,由数据猿联合BitTiger、微软加速器共同举办的“硅谷之声——大数据技术达人中国行专场”在北京微软亚太研发中心总部圆满落幕。
以下是神策数据创始人兼CEO桑文锋的分享整理:
这次我的分享主要是结合我在百度工作八年,以及创业两年来的经验。
百度的数据规模是非常庞大的,"用数据说话"就是百度的文化之一。很多时候的决策和改变,都要依赖于数据。很多人觉得,数据规模大才需要 数据分析 。小公司没有那么多数据,就不需要大数据分析。我认为这是不对的,所以这里就要解释一个概念,什么是大数据?有一种说法是:大数据是思维。但是我认为,要理解大数据,应该从两个层面来看。一是物理层面;二是抽象层面。
从物理层面来看,可以归结为四个字:大、全、细、时。
第一,大。 这里指的不一定是物理上的大。举个例子,我们收集全国各个地级市今天的苹果价格,可能收集到的数据只有2兆,但我们用这个来做一个调动性,这就很显然是一个大数据的应用了。
第二,全。 全指的是多种源,全量而并非抽样。以前做调研分析,许多时候都是抽样,这就很容易造成偏差。样本有一点问题,跟全局表现出来的都会有所差异。
第三,细。 举例来说,如果我们提问全国各省份大家喜欢吃什么东西?大家并不会回答"我来自河南,喜欢吃烩面"这么细致。但是我们可以基于地理维度进行获取更细致的信息。
第四,时。 即时效性。以前一个老板可能都不知道每个季度公司的收益到底是多少。而现在是实时的进行计算、反馈结果。
所以,对于许多小的创业公司来说,我们可以把数据收集的更细、维度更多、时效性更强,同样也可以进行更多的数据分析。我认为这些同样也叫大数据。
从抽象层面来看,最重要的一点是数据驱动的思维。这是大数据里非常关键的一点。虽然以前也有数据分析,但那个时候是采集样本,基于样本去分析、去做决策。现如今,无论是互联网还是传感器的发展,都让我们有机会采集到更多的数据,因此现在的数据分析和以前也是不一样的。
大数据的第一个环节是 数据采集 。因为数据规模大,当达到一定的水平之后,采集本身就成了一个很大的问题。我们现在需要各种各样的手段把这个数据记下来。每一个实际发生的信息,我们都要进行采集。
第二个环节就是 数据建模 。我们要在数据的基础上进行模型的搭建。数据建模最重要的是整理数据。把数据表做出来以后,我们才能更好的去分析。
第三个环节是数据分析。我们在拥有数据的基础上去做用户分析、用户分群。
最后就是 指标 。围绕一个产品,我们如何去获取新用户?每天增加了多少用户?通过哪个渠道?这些问题都是我们要关心的。
接下来就重点给大家讲讲每个环节的具体操作:
环节一:数据采集
大数据体现的是大,但时效性也是一个基本要求。现在我们进行数据采集、数据处理的时候,都在强调尽量去生成这个数据。 归结起来,如何把这个数据做好?就两个字,一个是全、一个是细。"全"是用各种各样的数据源,无论是前端的、后端的数据,我们都要全量的采集到。"细"是强调多维度,无论什么样的维度信息,我们都可以采集过来。
在百度工作这么多年,"要把数据的事情做好"是我非常重要的一个心得。数据源做好了,事情基本上就成功了一半。如果没有数据,后面即使有再牛的算法,也一样做不好。所以,数据源是非常重要的,在这一块要花工作去把它做好。
数据采集有三类手段:
第一类是在产品里通过后台配置,去采集我们要采集的数据,或者是把这个采集的数据命名成什么样。 这个方式的好处在于,不需要工程师干预太多,只需要业务人员、产品、运营,自己就可以看到要分析的数据结果。这种方式有利也有弊。自动采集手段目前还有很多局限性。许多时候,只能收集一些宏观的数据,比如说机器的版本。在采集一些复杂信息时,自动采集的方式就很难达到了。
第二类是通过代码去收集任何想要的信息,把要采集的地方埋入代码,记录下来。绝大多数的数据一般都会通过后端去采集。
第三类是通过工具去采集。
这三种是常见的数据采集的方式,无非是你从中去选择适合你的方式。
许多的公司在数据采集方面都存在非常大的问题。公司人员的流动很有可能造成数据采集的混乱。所以要对数据采集本身进行监控,在哪些点进行了采集,都采集了什么样的维度,通过的有多少,没有通过的有多少,要将这些监控起来。
另外,需要有分析师参与到数据管理。在我自己创业的过程中,我发现许多公司缺少一个真正的数据负责人。一方面我们要用各种各样的工具,去做好数据采集。另一方面,需要懂业务的人,真的把数据本身的采集管理起来。
环节二:数据建模
现在许多产品背后都有一个数据库,数据库里很多都是跟交易相关的。在数据库里会把我们生成的数据记下来,比如说用户的注册信息、交易订单信息,这种信息都会写到数据库里。那么我们在数据库里就可以解决问题,为什么要专门建一个数据平台呢?这里面有三个问题:
1、要把数据表用于数据中心。 如果把数据库里的表交给业务员、产品经理,他们很难理解,更不可能后续在机房进行一些工作。
2、性能不行。 业务数据库这种数据结构、数据表处理一般支持的是高频化、小批量的,而我们的数据分析跟这个模式是完全不一样的。数据分析的频次并不是很高,但是它的规模、吞吐量很大。在传统的数据库上去处理这个性能就会有很大的问题。
3、数据不全。 业务数据库用于做数据中心,这个数据模型本身是不行的,或者说是只能解决一部分的问题。
做好数据分析,首先在数据建模的时候要易于理解。数据模型建好以后,无论是谁都可以理解,这样才能把数据更好的利用起来。另外还要性能好,我们在查询的时候,可以很快的得到响应。在数据分析,特别是互联网领域的分析过程中,最常用的模型是多维数据处理模型(OLAP),把数据拆成一个维度或指标。当然最好的分析方式还是建立一个好的数据模型。
环节三:数据分析
数据分析可以干什么?产品改进。数据分析可以帮助我们看到问题,然后改进。在有数据的情况下,即使一个初级的产品经理,也可以把这个产品迭代本身做得像模像样,因为有数据支撑,我知道哪些是客户喜欢的,这都是可以用数据表现出来的。
环节四: 运营监控
运营监控是互联网产品中一个非常重要的事情。互联网产品有三件最重要的的事情:
第一件事情是拉新,就是如何去获取新用户;
第二件事情是怎么让这个用户不断的用你的产品;
第三件事情是变现,我用得挺好,来了就不走了,这三点是非常关键的。
一个科学的运营环节,应该分析哪些数据,可以从以下五个方面来看:
第一是触达,怎么让用户知道你;
第二是激活,要让用户进行购买行为;
第三是留存;
第四是引荐,一个用户能推荐给其他用户;
最后就是营收。
互联网产品常用的分析法:
多维分析: 一个开元软件分析之后发现安卓的下载率比ios低很多,结果是因为屏幕布局问题,导致下载按钮没有显示,下载量低。这就是多维分析的方式。
漏斗分析: 用户来到我们网站,这期间有一个转化的过程,这些环节我们都要跟进下来,才能知道是什么原因导致了用户流失。这就是漏斗分析法。
用户分群: 对不同的人采取不同的策略。比如,一开始滴滴打车发13元红包,有些人发不发红包都会用这款软件,而一些人则不同。这就需要区别开来,使用不同的策略。
环节五:指标
我们到底应该关心什么样的指标?这里有两个方法:第一关键指标法;第二海盗指标法。
以上就是我分享的内容,谢谢大家!