专访神策数据CEO桑文锋:谁说大数据不需要「小而美」
从前任百度大数据部门的技术经理,到今天神策数据CEO,9年时间,桑文锋身上发生了许多变化。他笑称,这种变化从他的微信好友数量就能看出来。创业之前,他只有200多个好友,现在已经迅速逼近5000人的上限。
大数据行业 9年的历程带给他很多挑战,也改变了他的很多看法,但让他对自己所选择的道路愈加坚定了。前不久,神策数据拿到了400万美元的A轮融资,桑文锋与他团队的坚持得到了认可。
近期,CDA约访到了桑文锋先生,听他聊聊他对大数据行业的看法。
下文根据采访实录整理:
CDA:大数据领域的创业公司日渐增多,您怎么看待目前市场中的机遇和挑战?
桑文锋: 我自2007年从浙江大学研究生毕业之后进入百度,一开始在百度知道做研发工作,第二年就开始做数据领域的工作。
百度推崇用数据说话,它本身的数据规模也比较大,懂数据,对数据也比较重视。从2008年开始,我负责一个小团队,基于Hadoop搭建了一些数据处理平台,主要用来处理百度的产品数据,比如它的用户量、访问量等等。
那个时候没有大数据的概念,大家谈论的都是云计算。到2011年、2012年左右,大数据的概念就比较火了,当时意识到大数据技术很有价值,但是数据基本都集中在BAT。
最近三四年业内比较大,主要表现在:
一是移动互联网的发展,传感器的发展,让以前收集不到的数据现在可以收集到了,线下的行为转移到线上,这让一些规模比较小的公司也能够获取数据;
二是大数据处理的软硬件基础在不断成熟,摩尔定律,机器越来越便宜,性能越来越高,像Hadoop这种基础的大数据处理平台越来越成熟,很容易搭建并使用;
三是,虽然前几年大数据不乏炒作概念之嫌,但也有一点好处,就是提高了人们对于数据的重视程度,你不用再跟对方科普数据有多重要了,他已经开始自觉地关注如何让数据发挥更大的价值。
在这种大环境下,大数据技术能够在很多领域被很多企业利用。而我最终出来创业,其实赌了两个潮流:一个是创业潮,国家鼓励创业,重视创业,创业公司的数量不断增多,代表着企业对于数据的潜在需求越来越大。另外一个是互联网+,许多传统企业面临转型,从线下转到线上,转型过程中必定也会产生数据的需求。吴军在他的《浪潮之巅》中提到,科技领域的发展趋势就是一波波浪潮,跟着浪潮走会更容易把事情做成。目前互联网创业的浪潮能够推动我们去发现和把握时机。
CDA:什么样的数据分析产品能在竞争中存活?
桑文锋: 数据分析不是一个新概念,早些年就已经有不少公司在这个领域发力,覆盖的用户量也很高。目前市场上的部分数据分析产品有优点,也存在着问题。好处在于一是简单免费,不足的地方在于数据采集能力比较弱,一般只能采集客户端的数据,服务端、数据库的数据不多,这就会影响后期的分析;第二点在分析能力,一般做宏观分析都没有问题,比较难实现的是多维度的交叉分析;第三点是 数据安全 ,用户会对数据存储产生安全顾虑。
神策数据的定位是针对互联网公司的用户行为分析。有这么几个特点:
第一,提供私有化部署,用户可以把他需要的服务部署到自己的服务器上,数据不会出他自己的环境,打消了他们的安全顾虑。
第二,强调全端数据接入。不管是客户端的数据,还是服务端数据库的数据都可以接入,提供可视化埋点、代码埋点、工具导入等等,有了数据才能更好地分析。
第三,神策基于PaaS平台,一般比较常用的是SaaS服务,二者的区别在于SaaS很难进行二次开发和深度利用,它不提供接口,你也很难建模,而用户在PaaS平台可以进行二次开发和存储利用。从数据采集、存储、建模分析到可视化,用PaaS平台可以做到每一个环节对用户开放,把数据读取出来,进行深度利用。用Hadoop、Spark搭建的大数据框架也可以直接访问。
另外,用户的每一个行为就是一个事件,比如提交订单,浏览网页,可以理解为一系列事件。我们的平台可以自定义用户的事件以及事件相关的维度。要分析的产品各不相同,但事件的本质是一样的,我们有灵活的机制去适配。所以,所有的用户只需要用同一个数据分析平台就可以满足需求,没有太多定制化的东西,节省了很大成本。
大数据的概念很宽泛,专注于某一个领域更容易成功。比如我们专注于用户行为分析,把这一个点做好就可以了,如果泛泛地什么都去尝试,反而不能够垂直深入。
2015年是大数据落地的一个年份,前两年虽然有很多人在炒概念,但近期出现的数据公司都开始从某一个点切入,这是一种更务实更科学的方式。可能将来会出现行业的整合,但是目前那些小而精、小而美的产品存活下来的机会比较大。
很多人倾向于在现阶段要掌握数据,怎么能拿到数据怎么干,但我认为这种思路背离了以用户为中心的理念。不能只想着自己掌握数据,更重要的是要知道用户真正需要什么。所以我认为大数据本身发展大概会分成两个阶段:第一个阶段是能力阶段,第二个阶段是价值阶段。现在大家知道数据很重要,但是不知道怎么做,你要提供好的数据分析工具,让他有能力做,这是第一个阶段。这个阶段过后,工具普及了,人们更关注怎么从数据中挖掘更多的价值,这是第二个阶段。
CDA:企业怎样才能真正利用数据产生价值?
桑文锋: 不能把数据太神话了,一定要结合业务看待。我们最早从电商类的企业切入,因为对电商类的企业而言数据最关键,每一种商品的浏览情况、下单情况,用户的转化情况,每一种数据都直接与它的业务相关。在我们看来跟订单与交易相关的数据价值会更明显一些。比如,你去投放广告,你去衡量在不同平台投放广告的效果如何,就要去对比不同渠道转化的付费用户的比例有多少,平均客单价有多高、复购情况如何,只有经过这些分析,你才能知道不同广告平台的价值区别在哪里,就可以从拍脑袋的方式转化到数据驱动的方式。
现阶段对于创业公司来说,数据采集是比较难的。一方面是不知道怎么采集数据,另一方面是不知道应该采集哪些数据,更不知道怎样把这些数据建模。所以我们一方面提供全端接入的模式,一方面也建立了数据分析团队,帮助用户理清思路,梳理维度,让他们比较容易得落地;另外就是 数据分析 的理念问题,很多用户不知道怎么做数据分析,那么我们在产品之外还需要灌输理念,做一些科普的工作。这方面也是个坎,但是在过个三五年,数据驱动增长的理念应该就能够更广泛地被接受。
CDA:给想要投身这个行业的人留下一些建议吧
桑文锋: 大数据不是听一两次课或者看一两本书就能摸清楚的,还是需要有实践经验,比如说我之所以对大数据有信心,就是在百度的那几年接触过各种技术,知道各种场景应该怎样做处理,你本身要有机会去处理一些数据相关的问题。如果想做数据工程师,就以开发平台架构已出发点,多去寻找这样的机会,对于分析师来说,则要首先培养自己数据驱动的理念,基于这种理念去做分析,自然能力就提升了。
对于大数据分析师这个岗位,我可以推荐一本书叫《精益数据分析》,主要讲互联网公司是如何做数据分析的。其实大数据分析的分析方法不难,难的是如何基于业务场景灵活运用,所以要先构建理念。这本书在应用上可以给你一些启发。也不要把自己局限于分析工作,多了解业务。
责任编辑:王培