大数据技术助力传统企业精细化运营(上)
作者:任栋霓 何明科
摘要:面对庞杂而分散的数据以及对快速实时产生数据的渴求,不仅传统企业的IT及经营分析部门束手无策,就连消费品行业一直倚重的管理咨询公司也爱莫能助,因为数据规模之庞大和其中涉及到的相关数据挖掘与分析技术,已经大大超越了管理咨询顾问们的算力。
一家大型消费品企业,其数据生产能力与中等规模的互联网公司已不相上下,支撑日常业务的IT系统多达十余个,越来越多的企业管理层都希望能像互联网公司那样管理用户和数据,用数据驱动决策。
然而,面对庞杂而分散的数据以及对快速实时产生数据的渴求,不仅传统企业的IT及经营分析部门束手无策,就连消费品行业一直倚重的管理咨询公司也是爱莫能助,因为数据规模之庞大和其中涉及到的相关数据挖掘与分析技术,已经大大超越了管理咨询顾问们的算力。
2015年,我们团队有幸为中国一家时尚消费品龙头企业搭建数据平台。历时半年,就完成了内部数据的打通和洞察、用户画像和会员体系的搭建以及外部数据的获取与跟踪。本文将从这三个方面分享一些主要经验,希望有助更多传统企业用数据驱动的方式来进行精细化运营。
商业智能(BI)
一般而言,大型消费品企业日常运营所需IT系统多达十余个,包括1)分销系统: 全国上千家实体店面每日的销售配货,日订单量在数十万量级;2)电商订单系统: 负责处理十余个电商平台(京东、天猫、唯品会、一号店、聚美、亚马逊、当当网、有赞等)的订单管理与客服;3)仓库管理系统,负责全国各大区域的仓储物流,数千个SKU的备货情况;4)BI系统: 负责各主要业务系统的数据聚合,制成日常统计报表;5)其他财务、人力资源、绩效管理、品牌/分公司订货系统等,日数据量极其庞大。
为了追求高度的抽象化与通用性,企业BI软件大部分时间所承担的责任是一家公司的各类报表应用:将各个IT系统的数据聚合至BI,进行统计汇总,并统一在前端呈现出图表与数值,便于业务人员了解日常数据和运营情况。所以,除了ETL[1]部分,BI软件绝大多数的功能通用性极强,具有跨行业、非定制化的特点。
这也就决定了BI软件的卖点在于监控和绘制通用性的统计报表,比如时间序列统计、分布统计、分段统计等等。图1展示了这家消费品企业两年间平均价格变动与总销量的时间序列,可以看出销量两年来稳步增长,有小周期性(1、2月份卖得少,换季月份卖得多),而卖出商品的价格两年保持基本一致,并呈明显周期性变化(冬季产品价格比夏季高出许多)。图2展示了公司旗下各品牌的销量分布和占比,可见此公司有一个相当强悍的主品牌,以及2-3个在垂直领域表现不菲的子品牌,定期输出销量分布,可以监控各品牌的发展情况并衡量品牌策略是否成功。
数据科学
在一个数据工程师的眼里,BI软件做的事情其实就是数据分析的范畴,任何数据洞察、数据挖掘工作都需要涉及到这些通用维度的基本统计。但在这种浅层分析的基础之上,数据科学家可以通过带入较强的人为干预和行业性输入,做到许多高于BI的数据洞察。而将这些洞察落地,运用至具体产品设计、营销方案、会员体系构建和售后服务中,便可以像互联网公司一样,实现以数据驱动业务。
图3是用户重复购买间隔的CDF曲线(Cumulative distribution function)。横坐标代表天数,纵坐标代表百分比。数据显示,有37%的用户在第一次购买后的一个月(30天)内会进行第二次购买,而45%的用户在第二次购买后的一个月内进行了第三次购买,51%的用户在第三次购买后的一个月内进行了第四次购买。随着购买次数的增加,CDF曲线向左倾斜,也就意味着用户在建立了品牌认知后,购买频率显著增高,两次购买之间的间隔明显缩短。因此,诱发新用户建立品牌意识,进行二次购买的窗口为3-4个月的换季档,而对老客户的消费唤醒窗口期则更短,以1-2个月为最优。这是一个很典型的数据工程师利用自己的行业知识和经验来实现数据洞察的例子,也是BI软件无法做到的。首先研究复购间隔是消费品行业独有的场景,更重要的是想要完成这个洞察,其中所涉及的统计工作具有很强的定制性,也较为复杂,需要编写统计脚本或是使用多条复合SQL[2](结构化查询语言,Structured Query Language)来实现,数据工程师的价值也在此有了体现。
对于一些并无日常监控必要的统计,有时也会贡献许多有价值的洞察。图5展示了线上用户购买时间的分布情况。可以看出,周末线上购物的时间十分均匀,除了半夜之外大部分时间段都有网购发生。相比之下工作日的线上购物时间分布就变得十分有趣,大量的订单集中发生在早上9点和10点之间,也就是说大量的时尚白领在上班途中或是步入办公室后的第一件事便是“败”一件自己心仪的宝贝,然后才能心情舒畅地开始一天的工作。那么不管是自营电商促销、短信推广还是各宣传阵地的推送,工作日早上8点至10点都是一个不错的窗口。
个人认为,数据科学(大数据)和“广义”的商业智能没有本质区别,两者都涵盖了非常广泛的内容,并且核心都是通过数据处理和分析,提升业务表现。但我们平时所谈论的“BI”主要是软件厂商所提供的BI软件/套件,用于实现业务报表和统计监控的功能,和数据科学还是有着比较大的差异。可以说BI软件提供了一种非常抽象、便利的数据汇总、统计和可视化工具,完成了数据科学的一部分工作;但许多深层次、行业性、高于BI软件的分析与洞察,则需要数据工程师参与以及特定数据系统的支撑来共同完成。
[1] ETL即Extract-Transform-Load 的缩写(也往往被简称为“数据抽取”),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。传统消费品企业面对零散的数据库,特别需要ETL的服务。
[2] 结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。
[3] API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码或理解内部工作机制的细节。
来源:上海交大巴黎高科评论
作者:任栋霓&何明科