案例 ▏大数据技术助力传统企业精细化运营
大数据技术助力传统企业精细化运营(上)
一家大型消费品企业,其数据生产能力与中等规模的互联网公司已不相上下,支撑日常业务的IT系统多达十余个,越来越多的企业管理层都希望能像互联网公司那样管理用户和数据,用数据驱动决策。
然而,面对庞杂而分散的数据以及对快速实时产生数据的渴求,不仅传统企业的IT及经营分析部门束手无策,就连消费品行业一直倚重的管理咨询公司也是爱莫能助,因为数据规模之庞大和其中涉及到的相关数据挖掘与分析技术,已经大大超越了管理咨询顾问们的算力。
2015年,我们团队有幸为中国一家时尚消费品龙头企业搭建数据平台。历时半年,就完成了内部数据的打通和洞察、用户画像和会员体系的搭建以及外部数据的获取与跟踪。本文将从这三个方面分享一些主要经验,希望有助更多传统企业用数据驱动的方式来进行精细化运营。
大数据与商业智能
“大数据”三个字的意义更多是指一种概念和思维方式,既不是某种具体工作也不是某种特定技术。它至多可以看作是与数据科学有关的各种算法、技术和工具的总称,比如数据挖掘、机器学习、自然语言处理、分布式运算,等等。在企业管理领域,相比大数据,“商业智能”(BusinessInteligence,BI)的历史要久远许多。在各大企业软件厂商(如IBM、Oracle、Microsoft、Informatica、SAP、Sybase和Teradata)的不断教育下,大中型企业几乎都采用了BI软件。其实,BI的概念也很宽泛,包含了各种技术和工具如数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等等。那么,二者相比,究竟有何区别与优劣?
商业智能(BI)
一般而言,大型消费品企业日常运营所需IT系统多达十余个,包括1)分销系统:全国上千家实体店面每日的销售配货,日订单量在数十万量级;2)电商订单系统:负责处理十余个电商平台(京东、天猫、唯品会、一号店、聚美、亚马逊、当当网、有赞等)的订单管理与客服;3)仓库管理系统,负责全国各大区域的仓储物流,数千个SKU的备货情况;4)BI系统:负责各主要业务系统的数据聚合,制成日常统计报表;5)其他财务、人力资源、绩效管理、品牌/分公司订货系统等,日数据量极其庞大。
为了追求高度的抽象化与通用性,企业BI软件大部分时间所承担的责任是一家公司的各类报表应用:将各个IT系统的数据聚合至BI,进行统计汇总,并统一在前端呈现出图表与数值,便于业务人员了解日常数据和运营情况。所以,除了ETL[1]部分,BI软件绝大多数的功能通用性极强,具有跨行业、非定制化的特点。
这也就决定了BI软件的卖点在于监控和绘制通用性的统计报表,比如时间序列统计、分布统计、分段统计等等。图1展示了这家消费品企业两年间平均价格变动与总销量的时间序列,可以看出销量两年来稳步增长,有小周期性(1、2月份卖得少,换季月份卖得多),而卖出商品的价格两年保持基本一致,并呈明显周期性变化(冬季产品价格比夏季高出许多)。图2展示了公司旗下各品牌的销量分布和占比,可见此公司有一个相当强悍的主品牌,以及2-3个在垂直领域表现不菲的子品牌,定期输出销量分布,可以监控各品牌的发展情况并衡量品牌策略是否成功。
BI软件的强项是将这些业务数据汇总起来,无需编程即可绘制出可供长期监控的可视化报表,同时实现随时更新,而不是传统管理咨询所能提供的静态报告,这些报告往往在出炉第一天就过时了。
数据科学
在一个数据工程师的眼里,BI软件做的事情其实就是数据分析的范畴,任何数据洞察、数据挖掘工作都需要涉及到这些通用维度的基本统计。但在这种浅层分析的基础之上,数据科学家可以通过带入较强的人为干预和行业性输入,做到许多高于BI的数据洞察。而将这些洞察落地,运用至具体产品设计、营销方案、会员体系构建和售后服务中,便可以像互联网公司一样,实现以数据驱动业务。
图3是用户重复购买间隔的CDF曲线(Cumulative distribution function)。横坐标代表天数,纵坐标代表百分比。数据显示,有37%的用户在第一次购买后的一个月(30天)内会进行第二次购买,而45%的用户在第二次购买后的一个月内进行了第三次购买,51%的用户在第三次购买后的一个月内进行了第四次购买。随着购买次数的增加,CDF曲线向左倾斜,也就意味着用户在建立了品牌认知后,购买频率显著增高,两次购买之间的间隔明显缩短。因此,诱发新用户建立品牌意识,进行二次购买的窗口为3-4个月的换季档,而对老客户的消费唤醒窗口期则更短,以1-2个月为最优。这是一个很典型的数据工程师利用自己的行业知识和经验来实现数据洞察的例子,也是BI软件无法做到的。首先研究复购间隔是消费品行业独有的场景,更重要的是想要完成这个洞察,其中所涉及的统计工作具有很强的定制性,也较为复杂,需要编写统计脚本或是使用多条复合SQL[2](结构化查询语言,Structured Query Language)来实现,数据工程师的价值也在此有了体现。
除了复杂和高定制性的统计逻辑外,对于非结构化数据的处理和挖掘也并非BI软件的强项。对于大型消费品公司来说,全电商渠道的运营已经成了常态,每日来自京东、天猫、唯品会、一号店、聚美等大型电商平台的订单数高达数万个。这些订单的邮寄地址里包含了巨大信息量,比如用户所在城市、地理位置,甚至身份、职业、消费能力等等。通过程序和地图API[3](Application Programming Interface,应用程序编程接口)将这些邮寄地址转化为经纬度后,可以对用户群做大量的精细研究。图4便是我们利用送货地址做的用户群分布热力图,以北京海淀区为例,大量用户密集集中在中关村周边,其次便是各大高校宿舍聚集的区域。红色标签为品牌线下店铺位置,可见门店已经覆盖了中关村、北京大学和五道口等地,但对于知春路片区以及用户相对集中的牡丹园并未开设分店。相比之下安贞里分店四周并没有特别多的目标用户群出没。
图4:
热力图这样的算力往往超过了管理咨询公司的能力范围,对于用户选址却很有价值。
对于一些并无日常监控必要的统计,有时也会贡献许多有价值的洞察。图5展示了线上用户购买时间的分布情况。可以看出,周末线上购物的时间十分均匀,除了半夜之外大部分时间段都有网购发生。相比之下工作日的线上购物时间分布就变得十分有趣,大量的订单集中发生在早上9点和10点之间,也就是说大量的时尚白领在上班途中或是步入办公室后的第一件事便是“败”一件自己心仪的宝贝,然后才能心情舒畅地开始一天的工作。那么不管是自营电商促销、短信推广还是各宣传阵地的推送,工作日早上8点至10点都是一个不错的窗口。
和图5类似,图6将线上用户的购买数据按照一周7天进行分布统计,也发现一些有意思的现象,比如周六、周日上网买东西的用户极少,每周网购的高峰出现在周一和周二。或许上班族们都是通过线上血拼来抚慰自己,治愈“周一综合症”的。而越临近周末,大家在线买东西的热情也就越低。
像图5、图6这样的数据洞察往往也是BI软件无法捕捉到的。数据工程师们可以将这些没有长期监控意义的指标转化成具有商业价值的洞察。同时这又是传统的管理咨询公司无法做到的,因为他们缺乏能力整合如此海量的数据并按天甚至按小时进行实时输出。
个人认为,数据科学(大数据)和“广义”的商业智能没有本质区别,两者都涵盖了非常广泛的内容,并且核心都是通过数据处理和分析,提升业务表现。但我们平时所谈论的“BI”主要是软件厂商所提供的BI软件/套件,用于实现业务报表和统计监控的功能,和数据科学还是有着比较大的差异。可以说BI软件提供了一种非常抽象、便利的数据汇总、统计和可视化工具,完成了数据科学的一部分工作;但许多深层次、行业性、高于BI软件的分析与洞察,则需要数据工程师参与以及特定数据系统的支撑来共同完成。
[1] ETL即Extract-Transform-Load 的缩写(也往往被简称为“数据抽取”),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。传统消费品企业面对零散的数据库,特别需要ETL的服务。
[2] 结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。
[3] API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码或理解内部工作机制的细节。
大数据技术助力传统企业精细化运营(下)
建立用户画像和用户体系
无论是提供商品还是服务,用户画像都是数据挖掘工作的重要一环。准确和完整的用户画像甚至是许多互联网公司赖以生存的宝贵财富。我们也已经听过了无数用户画像的神奇功能和成功案例,比如亚马逊、淘宝的机器学习团队使用用户浏览行为、购物车状态和购买记录开发关联推荐系统,使点击率和销量大幅提升;比如应用市场根据过往APP安装记录对每个使用者进行精准推荐;再比如音乐、图书和新闻网站通过协同过滤的方式为用户呈现个性化的定制内容。
而传统管理咨询公司只能通过“人肉式”的市场调研和抽样方式,进行粗糙的用户画像。
对于消费品公司而言,虽然用户行为数据的丰富程度和互联网产品相比稍显逊色,但也拥有庞大的用户信息和交易数据沉淀、散落在各个IT系统中,而且更真实,噪音更少。我们在深入了解了这些用户信息和交易数据,并对它们进行了清洗、汇总、打通之后,发现数据质量比我们想象的好很多,可以支撑许多有意思的用户画像的建立。
数据标签化
用户画像的底层是机器学习,那么无论是要做客户分群还是精准营销,都先要将用户数据进行规整处理,转化为相同维度的特征向量,诸多华丽的算法如聚类、回归、关联、各种分类器等才能有用武之地。对于结构化数据而言,特征提取往往都是从给数据打标签开始,比如购买渠道、消费频率、年龄性别、家庭状况等等。特征标签选得好可以使对用户的刻画变得更丰富,也能提升机器学习算法的效果(准确度、收敛速度等)。
在消费品公司的项目中,我们根据不同维度提取了数十个标签,图7展示了其中一部分。这些标签主要有三个来源,一个类是在IT系统中可以得到的信息,比如办会员卡时留下的信息(性别、年龄、生日)、购买渠道、积分情况等;第二类是可以通过计算或统计获得的,比如用户对某类促销活动的参与程度、对某种颜色/款式商品的偏好程度、是否进行过跨品牌购买等;第三类是通过推测所得,比如送货地址中出现“宿舍”、“学校”、“大学”等字样,则用户身份可以推测为“学生”,出现“腾讯大厦”、“科技园”等信息时,则可判断是“上班族”,并有很大概率是技术从业者;标签设计上也带有较强的行业性,比如是否偏好购买当季爆款或是偏好新品多于经典款(时尚度),是否更倾向购买低价或打折商品(价格敏感度),是否喜欢购买高价商品或限量版(反向价格敏感度),等等。
对于已经打好的标签,根据不同的分析场景进行离散化,或将分类类型的标签拆成多个0/1标签,就可以进行机器学习的建模了,如聚类、分类、预测或者关联性分析,最终生成的向量维度多达数千个。
说到这里,管理咨询公司的Excel软件是不是已经快宕机了?
关联性分析
关联性分析(Association rule learning)是在零售行业中应用最广泛的一种机器学习方法,营销学里经典的“啤酒/尿布”(超市里购买尿布的消费者往往同时购买啤酒)案例也已经是家喻户晓,虽然后来被证实这是一个为了教学目的而虚构的案例,但从其“上镜率”也可以看出关联性分析在零售领域的重要程度,这个例子在中国改成“泡面/火腿肠”会更亲切。
和购物篮关联规则不同,我们数据挖掘过程中的基本单位是用户,而特征向量则是基于提取出的用户标签而构建的,下表是一个简单的示例。
我们获得了一个NxM的特征矩阵,N为用户数,量级在百万级,M为特征维度,约数千个二元标签。基于这个特征矩阵我们使用了最基础的Apriori算法[1]计算相关度,并在支持度、置信度和增益三个层面设置临界值,输出符合要求的关联规则。由于输出的关联规则可能涉及到客户隐私,在这里仅做一个示例。下表中的前项(antecedent)为用户所在地,后项(consequent)为最高的活动敏感度,结果如下:
可见,上海与江浙地区对于促销活动的敏感度和参与度是最高的,增益均高于2倍,上海更是达到了3.3倍之多。
另一个例子是颜色的关联规则,下表展示了用户对于不同颜色的产品以及SKU之间的偏好特征,可见某些用户是有较强的颜色偏向的,比如金色和银色之间、咖啡色和绿色之间等等。买过紫色和杏色的用户中,接下来比较可能买金色,把这些数据反馈给店面或线上团队,推荐颜色和配货就会轻松一些。
RFM Model
值得注意的是,做关联分析时要确保前后项的独立性(independence)。提取特征时有些维度是从相同或相关的字段提取的,比如用户的星座和出生月份,不做控制就会得出“11月出生的天蝎座特别多”这样让人啼笑皆非的规则。
RFM模型是用户价值研究中的经典模型,基于近度(Recency)、频度(Frequency)和额度(Monetory)这三个指标对用户进行聚类, 找出具有潜在价值的用户, 从而辅助商业决策,提高营销效率。
RFM建模所需要的数据源相对简单,只用到购买记录中的“时间”和“金额”两个字段。基于交易数据中用户最后一次的购买时间、购买次数和频率以及平均/总消费额,我们针对每个用户计算出三个维度的标准分。通过对三个维度赋予不同的权重,再基于加权后的分值应用K-Means算法[2]进行聚类,根据每种人群三个维度与平均值之间的高低关系,确定哪些是需要保持的用户、哪些是需要挽留的用户、哪些是需要发展的用户等,进而对不同用户群使用不同的营销策略(引导、唤醒等),提高复购率与转化率。值得注意的是,三个维度的权重制定并没有统一标准,比较通用的方法是用层次分析法[3](Analytic Hierarchy Process,简称AHP),再结合行业以及具体公司的特点进行优化。
图8是通过RFM模型进行用户聚类后的结果,可以清楚看到几个人群用户的数量以及比例。同时这些分群也会作为标签重新输入至用户画像以及CRM(客户关系管理)当中,作为圈定特定用户群以及营销的入口。
图9展示了用户群之间在各个维度上的分布。消费、金额、频率这些模型直接相关的标签上自然有非常显著的差异,同时在一些垂直(orthogonal)的特征维度上也有很大不同。
用户体系
最后,对消费品公司而言,所有在数据挖掘和用户画像方面的投入,根本目的还是要提升业务表现,所以如何将数据挖掘的结果进行落地就变成了尤为关键的一环。对于用户画像所输出的所有标签和关联规则,都需要通过某种渠道抵达用户群。这种渠道可以是一个强大的CRM系统,通过不同标签圈定用户群,定向发布营销方案;也可以是一个会员客户端,推送个性化的打折券或新品推荐;甚至是自营电商,实现像天猫、京东一样的数据自生产和自消费循环。
使用外部数据理解趋势
随着电商平台和社交网络的蓬勃发展,通过网络爬虫和解析程序等技术已经可以从互联网上获取大量高度结构化的行业信息。所以除了分析挖掘企业内部生产的数据之外,长期跟踪和分析各大网络平台的数据同样可以产出巨大价值,做到真正意义上的知己知彼。这些爬虫收集及存储数据的能力,也是传统管理咨询公司无法企及的。
本文仅分享和天猫相关数据挖掘的一些思路。我们采用了天猫这个细分子类5个月的数据,包含5000个品牌的7000家店铺、24万种商品、100万个SKU(库存量单位,Stock Keeping Unit),共计2600万条用户评论。
行业趋势
如下表所示,对于每一个独立产品,天猫已经将各类特征以较高的质量进行了结构化,以女性服饰为例,其中就涵盖近20种不同的属性。对于24万个价格与销量各异的产品进行统计分析,即可得出行业的流行趋势,比如每种风格服饰的价格区间分布,或是哪个版型更畅销,哪个品牌的哪个颜色更受欢迎等等。
图10展示了几个不同风格产品的销量对比。可见“双十一”和“双十二”对各种风格的销售撬动都十分明显,而去年韩版风格是当之无愧的“爆款”制造者,表现完胜其他各种风格。
用户决策语义
“当我们谈论商品的时候我们谈论什么?” 这是所有品牌商都想知道的问题。对消费品企业及管理咨询公司来说,其能力决定了其只能通过“类咨询”的方法做小组(焦点)座谈(Focus Group)或者调查问卷,利用严重有限的样本尝试提取出一些规律。
而在数字化程度极高的今天,这件事情开始变得简单。在天猫的例子中,仅5个月的时间跨度就提取出了2400万条用户评论,而且每条评论都精确到了具体商品、SKU一级的颗粒度,并带有明确的时间戳,给了我们挖掘和洞察用户的机会。
图11展示了用户在评论中提到不同场景次数的时间序列。我们首先为每个场景定义了十余个关键字,然后对所有用户评论进行了分词以及中文索引,再对这些场景相关的关键字进行提取,最后得出每日的数据量。在图中我们可以得出很多有意思的信息点,比如排除掉“双十一”和“双十二”的干扰后,提到婚礼场景的用户在9月中旬达到了一个波峰,或许和伴随“十一黄金周”到来的婚礼高峰期有直接关系。再比如旅游外出的场景在8月初和10月初有这两个波峰,也就意味着大家会为暑假以及黄金周的出行置办旅游新品。
天猫本身对每个用户都有内置的等级,从T0到T4总共5个,T0是入门级的用户,消费较少额度较低,T4是最高级的用户,消费额度和频率都很高。用户的等级数据在评论页面也是可以拿到的,我们对不同等级用户的购买场景也做了分析。图12和13展示了T4和T0两个等级用户所关注的场景,可见在婚礼、旅行和开车等场景上,T4用户的讨论占比远高于T0用户,而反观逛街、学生和办公通勤则在T0用户的讨论中占有更大比例。对于不同的人群,品牌商可以根据自己的定位主动迎合某些人群更关心的场景以及产品点。
品牌与定价策略
使用电商平台上的用户数据,让品牌商有机会近距离接触竞争对手的品牌定位与定价策略。图14展示了行业内四家主要集团旗下销量前五品牌所拥有的商品个数,可见除集团B的主品牌一家独大之外,其他三个集团在主品牌之后也有数个产品量级相似的子品牌。
图15展示了各品牌实际贡献的销量,与图14结合来看,集团A各品牌的产品数和销量是完全成比例的;集团B的主品牌依旧贡献了绝大多数销量;而在集团C中,各品牌的产品数相似,销量贡献却主要来自一个主品牌,从一个侧面也反映了集团C的多品牌策略开展得并不成功。
想想以前咨询公司要拿到竞争对手的数据,可真是难于上青天。
即使是十分成功的品牌,有时候对自己的目标人群和市场定位也会出现偏差。图16、17展示了各集团在各个价格区间内的产品数以及产品销量,值得关注的是集团C,在200-400元档安排了大量的产品个数,却没有卖出最多的销量。反而是产品数更少的400-600元档产生了最多的销量。可以看得出集团C把自己定位在了一个价格亲民的位置上,没想到它的粉丝们却青睐品牌里更加奢侈的商品。
口碑监控与情感分析
当前国内的舆情监控技术发展并非想象当中成熟,我们发现甚至找一个中文行业分词包和情感包都很困难,只能自己搭建。我们选择了关键词+依存文法的方式做语义提取和情感分析。这种基于规则和机器学习混合的分析方式,和直接训练分类器(SVM或是神经网络)进行正负语义判断相比,优势在于除了可以分析语义的正反面之外,还能提取讨论的主体以及修饰主体的词语,用来进行更深层的客户研究。
图18展示了4个集团正面评价。集团B仍旧特点鲜明,以低价捕获消费者的心,而集团C在客服方面收到的好评明显少于其他三个集团。
图19是负面指标的时间序列,可见平时大家的各项吐槽相对平稳。到了“双十一”期间负面评论的出现发生了急剧增加,以物流、客服为首,抱怨的声音最大,而包装破损和色差褪色只是稍有上升。
结语
数字化时代,消费品企业使用内部产生以及外部采集的数据,像互联网公司一样建立用户画像与会员体系,以数据驱动的方式进行精细化的生产、运营和销售,这样的需求早已超出了依靠大脑和Excel表格的传统管理咨询行业的能力范围。数据技术就如同《魔戒》水晶球Palantiri,赋予了人类及精灵看到任何地方的能力;而无论视力多么了的的人类,至多看到目力所及的有限范围。
如今几乎所有行业都在谈论“大数据”,曾经位于整个打工界顶层的高端服务业(一般包括投行、咨询、会计和律所等行业),又会怎么面对?大家的节奏基本都是:说得多动得少。其中最为尴尬的莫过于管理咨询。当管理咨询公司勤勤恳恳地为客户规划“大数据战略”时,客户会不会问一句:你的大数据战略呢?
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,后文提及的支持度、置信度和增益都是Apriori的核心概念。Apriori算法已经被广泛的应用到商业、网络安全等各个领域。
[2] K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
[3] 层次分析法(Analytic Hierarchy Process,简称AHP)由美国运筹学家、匹兹堡大学T. L. Saaty教授在20世纪70年代初期提出,是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将一层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。
来源:上海交大巴黎高科评论
作者:任栋霓&何明科
任栋霓,一面网络联合创始人。香港科技大学计算机科学本科、硕士、博士毕业。曾就职于腾讯(腾讯视频)、日本国立情报学研究所(东京)。曾在华为诺亚方舟研究院(香港)从事移动大数据(MBB)系统研究与开发。并曾就职于快播技术架构组,从事图像/人脸识别和搜索技术的研究与产品开发。
何明科,一面网络联合创始人、CEO。毕业于清华大学汽车工程系获工学学士学位,就读于斯坦福大学商学院获MBA学位。曾担任58同城集团高级副总裁、软银赛富副总裁。一面网络成立于2014年,是一家从事数据沉淀、处理、整合、理解以及可视化工作的公司。
责任编辑:陈近梅