在线教育大数据营销平台实战（一）：大数据平台构建实战

人人都是产品经理 • 4年前扫码分享

编辑导读：企业每天生产众多的数据，这些数据要经过分析才能对业务、运营等产生价值。而大数据平台就是了满足企业对于数据的各种要求而产生的。如何构建一个大数据平台，取决于企业的数据化程度和面临的数据问题。本文作者将以在线教育为例，分析如何从0到1构建大数据平台，与你分享。

第一篇文章，按照惯例先做个自我介绍。本人目前在一家在线教育公司担任大数据营销产品负责人，由于一些机缘巧合，我同时负责了数据产品线和营销CRM产品线，因此给了我更多的机会去思考和实践如何把数据与营销业务深入融合，将大数据的势能赋予营销平台，从而实现业务的精细化运营和数据驱动。

接下来，针对在线教育业务场景下的大数据营销平台实战，我会用一个系列的文章进行系统化阐述。文章可能会涉及：大数据平台搭建、用户画像服务体系、CRM线索动态评分模型及分配算法、数据产品实施推广方案、客户数据中台（CDP）等多个方向。

本篇主要来讲解如何从0到1构建在线教育业务场景下的大数据平台。

一、企业数据问题诊断

产品是为了满足需求，是否需要构建大数据平台？以及构建什么样的大数据平台？取决于企业的数据化程度和面临的数据问题。因此在构建大数据平台之前，需要进行充分地调研，找准问题才能对症下药。对企业数据化程度的评估方法，可以参考下图所示的数据管理能力成熟度模型(DMM)。

在线教育大数据营销平台实战（一）：大数据平台构建实战

通过前期的调研和分析，我们公司当时处于L2等级，面临的主要数据问题如下：

1）数据源分散

不利于多数据源之间关联分析
不利于数据资产价值的进一步挖掘
数据孤岛严重
无统一数据平台、数据资源得不到汇总沉淀，数据无法高效支撑业务

2）数据指标不统一

不同业务部门分而治之
准确性、权威性受到质疑
不利于公司各业务部门KPI考核
指标统计口径需要标准化

3）数据分析效率低

各业务部门占用部分精力数据分析工作
对于数据的需求往往需要从原始数据开始
对数据分析师的支撑不够
无成型完整的数据分析工具

4）数据管理问题

无统一数据字典
缺少数据地图
无元数据管理

二、大数据平台业务架构及Road Map

上一部分已经对企业内部数据问题进行了全面诊断和问题剖析，接下来我们针对这些问题给出解决的架构方案和路线图。

1. 数据服务体系蓝图

从业务视角给出了如下的数据服务体系蓝图，数据服务体系的规划需要满足三点：数据服务体系需要覆盖完整的公司业务、贯穿业务的各个阶段、伴随企业发展。

在线教育大数据营销平台实战（一）：大数据平台构建实战

在此数据服务体系中，处于核心环节的是数据整体建模和数据资产管理，也就是我们熟悉的统一化数仓建设。结合在线教育业务特点，数仓建设需要满足三个核心数据体系建设：

用户数据体系：用户分析应用、用户标签、用户行为数据，用户基本信息主数据等；
营销数据体系：营销分析应用、营销分层标签、渠道特征数据、营收转化相关的主数据等；
学习数据体系：学习分析应用、学习偏好标签、学习行为数据、学习素材基础数据等。

2. 数据仓库架构

数据仓库的层次划分采用业界通用的层级划分方式，包括：ODS、DWD、DWS、ADS层，如下图所示：

1）ODS层

数据同步：结构化数据增量或全量同步到数据仓库；
结构化：非结构化(日志)结构化处理并存储到数据仓库；
累积历史、清洗：根据数据业务需求及稽核和审计要求保存历史数据、数据清洗；

2）CDM层

组合相关和相似数据：采用明细宽表，复用关联计算，减少数据扫描。
公共指标统一加工：基于OneData体系构建命名规范、口径一致和算法统一的统计指标；建立逻辑汇总宽表。
建立一致性维度：建立一致的数据分析维表，降低数据计算口径不统一的风险。

3）ADS层

个性化指标加工：不公用性、复杂性（指数型、比值型、排名型等）
基于应用的数据组装：大宽表集市、横表转纵表、趋势指标串。

3. 数据处理流程架构

数据处理流程主要包括源数据同步清洗、数据处理加工、模型运算和数据应用。基于在线在线教育公司的业务特点，源数据主要包括：渠道数据、用户数据、交易数据、营销过程数据、学习数据、外部第三方数据等。

模型引擎包括离线计算引擎和实时计算引擎两类，需要满足算法（或规则）部署、模型训练和上线、以及对其他业务系统提供接口服务的能力，比如为CRM系统提供多算法的线索实时分配、用户画像分层等服务。在数据的汇聚、加工生产、应用的全流程中，全生命周期的数据治理不能忽视，因为数据的准确定、完整性、一致性直接影响业务对数据系统的可信度。