东方明珠胡俊:「东方明珠数据中台」四年发展历史全解
在以“矩·变”为主题的 2019 神策数据驱动大会现场, 东方明珠新媒体资深研发总监胡俊 发表了名为《东方明珠数据中台》的主题演讲。 以下内容根据其现场演讲整理所得。
本文将为你重点介绍:
-
前奏: 广电大数据背景及数字化转型解读
-
演进: 东方明珠数据中台演进全解
-
总结: 数据中台建设七大成功经验
一、前奏:广电大数据背景及数字化转型解读
1.广电大数据背景
东方明珠作为综合文化传媒集团,迎合新媒体转型的浪潮,一直在积极构建自己的“文娱+”生态圈。 其作为中国最大的多渠道视频集成与分发平台,旗下有百视通,且是 3 大电信运营商的业务支撑中心,整个业务体系遍及全国 28 个省市,拥有国内领先的多渠道视频集成与分发平台及丰富的文化娱乐消费资源,为用户提供丰富多元、特色鲜明的视频内容服务及一流的视频购物、文旅消费、影视剧及游戏等文娱产品,是上海广播电视台、上海文化广播影视集团有限公司(SMG)旗下统一的产业平台和资本平台。
2015 年,东方明珠新媒体股份有限公司成立,这是我国第一家产业链一体化布局的传媒文化上市公司,集团分设四大事业群,包括媒体网络事业群、影视互娱事业群、视频购物事业群、文旅消费事业群。
基于广泛的的产业和业务,东方明珠目前拥有上亿的用户规模,是数据生产规模极大与数据活跃程度极高的领域,具有典型的大数据应用潜质。 但过去也一直存在 “有信息,难验证”、“有覆盖,难掌握”、“有流量,难变现” 等显著问题。 为配合公司顶层战略,研究院在 2016 年建立数据项目组,并启动数据中台建设。
2.传统分析之殇
在建设数据中台的过程中,传统数据分析存在的较多弊端逐渐显现,主要可概括为如下 6 个:
-
数据孤岛仍然林立即使在若干个数据仓库项目实施后;
-
基于数据仓库的数据分析请求很难被高效响应,比如,企业或业务方提出的需求,一般排期需等待 2-3 周;
-
高级的数据分析工具往往掌握在少数专业的人手中,比如基本上国有企业的业务人员不用数据分析工具,只用网页报表查看数据;
-
数据口径不一致,即企业的数据分布在各个系统,并未做好主数据与元数据的管理,如市场部门与销售部门对销售额的定义出现不一致;
-
主数据、元数据是永远的痛,即企业数据质量不高,无法支撑精细化分析;
-
数据离智慧运营仍隔着千山万水。
3.数字化转型节奏
我认为,数字化转型可粗略分为四个节奏:
-
信息化与互联网化的基础,即企业优先 IT 化;
-
数据资产平台与数据仓库的广泛建立;
-
数据中台的搭建,数据服务化;
-
数据支撑与数据创新体系。
以上也可以看作是传统企业做数字化、大数据、数据中台等的一些基础节奏。
4.智慧广电愿景
智慧广电愿景主要分为两部分:
第一步,公司亟需打造一个完整的大数据平台,归集核心业务的用户信息和经营数据,深挖数据价值,提供丰富的数据资产与数据产品服务,实现用户精细化经营;
第二步,基于广电行业的共同目标——智慧广电,我们计划做智能化的内容制作、分发传播、用户服务、科技创新、生态建设、运行管理等具备广电特色的创新。 如下图是东方明珠新媒体集团的业态分布,其中“用户价值”“业务赋能”“会员体系”是举措的关键所在。
5.数据中台价值主张
我认为,数据中台价值主张的两个关键是: 业务数据化+数据业务化。 此外,大数据具有催生大创新的潜在能量亟待挖掘。
二、演进: 东方明珠数据中台演进全解
东方明珠数据中台建设至今,走出了自主、创新、可控的建设之路。 对大数据相关建设项目进行集中指挥、统筹调度、资源共享,分阶段分批进行落地处理,每个阶段融入一部分关键业务,产出阶段性成果,再进行其他业务和平台整合。 大致经历了如下三个阶段:
1.初探期: 数据中台 1.0
(2016.9~2017.6)
(1)痛点阶段
在初探期,我们梳理了存在的 3 个主要痛点: 第一,没有统一门户; 第二,无法准确掌握各业务用户增长情况; 第三,对用户群体特征缺少了解。
(2)立意阶段
明确痛点后,在初探期我们设定的主要目标是搭建“数据中台雏形”,在这里强调一点,在初探期一定要进行数据中台价值的快速验证,否则效果将大幅下降,特别是在国有企业的公司立项、审批实施、结尾汇报等相关环节大概需要 6-9 个月的背景下,可用于实践的时间非常有限。
(3)成果阶段
该阶段数据中台雏形初现。 平台门户上线,归集了百视通 APP 和东方购物 APP 两大核心业务移动客户端的用户基础信息,并引入第三方用户标签数据,形成业务线客群画像。
最终,我在总裁会上汇报初探期的成果时,获得了在场的 12 位高层的认可,且效果超过他们的预期。 值得一提的是在这个过程中,整个建设团队是从我 1 个人开始到结束时的 4 个人,取得该成绩已经很不错,虽然采用的是引入第三方用户标签数据的方式,但这实现了数据中台价值的快速验证,为后期的推进与建设打下了坚实基础。
(4)收益
如下图,为初探期的产品技术架构:
可以看到,在初探期我们实现了数据中台的雏形搭建,在这个过程中,我们取得了如下收益:
-
统一用户数据门户,帮助业务人员树立数据门户概念,为后期应用打下基础;
-
跨业务域用户发展指标看板
-
用户通过手机号关联打通、全域特征刻画
总体上,在该阶段我们建造了数据中台 1.0,并实现了价值验证的目标。
2.升华期: 数据中台 2.0
(2017.7~2018.6)
(1)痛点
在升华期,我们确立了两大痛点: 其一,数据覆盖不够深、不够广; 其二,第三方用户画像不够贴合自有业务运营需要。 这里强调一点,企业必须整合自身的业务数据,建立专属用户画像,只有当需要的数据自身业务无法获取时,再考虑引入第三方数据。
(2)立意
该阶段的重点目标是集中建设数据资产,实现“业务数据化”。
(3)成果
全面归集百视通 IPTV/ OTT / APP、东方购物全终端平台、游戏群、会员中心的全量用户数据,搭建业务数据仓库,提供丰富的 BI 业务运营分析报表,并基于自有业务一手数据生产更贴合业务运营需求的用户画像标签,可通过短信营销平台等触手进行个性化营销投放。 如下图右边相比初探期进行了美观度和丰富度的双升级。
以百视通视频业务为例,数据中台提供的报表有效支撑了业务智慧运营,除了基础分析指标外,还根据行业发展趋势深化了一些列主题式分析洞察。 在内容为王的发展趋势下,运营分析在内容收视分析基础上引入版权信息,深入洞察 IP 整体市场收益,支撑业务版权分账模式; 补充外部数据源,如工信部提供的宽带用户数、IPTV/OTT 全体用户数,结合百视通自有业务的活跃用户数,分析市场占有率与用户渗透率; 模拟整个内容生命周期或用户生命周期的管理流程,将数据指标从页面访问、节目收视、按钮点击延展到增值订购与复购,形成多级转化漏斗及订购归因分析,指导产品与内容运营的不断优化迭代。 另外还为 BAPP 移动客户端提供 APP 埋点分析服务。
针对东方购物业务,除了基础的用户、商品、定购分析外,还补充了 IPTV 电视购物直播频道的收视数据以及 24 小时分片流量,将用户分析的起点从电话呼入定购环节提前至节目播出观看环节,为流量转化漏斗提供更丰富的信息与洞察。
此外,在升华期进行了产品技术架构的二次升级,如下图
(4)收益
在升华期,我们取得了如下收益:
-
基于统一的数据仓库,支撑集团业务数据的“管”与“建”,固定报表系统提供各类分析主题的报表块合计超 500 个,同时支持大屏和移动端以适应各类使用场景。 在线服务用户数逾 500 人,为公司各项运营分析与业务结算等活动提供有效数据支撑。
-
数据中台建成用户画像系统,聚合交易+交互+外部三重数据,自建用户画像分析平台,已加工用户收视类标签 195 个、购物类标签 66 个,并封装接口服务给到业务线灵活调用,支持产品内容受众分析、广告精准营销、个性化推荐、营销短信定向推送等多种应用场景,实现用户精细化运营,并通过投放反馈效果跟踪,形成闭环的画像迭代与运营使用。
3、质变期: 数据中台 3.0
(2018.7~2019.8)
(1)痛点
在质变期的核心痛点,如下:
其一,我们发现过去的数据多用于离线分析,这将涉及成本、人力问题,同时也并未直接在线服务于智慧运营,应用场景局限,数据的再生产力无法充分体现;
其二,针对内容分析、用户画像、智能推荐等数据应用场景,精准的内容标签至关重要,但是 CMS 内容元数据的质量不够理想。
(2)立意
基于以上痛点,在质变期,我们将重点放在全面提升数据面向业务的服务能力,进一步实现“数据业务化”。
(3) 成果
该阶段的成果主要为搭建融合标签库服务、智能推荐等服务,并有机整合数据中台的各个产品模块,譬如将用户行为、视频标签、用户画像等数据深度应用于推荐服务,直接服务于面向终端用户的业务场景,形成数据收集、加工、应用、反馈的全闭环。
下面具体展开介绍,融合标签库服务系统和智能推荐服务系统。
其一,融合标签库服务系统,在数据中台建设的逐步深入中,我们发现目前的内容标签相对较匮乏,并未与互联网接轨,事实上,在视频制作和播出的领域中,标注数据也称为媒资元数据或媒资标签,即对节目、艺人、制作公司等加以描述的信息进行数字化和结构化存储、关联和展示。 这些信息散落在网络上、企业业务平台上、编辑们的电脑里,并且随着行业的发展变化快速地更新、演化着。 网络上比较著名的娱乐行业数据库有豆瓣、时光网、猫眼等。 但从标签使用者角度来看,每个数据来源都有些片面,视频运营企业根据自己的需要其实都在建立自己的标签库,作为视频基础服务与更多 AI 智能服务提供基础数据支撑。
因此,我们在行业词库、多源采集、应用场景、技术架构、服务输出、租户机等方面做了全方位建设升级,如下图:
数据中台建成融合标签库服务,作为国内广电企业第一家大规模和标准化的视频内容标注系统和标准,通过网络爬虫、数据交换、人工录入等多种方式,采集并整合了欢网、豆瓣、猫眼、艺恩等多源数据,并通过知识图谱、自然语义分析等技术,对采集的信息进行结构化存储,建立娱乐行业的行业词库及语义关系。 内容覆盖点播节目 50 万条、艺人 40 万条、直播频道 100 余个、直播节目(与点播节目关联)、舆情数据等,标签类型超过 100 余种。 管理后台可通过标签树等灵活管理手段,实现视频节目、艺人、制作商、发行商、电视直播节目单、行业奖项等多种实体标签信息的汇聚、关联、整合、审核、统一标准与快速更新。
融合标签库数据可直接服务于东方明珠版权采购、媒资生产、内容编辑、前端展示、AI 智能应用如智能推荐等业务板块,并可通过受控的开放接口和 WEB 页面向公司以外的企业提供数据服务,为视频运营企业尤其是广电行业内的播出渠道聚焦数据、降低数据搜索成本。
其二,数据中台建成智能推荐系统,作为一套完善的平台架构,采用业内最前沿的人工智能 AI 推荐算法和技术架构,拥有数据采集、数据传输、数据预处理、数据建模、推荐引擎、实验分流、推荐模型训练与效果评估,并持续迭代优化的能力。 该系统的建立非常感谢神策数据团队的助力,如下图是神策数据智能推荐系统模型大体框架,其支持基于用户行为数据、内容画像、用户画像的多样化个性化推荐方式,以及多种先进的算法、多源数据应用、人工干预等。
2018 年下半年至今,智能推荐系统已先后在上海电信、上海移动、福建电信、江西电信和新疆电信等驻地上线,支持 EPG7.0 等多个版本,每日处理亿级数据,服务百万级用户,每日提供千万次请求,智能推荐内容的点击率为人工编排的 3~6 倍、对推荐内容的人均浏览次数提升了 1.9 倍。 智能推荐系统在激活长尾内容收视的同时,极大提升了用户黏性,促进增值产品订购转化,并可直接替代或者辅助人工编排决策,实现运营降本增效。
质变期的产品技术架构同步进行了再次升级:
相比升华期,在数据产品端新增 Tableau; 在数据服务层,新增智能推荐服务; 在数据资产层,新增内容标签、舆情热点等功能。 在这个过程中,与神策数据在神策分析的基础上,新增神策智能推荐合作,实现了双赢。 (详情可看: 一文解读神策智能推荐 )
(4)收益
在质变期,我们取得了如下收益:
-
智能推荐系统已先后在全国多个驻地运营商上线,每日处理亿级数据、服务百万级用户,CTR 点击率为人工编排的 3~6 倍、对推荐内容的人均浏览次数提升了 1.9 倍。 在降低人工编排成本的同时,极大提升了用户黏性,促进增值产品订购转化,实现运营降本增效。
-
内容标签库已向内容中台提供服务,并通过租户系统向电信运营商输出。 标签数据综合应用于版权采购、媒资编目、内容精细化分析、智能推荐等应用场景。
以上分享的东方明珠数据中台演变的三个阶段,可概括为如下进化轴:
在这个过程中,数据中台功能模块的新增与升级也是东方明珠数据中台建造历程图谱,如下图,灰色模块代表我们未来的发力点。
在建造过程中核心技术的选择起着关键作用,我认为企业可以尝试一定的托管服务方式,以提高开发效率。
此外,数据中台的建设,依托于自建 DevOps 研发一体化平台。 通过对东方明珠新媒体研发团队多年来的研发工作流和经验总结和抽象,DevOps 平台通过搭建项目管理、知识管理、代码托管、流水线管理、持续构建、制品管理、自动化测试、自动化部署、日志收集、监控报警这 10 个系统,形成了从软件设计、到编码开发、到测试上线、到监控运维的完整生命周期管理平台,有效支撑智慧广电背景下的软件研发项目既“稳”又“敏”的“双态”要求。
另外,强调一点作为甲方一定要选所需比选全重要,有时候购买一套完整的解决方案可能 80% 的功能并未起作用,且很难更换,因此在建数据中台 DevOps 平台时,所有模块均由我自己挑选并自由组合建成。
三、思考:数据中台建设七大成功经验
总体上,东方明珠数据中台建设已取得一定程度的成功,目前已真正做到赋能业务,并赢得了业务方和管理层的双重肯定,我总结了建设过程中的 7 个成功经验,供大家参考:
1.成立战略专项小组
东方明珠是党委书记和总裁亲自上阵,分别任组长和副组长,且各业务部门牵头的都是集团副总,从上而下贯彻践行大数据战略。 这与神策 2018 数据驱动大会上神策数据创始人&桑文锋分享的一个观点吻合,数据项目成功有三个关键要素: 第一,一把手必须支持你; 第二,业务要做相应的数据主架构调整,比如分配专门的数据专员配合IT区域做数据项目; 第三,IT 能力建设,这三个缺一不可,数据项目一定是和业务紧密耦合的项目。
2.数据需求汇总管理
大数据相关需求,全部汇总到总部数据研发小组,不再进行独立小数仓和报表系统的研发; 规范和严格元数据管理、数据质量管理,实现统一管理、统一发布、统一运营。
3.分步走、阶段性项目推进机制
做数据项目需要一步一步让业务和管理层深入进来,坐上一艘船,我在初探期做的数据中台价值快速验证便是为此打基础。 将大数据相关建设项目,实现集中指挥、统筹调度、资源共享,分阶段分批落地、每个阶段融入一部分关键业务,产出阶段性成果,再进行其他业务和平台整合。
4.充分拥抱开源系统
在选型时,企业需整体考量业务规模有多大,具体需求如何,以此匹配真正适合自身的开源系统体系。 目前传统商业软件无法满足东方明珠这个体量和业务复杂度的大数据需求,并且广电行业对自主可控、数据保护、安全隐私要求较高。 数据平台基于 hadoop 的开源大数据生态,在核心技术方面坚持以自主研发为主。
5. 沙堆模型落地 DevOps
关于 DevOps,需考虑分布式验证 DevOps 体系,采用“沙堆模型”在多个业务线开展 DevOps 的工具链落地,加速研发流程,逐步迁移、持续部署、持续集成,这对企业未来整个数据平台体系建设起到极大的作用。
6.构建大数据生态合作体系
企业要和供应商实现共赢,筛选适合东方明珠大数据发展体系的生态合作伙伴,如公有云服务商、用户行为分析和智能应用解决方案服务商等,这些服务商在整个中国的大数据生态圈里,都扮演着举足轻重的角色。
7.打造开放平台、支持对外能力输出
经过支持自有业务发展的实战历练,持续沉淀技术,建立标准,打造标准化产品服务的开放能力,未来可以同业提供技术服务输出,探索更多的数据业务合作模式,让知识成果可以服务于整个行业与社会。
伴随着数据中台建设的成功,我们也获得了一些殊荣的肯定,下图是我们近期获得的部分荣誉:
另外分享下管理团队的心得,我有一个原则——团队需要不断的成长,而且团队内部要不断地分享、交流、学习,比如我的团队每两周会组织个人向整个团队介绍技术体系的分享会,下图为我们团队的荣誉证书:
未来四年,我们将聚焦开放平台、数据智能、双云支持三个关键方向,迎接已经到来的数据中台 4.0。
以上是我今天的全部分享,另外我准备的三个彩蛋,包含东方明珠整个技术架构体系建设的详细介绍, 可在神策数据公众号回复“彩蛋”获取。