在数据应用过程中,数据采集和数据治理是两大核心抓手。
本文继《方法论 + 实践,全面解析数据采集方案》之后,
作者王灼洲通过两大挑战、三大原则详细阐述了对于企业数据治理的思考。
主要内容如下:
在讨论数据治理之前,我们需要对于数据治理下一个明确的定义,数据治理到底包括了哪些范畴。从我们的视角来讲,数据治理,是指
“组织对数据的可用性、完整性和安全性的整体管理”。
-
数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;
-
数据的完整性,是指我们收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;
-
数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。
数据治理的核心,就是帮助我们可以更早、更及时、更高效的发现埋点问题和数据问题,确保后续数据应用的正确性和价值传递。
因此,数据治理的重要性,是毋庸置疑的,
它是所有数据应用的基础和根基,
它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也
是一个组织进行数据资产沉淀的基础,
直接决定一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。
在进行数据治理的过程中,通常会面临两大类挑战。
技术方面带来的挑战,其实比较容易理解,业务越复杂,数据应用越多,需要采集的数据源就会越多,需要处理的数据问题也会越多,自然就会有更大的挑战。
-
数据传输方面的挑战:
比如数据如何通过公网进行可信传输;
-
数据准确性方面的挑战:
如何保证数据不重复、不丢失;
-
时间同一性方面的挑战:
客户端时间不准确时如何处理;
-
兼容性方面的挑战:
不同系统、不同设备之间的兼容性如何处理;
-
性能影响方面的挑战:
在数据采集的过程中,如何最大限度地减少对客户端性能和业务的影响;
-
可测试性方面的挑战:
如何在数据治理开发过程中方便地进行调试和自测。
除此之外,数据治理,或者说数据治理中的采集部分,还会面临用户隐私与安全方面的挑战,包括如何应对 GDPR 和工信部等法规的要求,如何在组织内部对敏感字段进行审核,如何进行数据在不同行、不同列上的权限控制,以及如何在传输和处理过程中对数据进行加密和解密。
针对第一类挑战,我们建议可以使用统一的数据采集和数据导入工具,比如使用专业的数据采集 SDK,可以将多端数据采集工作进行统一化、专业化和标准化,最大限度地降低在数据采集或者导入的过程中,出现问题的各种可能性。
这些挑战主要体现在:关键角色权责不统一;多个部门之间配合不到位;数据治理各个相关角色缺乏共同语言;不同角色的付出与收益脱节;谁来对数据的质量负责等。
要想彻底解决这些挑战是非常难的,这是一个漫长的过程。不过,我们也可以使用一定的技术手段来缓解这些问题。比如,我们可以使用统一的数据模型,像神策的 Event-User-Item 模型,可以在一定程度上解决各个组织架构和部门缺乏共同语言的问题,同时也能缓解跨部门、跨业务带来的一些挑战。
数据治理横跨多个环节,是一场“持久战”,
并不是一蹴而就的事情,它需要我们不断地投入时间和精力,同时也是一个极易出错的过程。因此,在数据治理的各个环节,需要有专业的人员进行咨询、支持、协助和统筹,比如像神策数据的专业分析师等角色,他们是数据治理的专业人员,可以在一定程度上协助客户解决问题。
结合过去五年累计服务 1500+ 家企业客户的经验,我们总结了数据治理的三大原则:
这个原则比较好理解,就像人生病了去医院一样,一般都是因为已经“生病了”才会选择去医院,这个时候不管采用何种治疗方案,都会对我们的身体有一定的伤害,即使康复了,也有可能留下后遗症。因此,我们平时更应该多看“保健医生”,确保我们尽量不要生病,即便无法完全规避,最起码也可以及时发现异常,通过
适当的锻炼增强体质。
一旦数据被污染了,发现、制定方案和清洗均是一个漫长的过程,最终还不一定能达到我们的预期。比如,数据的治理需要伴随 App 发版,但即使我们新版本发出去了,用户也不一定会升级,从而导致部分数据一直被污染。
如果借助数据治理产品,比如神策的 SDG,就可以在数据接入或者数据校验阶段,在产品系统内通过对上报数据的字段设置一定的校验规则,当有数据导入并且校验未通过时,就会在质量看版中进行报警和展示,埋点研发/分析师便可以集中定位/查看/反馈埋点问题。
因此,对于数据治理,不要先污染后治理,而是应该从源头控制。
在我们刚开始进行数据治理时,通常情况下,由于内部的重视,能够在数据治理方面取得较好的成果。但随着业务的持续迭代,数据应用的需求以及系统本身也在不断发生变化,数据治理也需要随之进行不断地更新与调整。在这个阶段,由于对数据治理的重视程度下降、组织架构以及人员变更、流程不稳定、不全面等因素,数据治理的结果一般很难保持在一个较高的基线,反而会越来越差,直至无法满足最终的数据应用需求。
以在线推荐系统为例,如果用于给机器学习训练的 Item 数据流、曝光和点击事件导入有延迟、故障,会直接影响在线服务,比如出现刷不出新条⽬推荐系统 fail 的情况。
数据治理相关的产品,一般都会提供支持自主设置规则的监控能力,比如连续 3 ⼩时每个 Item 数据流上报量⼩于 100 条,当上报量在设置的时间范围内不满足预期时,会自动上报到报警平台并展示。
因此,数据治理的过程要贯穿到整个业务迭代的过程中,业务发生了变更,组织架构发生了变更,数据治理方案和流程也应该随着进行变更。
3.以产品化、组件化的思路来解决,不能只依赖于人工
神策数据提供了标准的数据采集 SDK,将匿名 ID 生成、基础属性采集、数据打包压缩加密、本地缓存、网络传输、时间校准、远程控制等通用功能,都进行了产品化与标准化处理。除此之外,还可以将数据治理过程中通用需求和通用治理方案,以产品化的方式进行沉淀。
数据治理,我把它理解为“纪检委”的角色,不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查;因为没有完美的方案满足业务发展过程中遇到的所有问题,所以我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。
戳图了解《iOS 全埋点解决方案》
作者介绍
王灼洲先生是《Android 全埋点解决方案》《iOS 全埋点解决方案》作者,神策数据治理研发部负责人。有 10+ 年 Android & iOS 相关开发经验,是国内第一批从事 Android 研发工作,开发和维护国内第一个商用的开源 Android & iOS 数据埋点 SDK。
王灼洲先生曾就职于北京天宇朗通通信设备股份有限公司,担任 Android 系统工程师。毕业于北京理工大学,软件工程专业。