聊一聊数据报表/数据分析的【对数】日常
“这数不对”
“为什么A这里的数据和B的数据不一致?”
“为什么平时这个数是C今天变成了D?”
“为什么这么高?”亦或是“为什么这么低?”
——【我的对数日常】
一旦有人对某数据提出质疑,就会开始令所有人崩溃的对数。尤其是经营分析会、月度会议期间,数据团队面临反复且高频的折磨,不同需求方不同角度都等着回答和解释。
(二)对数对数,对的是什么?
2.1 数据比对的场景
-
新旧指标对比,新指标上线替换就应用
-
全新指标上线,证实数据准确
-
同预期不符或数据波动大,进行数据查验
-
应用端数据不一致,维度汇总不一致给出解释
-
数据A和相关数据B不匹配,交叉验证
...
2.2 数据团队的心态
2.3 对数对数,对的是什么
(三) 通用可复制的方法
数据比对是描述性分析,即对数据现状拆解出数据依据。 那么数据比对的过程,就是描述性数据分析的过程,可按以下顺序进行:
-
确认分析的目的和思路 -
数据准备、处理及分析 -
撰写数据结论及报告 下面具体说如何操作,让观点可执行 。
3.1 确认分析的目的和思路
3.1.1 假设验证确认分析思路
3.1.2 数据一致性验证方式
(1)基础认识一致性验证
指标的设计过程:定义、计算公式、统计维度(时间...)、维度含义、属性定义
指标的技术属性:技术方式、数据源、更新时间
-
更新时间天然不同,离线为批处理定时调度任务模式,而实时对数据的时序性有要 求,在某些场景并不能保证与离线同等的一致性。
-
计算逻辑无法对齐,离线逻辑相对复杂,支持补偿逻辑,实时处理却相对比较简单
-
数据源不一致,比如日志在一些场景不能做到完全一致
Example 2: 回款率单位为%,城市结果值求平均并不等于全国数值,也可直接告知业务原因。
(2)正向验证
-
确认是否是业务正常变动,如大促暴涨、广告行业的1&2月淡季周期性异常。
-
交叉维度汇总不一致,数据缺失向上汇总记录的处理方式。
(3)反向验证
-
任务是否正常?数据是否更新?集群崩溃、任务失败、任务超时、源数据系统字段变更...
-
处理过程是否正常?数据漂移、数据发散、数据倾斜...
-
业务口径数据和数据库数据映射是否一致?不同含义指标取相同名字...
3.2 数据准备、处理及分析
3.3 数据结论及报告
-
哪个数据是准确的?是什么造成了数据差异,数据差异的构成和占比 差异是否合理?
-
是否需要进行修正,计划、难点分别是什么
-
(2)结果呈现
-
结果数值比对,差异明细,对照过程及明细
-
呈现饼图 和柱形图足够了,柱形图看差异,饼图看差异构成
(四) 数据人的下一步
4.1 数据质量
GB/T 36344-2018 数据质量评价标准
Example:
-
完整性: 指数据元素和数据记录完成性,例如:字段是否存在空值,指标数据维度是否足够支撑业务分析
-
准确性: 指数据可信度,例如:是否数据正确、格式合规、唯一性、无脏数据
-
一致性: 指相同数据一致性和关联数据一致性,如:相同指标在不同场景下数值是否一致
-
时效性: 指基于时间段的正确性、基于时间点及时性、时序性,例如:实时能否保证1分钟以内延时,离线能否保证每天9点定时更新
GB/T 36344-2018 数据质量评价标准-数据质量评价过程
4.2 数据清洗
-
识别数据问题
-
评估问题及解决方案
-
清洗计划:更正、删除、合并、替换、补齐...
-
数据应用及周期性质量评估清
-
数据问题是业务数据问题,需要多方人员参与,全面的考虑上下游联动影响,包括产生数据的、使用数据的...
-
提升源端质量是根本之法,增加系统界面端和数据库输入的的限制,如某些字段非空校验、数据类型校验、唯一约束等。
-
做好备份!做好备份!做好备份!