“不是所有可以计算的东西都有价值,也不是所有有价值的东西都能被计算。”
最近,关键数据的概念引起了数据管理专业人士的关注。我自己也不例外,所以我决定深入研究这个主题并做一些研究。
我的意思是,并非所有数据都需要主动管理、监控和控制 。事实上,这样做会使数据治理成为人们实际开展日常活动的负担或障碍。这绝不是数据治理的重点。 我相信数据治理的重点是识别最重要的数据,并根据数据对贵公司的价值按比例管理这些数据 。
我在保险业工作时第一次接触到这个概念。他们的规定之一是偿付能力。它主要处理保险公司的资本充足率,但同时要求对资本充足率计算中使用的所有数据进行数据治理。然而,监管者意识到一个非常重要的点,在这些相当复杂的计算中,一些数据非常重要,而其他数据只是为了上下文。现在,如果后面的数据是错误的或缺失的,那么它对最终计算的影响要么没有,要么可以忽略不计。因此,监管机构表示,他们不希望对这些数据实施相同级别的数据治理,而不是真正重要的数据,实际上会导致计算出严重错误的数字。
当我开始尝试为我合作的第一家保险公司解决这个问题时,这对我来说很有意义。我很快意识到, 将精力集中在最重要的数据上是数据治理的正确做法。 从那时起,我鼓励每一位客户,无论他们在哪个行业经营,都采用这种方法。
我们可以为这种方法起一个名字—— 关键数据管理,即它是关于识别最重要的数据并适当地管理它。 但是,请注意,将其称为“材料数据”可能不适合。事实上,我的一位制造客户毫不含糊地告诉我,如果您的公司使用材料来制造某些东西,那么“物质”这个术语绝对不起作用,因为材料数据在这种情况下完全意味着其他东西!
识别关键或重要数据是一种非常明智和务实的方法,但不一定是一种简单的方法 。您需要为每个关键级别的含义定义一些标准,以便数据所有者可以根据标准评估他们拥有的数据并决定它是否重要。
还有一个有趣的问题是您需要制定多少级别的关键性?
我通常的做法是三个级别:
高关键性或高重要性数据是对您的业务最有价值的数据,如果质量差,则会产生最大的负面影响。
中关键性或中等重要性是重要的数据,但如果质量较差,则不会产生如此大的影响。
非关键或非重要数据是有用的数据,可能会增加上下文,但如果质量不是最好的,也不会造成很大的问题。
多年来,一些客户倾向于只选择两个关键级别,即关键或不关键。但这感觉有点像全有或全无的方法。数据要么有大量的控制、标准、数据质量监控和报告,要么什么都没有。
一位客户要求我实施五个级别的重要性。老实说,我真的很难区分将在五个类别中应用的不同级别的数据治理,最终,我将其合理化为三个。
无论你怎么称呼它,无论你决定多少层级都适合你的组织,我真的鼓励你在你的数据治理计划中尝试这种方法。你真的不能完美地管理所有数据。那么,为什么不识别对您的组织最重要的数据并进行适当的管理呢。
一 关键数据的概念
数字时代的特点是各种数据的大量存在。组织拥有大量的数据实体和数据,这些数据实体和数据与不同的主题领域相关,如客户、产品、资产、金融等,并且与之对应的数据量也很大。数据量每天都在增长,低成本高容量存储的可用性可以存储所有这些数据。
对于大量的数据和存储在存储库中的大量数据,以及在组织的数据管道中流动的大量数据,重要的是要对关键数据进行优先级排序,并管理这些关键数据的质量 。这就是关键数据概念的来源。
…关键数据的定义;
…使用关键数据和关键数据元素的原因;
…关键数据和关键数据元素在实际实施中的主要挑战。
作为研究的起点,我查阅数据管理指南和立法文件,以了解他们对关键数据的看法。
关键数据的概念已经出现在 DAMA International 的第二版 DAMA-DMBOK (DAMA-DMBOK 2) 中与数据质量知识领域相关的主题中。DAMA-DMBOK2 仅提供关键数据的一般特征。
关键数据由其用途指定,即“监管报告、财务报告、业务政策、持续运营、业务战略” 。DAMA-DMBOK2 还强调“关键性的具体驱动因素因行业而异” 。
巴塞尔银行监管委员会的标准编号 239中也引入了关键数据概念:“有效风险数据汇总和风险报告的原则”(BCBS 239 或 PERDARR)。BCBS239 在以下情况下谈论关键数据:
“对银行管理其面临的风险至关重要的数据”
“对风险数据聚合和 IT 基础设施计划至关重要的数据”
'汇总信息以做出有关风险的关键决策'
在查阅了这些指南和法规后,我得出结论,关键数据的概念尚未在各种来源中定义或统一。出于本文的目的,我们可能会记住以下两点:
•关键性标准应根据不同的公司制定。
现在让我们谈谈实现关键数据素概念的商业价值。
简而言之,关键数据是指如果数据质量在一个或多个数据质量维度上没有达到标准,则会产生直接或间接财务影响的数据 (Mahanti 2019)。
在本文中,我们将讨论一些关于数据、数据质量、关键数据质量的重要性以及数据对业务的影响的关键概念。
二 相关的数据概念
在我们继续之前,让我解释一些与数据相关的术语。
数据实体 是收集数据的真实世界的对象、概念、事件和现象。
数据 是描述数据实体的不同属性。
因此,数据实体充当容器,由描述它的所有数据组成。
试想一下有很多产品的超市:肥皂、牛奶、黄油、洗涤剂等等。“产品”是表示商店中产品的数据实体,数据可能是产品类型,例如食品、奶制品和清洁产品,产品ID、产品名称、产品描述、生产日期、过期日期等等,在相关的数据结构中存储不同产品的属性值,例如关系表。
另一个术语是“ 数据质量维度 ”。这是指定义数据质量的特征。引用我们示例中的“产品”,这将涉及产品数据实体的每个记录中每个数据的有用值的存在,例如 数据的及时可用性、数据的准确性、重复值等等 。质量维度提供了对数据质量的洞察。
三 数据质量
如果数据适合其预期用途,则被认为是高质量的。换句话说, 数据质量可以定义为对这些数据在给定上下文中是否服务于某个目的的评估。 虽然数据质量是一个整体的抽象概念,不能测量数据质量本身,但它有几个维度或方面可以测量。这些可测量的方面被称为数据质量维度。数据质量维度的一些例子包括完整性(即值是否存在)、唯一性(与实体相关的数据不重复的程度)、准确性(数据值与现实的接近程度)、有效性(数据值是否符合标准)和及时性(数据是否及时可用,以便满足业务需求)。
在前面提到的产品示例中,如果我们的目的是跟踪商店中特定产品的总可用数量,那么产品的产品号、过期日期(在适用的情况下)和可用的数量可能是使用该产品的必要数据,并且需要是准确和完整的。
过期日期可能不适用于所有产品。例如,食品、乳制品和化妆品需要有一个保质期。但是,像餐具、存储容器和器皿这样的产品没有过期日期,因此这些产品的数据将没有过期日期值。产品描述中过期日期不是必要的数据。
数据质量维度的可用数据可能是数据更新的频率。如果这些数据是实时更新的,那将是非常有用的,从而得到高质量的数据。
四 哪些数据是关键的
考虑到组织存储的数据数量庞大,确保组织所有数据的质量是一项昂贵且资源密集型的工作,不建议这样做。这是因为并非所有数据都是关键的。
数据的价值是不一样的,因此不具有同等的重要性。有些数据是关键的,组织必须确保它们是高质量的,并且符合预期的用途 。有些数据是适度关键的。另一方面,一些数据可能没有任何价值,评估它们的质量是浪费时间、金钱和精力。
例如,许多数据值是出于可疑的原因捕获和存储的,比如作为购买的数据模型的一部分,或者从数据迁移项目中保留下来,但是它们可能不是实现任何业务目标所必需的。评估此类数据的质量是浪费时间和精力(Mahanti 2019)。
考虑数据剖析活动涉及到测量对公司的直接营销活动数据的质量要求。这里需要回答的问题是,执行直接营销活动需要什么数据?它本质上需要客户联系数据,比如姓名、地址、电子邮件地址等等。应该选择包含客户联系数据的正确数据源和正确的数据(包含客户姓名、地址、电子邮件地址的字段)。然而,那些记录评论和职位头衔的字段是客户联系数据的一部分,但对于市场活动的目的没有商业价值,不需要特别考虑(Mahanti, 2015)
五 识别关键数据
关键数据可以定义为企业关键业务功能或流程的数据,如果数据质量在一个或多个数据质量维度上没有达到标准,则会导致客户不满、带来合规风险或产生直接的财务影响 (Mahanti 2019)。
客户不满和监管影响会对财务产生不利影响。例如,不遵守规定可能会导致企业支付罚款。心怀不满的顾客可能会把生意转到别处,造成收入损失。一般来说,财务影响可能包括处罚成本、失去的机会成本、费用增加或收入和利润减少。因此,可以使用与数据、数据组或数据实体有关的不同数据质量维度的成本来确定临界度(Mahanti 2019)。
例如,在大多数以客户为中心的组织(如金融服务、电信、公用事业或零售公司)中,不准确的名称和地址数据可能会导致巨大的邮件成本。因此,对他们来说,地址数据非常重要。
理解关键数据实体和数据的一种方法是考虑依赖于数据质量的重要企业业务,并映射数据依赖关系,即获取每个业务的信息所需的关键数据实体和相关数据。 对一项企业业务至关重要的数据可能对另一项企业业务并不重要。
例如,零售公司的企业关键活动可能包括销售报告和消费者行为趋势报告。虽然客户年龄、年收入和职业可能是消费者行为趋势报告的关键数据,但它们不是销售报告的关键数据。
另一方面,有些数据可能对大多数企业业务至关重要。企业业务可能因行业部门或业务类型而异。以下因素可用于确定数据的临界度:
•使用数据的业务单位、部门、团队或业务用户的数量
除此之外,某些数据和信息非常敏感,从数据隐私和安全的角度来说可以被归类为重要信息。名誉损害、诉讼费用和罚款是敏感数据被盗的一些影响。
敏感数据的例子包括社会安全号码、借记卡号码、信用卡号码、安全PIN号码、密码和护照号码。有时,单独的数据可能不被认为敏感,但在一组数据中就会变得敏感。个人可识别信息就是这种情况的一个例子(Mahanti 2019)。