一文详解“粒数据”-大数据领域最新研究成果
粒数据,大数据发展的新引擎
——中国大数据技术与应用联盟副理事长赵平生
Q: 进入大数据时代,数据呈现爆发式增长,您从事数据研究多年,对大数据有更加深刻的认识,请您对当下的大数据技术、大数据的体系架构和特点简单阐述一下。
赵平生: 目前,普遍将大数据按常规的结构化数据、半结构化数据和非结构化数据来划分,并按这几种结构对其进行各种处理,如识别、采集、清洗、分类、存储、统计、分析、可视化、人工智能、云计算等,许多的大数据处理平台、大数据交易平台也是按此分类进行各种应用的。这种数据分类的好处是,对现有处理软件不做大的改动,就可以对特定类型的数据进行处理和运算,有些技术比较成熟,研发相对容易。对大数据技术的创新,也基本上是基于以上数据类型。
但是它的不足也十分明显,首先是应用平台及处理软件通用性差,专用的多,造成重复开发和资源浪费。其次,在大数据背景下,数据来源之多、各种数据类型定义千差万别,若想实现大数据特别是政府大数据的开放共享,还有一定难度,目前没有统一的数据标准将其进行规范,这就极大地制约大数据的开放与应用。
我认为,面对由量变到质变的大数据,需要创新出新的算法和技术,以适应数据量的巨大变化。虽然有许多有效的创新,但创新理念、思路及出发点仍然受到这些基本数据的局限,制约了技术上创新点的突破。
文件系统面对的管理和处理对象是各类文件及构成文件的基本要素,如文字、符号、语音、图像、图表、视频等。
数据库系统面对的管理和处理对象是表、视图、记录、字段及其该结构下的各类型数据。
有没有大数据面对的管理和处理对象?我们能否用某种方法将貌似无序、庞杂的大数据在逻辑上划分出层次?我认为只有把这个问题搞清楚了,才能更有效地对其进行管理和处理,更有效地开展对大数据的分析研究,进而带动技术创新。这是 大数据分析 需要迫切解决的问题。
如果说大数据的管理和处理对象,或者说大数据的构成要素是客观存在的,那么也应该存在大数据的体系结构。若这种判断成立,将会有利于大数据技术的创新和应用,有利于大数据技术的普及推广。
划分出大数据体系结构,找到大数据面对的管理与处理对象,是一次创新尝试,这种尝试是十分迫切与重要的。我认为大数据体系可分为三个层次,既汇聚层、基础层和数据层。
Q: 从您的研究理论上,将大数据体系分为汇聚层、基础层和数据层,那么这三层是怎样进行划分的,各有什么特点呢?
赵平生: 我分别介绍一下这三个层次。
第一是汇聚层。汇聚层由若干个数据板块、管理软件、数据发布等构成。
数据板块—— 每一个数据板块由在一个时间段内的具有相关性的多源数据、元数据以及处理软件三要素构成。一个数据板块将区域性、局部性的相关数据汇聚在一起,至少支持并满足一种需求的数据处理、分析及应用。其中元数据就是描述该板块中数据的数据,包括数据的格式、定义、要求、来源、用途等,是为便于对数据进行编程处理与应用而提供的数据接口。处理软件是依据元数据编制的为满足需求而专门设计的应用程序。
管理软件—— 对进入汇聚层的数据板块进行管理,包括入层、退层、板块间数据及应用相关性分析,数据板块提供者对所提供的板块进行修改维护,对数据板块提供者的身份查证(以提高数据可信度和可靠性),对板块的浏览查询等。
数据发布—— 根据需要,将数据板块及该板块的数据来源、能满足的需求、数据的时间段、所带的软件功能、采购价等在网上发布。数据搜寻或拟采购者可以上网查询所需数据及所带软件的功能,以决定采购的取舍。
数据板块的三要素,可以给大数据的应用及交易带来很大便利,也能为 大数据应用平台 提供具有通用性的基础构件。首先以元数据的形式给针对该数据板块的应用提供了数据接口,直接利用元数据就可以对板块内的数据进行编程处理,从而规避了对数据格式的再识别,提高了工作效率。其次,可以大大提高大数据的再利用率,通过上网发布,让更多的人知道有什么数据可以利用,而无需自己去采集、清洗,甚至都不需要编程,直接购买即可。第三、化难为简,解决了大数据开放而带来的数据标准瓶颈问题,为大数据的应用奠定技术基础,把统一的数据标准难题简化为分散实用的元数据问题,必将进一步促进大数据开放共享及应用的发展进程。
第二是基础层。基础层实际上就是常说的结构化、半结构化和非结构化数据实体集合,它们以各类数据库、文献库、图像库、文件“库”的形式出现,也分布在各行各业中,大数据的来源源于此。
将其称为基础层,有两层含义:一层表示为各单位的数据应用基础;一层表示大数据环境下的开放数据应用基础。根据应用需求,从基础层数据中采集、整理数据,提取其元数据并进行描述,为下一步的应用创造条件,打好基础。面对基础层中的多源数据,用现有成熟技术实现大数据背景下的管理与应用已显得力不从心,困难重重,必须以新的理念,以新的需求为牵引,采用新的技术和方法,方能适应大数据应用需求的快速发展。
第三是数据层。数据层由结构化、半结构化和非结构化数据的基本要素构成,如一条记录、一份文件等,这些数据表示一个实体,或反映一个事件。这种数据在封闭管理模式下,能够反映该模式下事物的概貌或全貌,但在大数据背景下,一个实体、一个事件的数据却不能反映事物的全貌,哪怕是概貌也难以反映,只能反映事物的一个侧面。比如通过电话在电子商城购物,又通过支付宝付款,商家通过京东速递将货物送到。一个购物事件由三部分构成:即打电话、付款、送货。这三部分数据作为一个整体,方能反映该事件的全貌,而这三部分的数据却分别存放在运营商、银行和京东那里。这种现象十分普遍,用现有的结构化、半结构化和非结构化数据结构无法满足这种数据需求。因为一个完整事件的数据,其价值被跨界应用肢解、淡化或消失了,对数据的使用有可能分别被统计了三次,又因为被分别存放在不同的部门或行业,将一个完整事件的数据进行关联十分困难或不可能,又会影响统计分析结果的准确性和完整性。这种现象也制约了大数据应用平台的通用性,制约了通用处理软件的研发,因为目前研发的软件无法通过一个指令实现对上述三部分的跨界数据进行同步操作,也不能适应数据定义和格式多样的处理需求。
因此,我提出 粒数据 的概念,以适应大数据背景下所产生的这种数据处理需求,或者说试图解决上述问题。 粒数据 的“粒”,是相对于大数据的“体量大”而言的,相当于沙漠中的一个沙粒,大海中的一滴水。
Q: 粒数据的概念还是第一次听到,请您详细介绍一下粒数据以及粒数据的特点和作用。
赵平生: 我分别从粒数据的概念、特点、作用以及粒数据与大数据的区别、粒数据是研究大数据的切入点这五个方面来介绍。
1.什么是粒数据
粒数据( grain data)的概念可以定义为: 基于时效性要求,能完整证明并真实记录某一事件发生或存在的数据颗粒的最小集合,该集合的数据颗粒可以是多源的。
数据颗粒(grain)的概念可以定义为: 以合法、合规的方式产生的一条真实的电子数据,该电子数据一旦产生即不可被修改。
以上述电话购物为例:运营商存储的数据为一个数据颗粒,银行存储的数据为一个数据颗粒,京东存储的为一个数据颗粒,这三个数据颗粒构成一个粒数据。
粒数据的核心是证明某一事件的发生与存在,所以构成它的数据颗粒都需要具有该事件的属性,我称其为粒标签(grain lebal),粒标签是在数据生成时确立的,由数据产生各方依据规范在各自系统中自动生成,也可通过某种技术(如区块链)将各自产生的粒标签统一存储。依据标签实现相同标签的数据关联(包括横向与纵向),实现多源数据完整性整合与应用。
粒数据是具有粒标签的数据颗粒集合,是大数据的最小处理单位,相当于数据库表的一条记录属性、文件系统的一份文件。但它却可能是由分别存放在不同地点的一条数据库记录、一段录音、一份电子合同、一份付款电子凭证共同构成一个粒数据,通过粒标签定位关联,也为云计算的并行处理提供充分施展其能力的空间。
粒标签是确立粒数据的重要条件,制定粒标签的标准就是研究粒数据的一项重要工作,这项标准加上数据板块的元数据,就可以为实现大数据的充分共享、大数据通用平台的建立乃至促进大数据的应用推广提供有力支撑。
2.粒数据的特点
提高数据真实性。 能够证明及记录粒数据产生过程的事实真相,它必须是原始数据,不能有任何有意或无意的改变。
拥有数据完整性。 粒数据拥有事件本身的数据及与其相关的基本数据要素,如粒数据产生的时间、地点、拥有者等,通过粒标签能方便地将跨界应用产生的分别存放在不同领域的数据整合成完整数据。
数据主权明确性。 粒数据产生时都记录了归属,主权明确可追溯,不可抵赖。
数据类型多样性。 一个粒数据可能包含图、文、声、视屏等多类型的结构化、半结构化和非结构化数据。
数据的有价性。 在大数据的应用中,有时一个粒数据就能证明或满足一种需求,直接产生效益。
数据结构的层次性。 粒数据是有层次的,如:民政部向多个受灾省市划拨救灾款,则民政部为该粒数据的根节点,受灾省市为该粒数据的叶结点。省市及政府还会向地区、县级政府继续下拨救灾款,形成根下的第二层结点,直至发到个人手中。拨款的结点与接受款的结点构成一个粒数据,这种逐级下拨的各层结点构成一棵粒数据树,以特定算法实现对树各结点的遍历操作。
3.粒数据与大数据的区别
|
粒数据 |
大数据 |
备注 |
基本构成 |
与数据颗粒结构相关 |
与所包含数据内容相关 |
|
数据质量 |
质量高 |
无保证 |
|
数据完整性 |
完整性好 |
无要求 |
|
价值体现 |
不取决于数据量 |
取决于数据量 |
|
数据规模 |
稳定 |
不断增长 |
|
约束 |
合法合规、不可更改 |
无实际约束 |
粒数据的传递也受约束 |
数据所用权 |
有 |
不确定 |
|
数据关联 |
通过粒标签实现数据跨界关联 |
不确定,实现困难 |
|
4.粒数据的作用
在大数据背景下,面对数据来源的多样性、涉及范围的广泛性、数据操作的复杂性和数据面临潜在风险的多重性,粒数据的作用将日益凸显:
促进数据质量的提高。 通过粒标签的跨界关联功能,实现数据的回放溯源,可以有效提高数据的真实性,提高数据质量。
助力大数据的研究。 通过大数据体系的三个层次,进一步研究大数据的构成及技术特点,助力大数据理论、技术的研究。
增加数据造假和篡改数据难度。 由于多源数据分别存储,难以实现对完整事件数据的造假或篡改,粒数据就能为社会治理提供支持,有助于建立互联网良好的生态环境。如食品安全、健康医疗、精准扶贫、政府拨款审计、纠纷和案件的电子数据查证等。
增大信息诈骗成本,降低诈骗发生率。 因为过去只要知道手机号或身份证号就可以对其进行诈骗,而通过粒数据的完整性要求(需要相关部门的支持和配合,暂不考虑个人隐私数据),可以使诈骗者难以获得更多重要数据。
有助于大数据的跨界关联与应用 (暂不考虑目前数据还不能充分开放共享的现状),推动多边互信、社会互信、多源互信,提升大数据的应用效果,提高大数据的应用水平。
有利于大数据通用软件构件(模块)的研发, 促进 大数据 通用应用平台的建设。从粒数据的粒标签和数据板块的元数据入手,通过程序参数的动态设置,可为设计大数据采集、清洗、分析等通用构件提供接口,为提高大数据平台的通用性建设奠定基础。
5.粒数据是研究大数据的切入点
粒数据是大数据的构成基础。 大数据无处不在,粒数据则遍布其中,与百姓生活息息相关,是大数据的重要来源。不论大数据的规模多大,对其进行采集、挖掘、分析、可视化其实最终也是对具体数据的处理,是对结构化、半结构化和非结构化具体数据的处理,也可以说是对粒数据的处理,只抓“大”不顾“粒”,是舍源求末。因此,从大数据着眼,从粒数据入手,不失为大数据发展的有效途径。
研究大数据必须重视其自身规律和特点的研究,应将其作为一个整体看待,忽略它的结构化和非结构化部分,从整体上研究大数据的各类算法,特别是多源状态下的相关算法,这样更容易看清大数据的全貌,跳出结构化、非结构化的局限。而研究粒数据则以具体事务为出发点,此时应强调多源性、结构化及非结构化特性,重点研究如何保证电子数据的关联性、完整性与实用性,如何保证粒数据的真实性,整体与具体有机结合,二者相辅相成,共同发展。
结语:
粒数据是在大数据爆发时期提出的全新概念,是在大数据还没有清晰的体系架构、缺乏有效管理的情况下诞生的大数据研究成果。相信粒数据的横空出世对推动大数据产业发展起到积极影响,甚至可能改善整个行业生态环境。
注:本文系 大数据周刊 授权 数据观发布,作者:常霞,禁止二次转载,如需转载务必申请授权。编辑:Fynlch(王培),数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。
责任编辑:王培