深度丨大数据及其应用前景研究,剖析大数据内涵与外延
徐立水①②*,辛敏①
① 北京医信天下数据技术有限公司,北京 100021;
② 中国医学科学院医学信息研究所,北京 100020
摘要: 大数据成为当前学术界和产业界的研究热点,是继云计算、物联网之后又一次颠覆性的技术革命,并不断影响着人们生活习惯和思考模式。本文为进一步建立理论基础依据和探索开展应用研究,定义并详细解释了大数据概念,剖析大数据内涵与外延,阐述大数据属性和使用方法。大数据蕴含着巨大价值,相信未来在人体疾病预防监测、健康关怀、银行用户资信评估与应用、国家安全恐怖监测与预警、工业质量监控等领域将得到更加广泛的应用。
关键词: 大数据,大数据定义,大数据技术,数据分析,大数据应用
目前,最热词莫过于大数据,各界媒体关于大数据讨论层出不穷,大数据已成为流行语和现代科学趋势技术。基于大数据的科学研究也是近年各大数据库发稿增长率较高,在PubMed数据库中全文检索包含“big data” 文章,2011年至2015年大数据相关文章占比分别为0.03%、0.04%、0.05%、0.08%、0.10%,五年增长近2倍。在CNKI数据库中全文检索包含“大数据”文章,2011年至2015年大数据相关文章占比分别为0.28%、0.39%、0.82%、1.62%、2.54%,五年增长近8倍。大数据研究论文量增长率如此之高,说明大数据研究在当前科学研究中呈良好增长势头,开展大数据研究学者不断增多,进行大数据研究单位也不断增多。大数据已经成为继石油和矿业之外,另一种更重要的资源业态存在。大数据研究热潮正是各界广泛认识到大数据研究的重要性,还可能更多人已经知道大数据技术将会是一场新技术革命[1],现在开展大数据学术研究是为未来使用大数据技术,为未来应用大数据技术建立理论基础和理论依据,也是为未来更好使用大数据开展基础应用研究和探索。
大数据技术不同以往任何科学技术,笔者认为大数据是一种全新应用科学技术,大数据全新科学技术是以前人类没有研究甚至无从知晓技术,作为应用科学技术是以实际应用出发为需求方做的科学研究。大数据热和各界广泛重视是因为 大数据技术 未来应用广泛、应用价值巨大。
2012年3月29日美国发布《大数据研究和发展倡议》[2,3],欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。2015年12月10日中国国务院发布《国务院关于印发促进大数据发展行动纲要的通知》[4],各个国家重视大数据研究目的都要在未来科技应用领域领先。目前,大数据研究也是刚刚开始,大数据应用方向方法都是探索阶段,各国各界大数据研究都还处于起步阶段,大数据研究更重要的是大数据应用研究投入,更多的是需要加强大数据领域人才发现、挖掘和培养[5],更多的是开展大数据方法研究和大数据应用方向研究,大数据研究也可以为中国的“大众创业、万众创新”,开辟一条更广阔科技创新道路。
当前,大数据概念已经深入人心,大家共同的认识是大数据未来应用会颠覆传统科学思维,大数据会使人类思考边界和思考方式发生颠覆性改变[],这也是学术界和各国政府非常重视大数据研究的重要原因。大数据已经作为大国国家发展战略,已经在各个国家科研财政投入中成为政府政策最重要战略指导方向开展广泛研究,各国政府这样做的目的是为了占领未来科技制高点和在国家竞争中取得科技优势。大数据在经济领域和医学领域更是开展了广泛研究,IBM、Google、Microsoft、Facebook进行大数据研究也是看中了大数据未来无可限量的价值[6]。
笔者更愿意在此写一些笔者对大数据思考和看法,写出笔者对大数据“big data” 概念的理解、大数据定义、 大数据应用 方法和大数据未来更适合应用领域。提供大家探讨研究,开卷有益,下面笔者就几个观点说说自己看法。
01/ 大数据概念定义
最早提出大数据概念时,有人把大数据分为四个“V”[6,7,8]( Volume、Variety、Velocity 和Value) 形容大数据的特征,未来最重要的科技应用是大数据,也有人认为是指海量无法计算的数据[9],英文为“big data”中文为“大数据”。笔者认为大数据描述应该属于大数据概念和大数据性质,未来大数据应用需要一个清晰容易被大多数人理解明确的大数据定义,定义大数据是为了更好应用大数据,明确大数据定义可以供学者、研究者学术研究讨论,可以教学学生更好学习大数据,也可以为管理部门决策管理清楚规范管理边界。
笔者研究大数据多年认为最恰当大数据定义:“大数据是指具有一定属性关系资源数据的集合,属性关系资源可以是量化资源数据集合,也可以是定性化资源数据集合,这些数据资源集合统称为大数据。”
大数据定义强调三点
1.大数据是指具有一定属性关系资源数据的集合。数据已经在人类生活中广泛存在,数据种类众多,存在形式各异,数据内涵外延都有不同,数据之间相互关系强弱不同,各类数据未来应用权重或是有效性不同,做任何一次大数据应用都不可能取用人类社会生活所有数据,应该是按照一定属性关系取舍数据,达到取舍有度应用有理,如果是“海量的无法计算的”,会是无法计算也会是无法应用。传统意义数据就应该是加减乘除微积分等算法运算的数值以及数值运算的结论,数据发展到现代已经不仅仅是数字,数据的内涵和外延已经广泛,数据含义更深,但数据本身意义就是用来运算,未来只是数据运算方法不同而已,数据应该是无法计算的价值而不是无法计算数量,搞清数据属性关系,研究清楚数据的内涵和外延,定义好大数据就可以做到更好应用数据。
2.资源数据的集合。资源以往通常应用于自然资源、水利资源、自然文化遗产资源等等资源,往往强调是某某资源,资源的价值是这种资源已经存在。大数据定义使用的是资源数据强调是数据是资源,数据可以是已经存在的数据资源,也可以是现在没有的数据资源但未来会出现的数据资源,所以大数据定义使用资源数据。
3.资源数据的集合,集合是在一起,在一起是存在一起,但存在方式性质都可能不同,只表示资源数据已经因为数据相关性可以存在一起,集合在一起。数据表现形式是定性数据或是定量数据
02/ 数据是什么?数据内涵和外延
大数据核心是数据,数据最早是由阿拉伯数字组成的一组数字,但现代大数据把数据概念大大延展。
大数据是建立在数据基础上的科学,任何数字、图片、声音、概念单元、性质描述等等都是数据,可以用一个数据,一组数据、一个数据集合统称为相应大数据,医学资源数据集合统称为医学大数据。按照大数据定义给出医学大数据定义是:具有医学属性关系资源数据的集合,涵盖人类健康、人体解剖生理病理、遗传、疾病诊断治疗、药品食品及人类生命健康关系资源数据集合。
大数据数据是什么,什么是大数据里面的数据,笔者更愿意把什么是大数据数据,用数据内涵和外延探讨。笔者认为一切都是数据,能够使用的都是数据,这种说法不容易让使用者理解什么是数据,理解什么是数据才能够使用数据,尤其对初期理解应用大数据的学者、学生更加重要。这里笔者努力一些尽量把数据内涵和外延说清楚,供研究探讨。大数据数据应该可以理解为人类生活中任何词组、词条、数字等等,大数据数据更容易理解的是一些定性数据和量化数据,定性数据比如:大小、高低、长短、好坏等等,定量数据阿拉伯数字比如:100万,1个等等。数据理解和使用也要结合使用者个人知识结构、教育水平、喜好,甚至宗教信仰,让使用数据者对数据理解和看法不同,笔者认为什么都可能是大数据数据,数据使用者认知水平的提高就会让使用数据的人本身理解数据的内涵和外延不同,计算机技术的发展也会让数据的内涵和外延不同。大数据数据不管存在任何形式、含义、大小、难易都应统称为大数据的数据。
应用大数据中数据能力更是使用者的认知水平、理解水平,哲学水平、语文水平、尤其是逻辑思维水平中重要能力,同时需要改变认识数据、收集数据、分析数据的思维[10]。可以得出结论大数据数据的内涵和外延是由使用数据者认知水平决定,大数据的数据是由使用数据者定义。
03/ 大数据属性和使用方法
大数据属性是以各种形式量级存在,笔者认为大数据数据一个数字就是一个数据,两个数据就是两个数据,三个数据就可以称为大数据。一、二个数据不能称为大数据是因为不能使用,是由现阶段计算机和网络技术决定的,随着计算机和网络技术提高一定程度才可以决定是否可以使用。三个数据称为大数据也是指应用,三个数据就可以应用在大数据技术上。
大数据是建立在计算机技术基础上全新应用科学,大数据不同于以往任何科学技术,大数据理论计算机应用前人类没有任何论述,人类大数据使用会伴随计算机技术和网络技术提高不断完善。
目前,大数据研究的热潮,更是一种科学技术应用初期的学术探索,当下研究的大数据包括两种概念:1、大数据的数据量大就是大数据;2、大数据技术方法。
笔者认为大数据是一门应用科学技术。我们从应用科学技术角度谈谈大数据技术,应用科学关键在于使用,简述大数据使用方法为DATA+MODEL+COMPUTER(简称DMC),即:数据+模型+计算机技术=大数据技术。
大数据应用关键是数据采集、数据标示、数据应用方法,数据使用方法需要建立计算机计算模型,计算机计算模型可以称为数据模型或需求模型或需求数据模型,采集获得的数据应用计算机技术让数据运算运行在软件编程的需求模型上,大数据是数据应用在计算机技术基础上的科学技术,可以说大数据是计算机技术扩展和延伸。
04/大数据适合应用领域
大数据技术是研究应用数据方法和未来数据应用方向的应用科学,大数据技术研究需要相关属性基础数据支持,这里的属性是指属性数据未来应用方向,研究相关属性数据研判未来发展方向和预测属性数据通过大数据技术研判未来发展方向的可能概率,研究实质是研究事物未来趋势发展可能性,大数据是预测未来的科学应用数据技术。
人性万事万物发展有本质规律,人性是心迹,事物是规律,心迹是趋势,趋势也是规律,规律就是可能。数据是人和万物发展过程产生的资源数据,资源数据按照心迹规律生产出来,资源数据内涵是心迹和规律,资源数据外延表达和反映的是心迹和规律趋势方向。
大数据是应用科学,按照数据特点的内涵和外延有适合领域和优势领域。总结归纳大数据最适合应用方向和应用领域是为了预判行为趋势和进行事物质量预测与控制。大数据技术适合应用领域具体说是:人体疾病预防监测、健康关怀、银行用户资信评估与应用、国家安全恐怖监测与预警、工业领域质量监控等,笔者专业是医学领域,未来会在医学大数据领域开展更多理论研究。
作者简介:
徐立水, 男,学士,住院医师,医信天下互联网医学疾病分类标准委员会主任,大数据研究
辛敏, 男,硕士,大数据研究,医信天下互联网医学疾病分类标准委员会委员
参考文献:
[1]朱东华,张嶷,汪雪锋,等.大数据环境下技术创新管理方法研究.科学学与科学技术管理, 2013 , 34(04) : 172-175
[2]王忠.美国推动大数据技术发展的战略价值及启示.中国发展观察, 2012 , 6 : 44-46
[3]John Gantz, David Reinsel. The Digital Universe in 2020:Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Idc Iview Idc Analyze the Future,2012.12
[4]国务院关于印发促进大数据发展行动纲要的通知.国发〔2015〕50 号
[5]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考.战略与决策研究, 2012 , 27 (6) : 647-657
[6]马建光,姜巍.大数据的概念、特征及其应用.国防科技 ,2013 , 34 (2) : 10-17
[7]朱扬勇,熊赟.大数据是数据、技术,还是应用.大数据, 2015 , 1 : 701-711
[8]邬贺铨.大数据时代的机遇与挑战.求是, 2013 , 04
[9]李国杰.大数据研究的科学价值.中国计算机学会通讯, 2012 , 8(9) : 8-15
[10]李金昌.大数据与统计新思维.统计研究, 2014 , 31(1) : 10-15
责任编辑:王培