你应该了解的大数据时代的10个新理念及10个新术语
▌ 大数据时代的10个新理念
大数据时代的到来改变了人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变化,如图1-10所示。
(1)研究范式的新认识——从“第三范式”到“第四范式”。2007年,图灵奖获得者Jim Gray提出了科学研究的第四范式——数据密集型科学发现(Data-intensive ScientificDiscovery)。在他看来,人类科学研究活动已经历过三中不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式”。第四范式,即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。再如,本书作者在一次研究生科学研究方法的调研中发现,绝大部分同学的研究范式有待调整——他们往往习惯性地“采用问卷调查法等方法亲自收集新数据”,而不是“首先想到有没有现成的 大数据 以及如何再利用已有的数据(数据洞见)”,如图1-11所示。
(2)数据重要性的新认识——从“数据资源”到“数据资产”。在大数据时代,数据不仅是一种“资源”,而更是一种重要的“资产”。因此,数据科学应把数据当做“一种资产来管理”,而不能仅仅当做“资源”来对待。也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理。
(3)对方法论的新认识——从“基于知识解决问题”到“基于数据解决问题”。我们传统的方法论往往是“基于知识”的,即从 “大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题。因此,传统的问题解决思路是“问题→知识→问题”,即根据问题找“知识”,并用“知识”解决“问题”。然而,数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据问题找“数据”,并直接用数据(不需要把“数据”转换成“知识”的前提下)解决问题,如图1-12所示。
(4)对数据分析的新认识——从统计学到数据科学。在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现以及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响,主要有:
• 随着数据获取、存储与计算能力的提升,我们可以很容易获得统计学中所指的“总体”中的全部数据,且可以在总体上直接进行计算——不再需要进行“抽样操作”;
• 在海量、动态、异构数据环境中,人们更加关注的是数据计算的“效率”而不再盲目追求其“精准度”。例如,在数据科学中,广泛应用“基于数据的”思维模式,重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题。在大数据时代,人们开始重视相关分析,而不仅仅是因果分析。
(5)对计算智能的新认识——从复杂算法到简单算法。“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”——只要对大数据的进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题——“大数据时代需要的是更多数据还是更好的模型(moredata or better model)?”。机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种“算法”,但应用效果并不理想。近年来,Google翻译等工具改变了“实现策略”,不再仅靠复杂算法进行翻译,而对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。
(6)对数据管理重点的新认识——从业务数据化到数据业务化。在大数据时代,企业需要重视一个新的课题——数据业务化,即如何“基于数据”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。但是,在传统数据管理中我们更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。可见,业务数据化是前提,而数据业务化是目标。
(7)对决策方式的新认识——从目标驱动型决策到数据驱动型决策。传统科学思维中,决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。例如,近年来,很多高新企业中的部门和岗位设置不再是“固化的”,而是根据所做项目与所处的数据环境,随时动态调整其部门和岗位设置。然而,部门和岗位设置的敏捷性往往是基于数据驱动的,根据数据分析的结果灵活调整企业内部结构。
(8)对产业竞合关系的新认识——从“以战略为中心竞合关系”到“以数据为中心竞合关系”。在大数据时代,企业之间的竞合关系发生了变化,原本相互激烈竞争,甚至不愿合作的企业,不得不开始合作,形成新的业态和产业链。例如,近年来IBM公司和Apple公司“化敌[1]为友”,并有报道称他们正在从竞争对手转向合作伙伴——IBM的100多名员工前往Apple的加州库比蒂诺总部,与Apple一起为IBM的客户(例如花旗、Sprint和日本邮政)联合开发iPhone和iPad应用。
(9)对数据复杂性的新认识——从不接受到接受数据的复杂性。在传统科学看来,数据需要彻底“净化”和“集成”,计算目的是需要找出“精确答案”,而其背后的哲学是“不接受数据的复杂性”。然而,大数据中更加强调的是数据的动态性、异构性和跨域等复杂性——弹性计算、鲁棒性、虚拟化和快速响应,开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标转向将组织处于混沌边缘状态。
(10)对数据处理模式的新认识——从“小众参与”到“大众协同”。传统科学中,数据的分析和挖掘都是具有很高专业素养的“ 企业 核心员工”的事情,企业管理的重要目的是如何激励和绩效考核这些“核心员工”。但是,在大数据时代,基于“核心员工”的创新工作成本和风险越来越大,而基于“专家余(Pro-Am)”的大规模协作日益受到重视,正成为解决数据规模与形式化之间矛盾的重要手段。
▌ 大数据时代的10个新术语
大数据时代的到来,为我们提出一些新的任务和挑战。本节我们以近几年在大数据管理领域新出现的术语为线索,讨论大数据时代的主要活动和能力要求(图1-13)。
(1)数据化(Datafication)是指捕获人们的生活与业务活动,并将其转换为数据的过程。例如:
• Google眼睛正在数据化人们视觉活动;
• Twitter正在数据化人们的思想动态;
• Linkedin正在数据化人们的社会关系。
目前,在个人信息的获取中广泛使用了数据化,非法收集,导致了个人隐私之间的矛盾。
(2)数据柔术(DataJiu-Jitsu)是指数据科学家将“大数据”转换具有立即产生商业价值的“数据产品(Data Product)”的能力,如图1-14所示。数据产品是指在零次数据或一次数据的基础上,通过数据加工活动形成的二次或三次数据,数据产品的特点包括:
• 高层次性:一般为二次数据或三次数据;
• 成品性:数据产品往往不需要(或不需要大量的)进一步处理即可直接应用;
• 商品性:数据产品可以直接用于销售或交易;
• 易于定价:相对于原始数据,数据产品的定价更为容易。
(3)数据改写(DataMunging)是指带有一定的创造力和想象力的数据再加工行为,主要涉及数据的解析(parsing)、提炼(scraping)、格式化(formatting)和形式化(formalization)处理。与一般数据处理不同的是,数据再加工强调的是数据加工过程中的创造力和想象力。
(4)数据打磨(DataWrangling)是指采用全手工或半自动化的方式,通过多次反复调整与优化过程,即将“原始数据”转换为“一次数据”(或“二次数据”)的过程。其特殊性表现在:
• 不是完全自动化方式实现,一般用手工或半自动化工具;
• 不是一次即可完成,需要多次反复调整与优化。
(5)数据洞见(DataInsights)是指采用机器学习、数据统计和数据可视化等方法从海量数据中找到“人们并未发现的且有价值的信息”的能力。数据科学强调的是“数据洞见”——发现数据背后的信息、知识和智慧以及找到“被淹没在海量数据中的未知数据”。与数据挖掘不同的是,数据科学项目的成果可以直接用于决策支持。数据洞见力的高低主要取决于主体的数据意识、经验积累和分析处理能力。
(6)数据分析式思维模式(Data-AnalyticThinking)是指一种从数据视角分析问题,并“基于数据”来解决问题的思维模式。例如,当某个具体业务的效率较低时,我们考虑是否可以利用数据提升业务效率,并进一步提出如何通过数据提升的方法。可见,数据分析思维模式与传统思维模式不同。前者,主要从“数据”入手,最终改变“业务”;后者从“业务”或“决策”等要素入手,最终改变“数据”。因此,数据分析式思维模式改变了我们通常考虑问题的出发点和视角。从分析对象和目的看, 数据分析 可以分为3个不同层次,如图1-15所示。
• 描述性分析( Descriptive Analysis) 是指采用数据统计中的描述统计量、数据可视化等方法描述数据的基本特征,如总和、均值、标准差等。描述性分析可以实现从“数据”到“信息”的转化。
• 预测性分析(Predictive Analysis)是指通过因果分析、相关分析等方法“基于过去/当前的数据”得出“潜在模式”、“共性规律”或“未来趋势”。预测性分析可以实现从“信息”到“知识”的转化。
• 规范性分析(Prescriptive Analytics)不仅要利用“当前和过去的数据”,而且还会综合考虑期望结果、所处环境、资源条件等更多影响因素,在对比分析所有可能方案的基础上,提出“可以直接用于决策的建议或方案”。规范性分析可实现从“知识”到“智慧”的转变。
(7)数据驱动(Data-driven)是相对于“决策驱动”、“目标驱动”、“业务驱动”和“模型驱动”的一种提法。也就是说,数据驱动主要以数据为“触发器(出发点)”、“视角”和“依据”,进行观测、控制、调整和整合其它要素——决策、目标、业务和模型等,如图1-16所示。数据驱动是大数据时代的一种重要思维模式,也是“业务数据化”之后实现“数据业务化”的关键所在。
(8)数据密集型(Data-Intensive)应用是相对于“计算密集型应用”、“I/O密集型应用”的一种提法,如图1-17所示。也就是说,数据密集型应用中数据成为应用系统研发的“主要焦点和挑战”。通常,数据密集型应用的计算比较容易,但数据具有显著的复杂性(异构、动态、跨域和海量等)和海量性。例如,当我们对PB级复杂性数据进行简单查询时,“计算”不再是最主要的挑战,而最主要挑战来自于数据本身的复杂性。
(9)数据空间(DataSpace)是指主体的数据空间——与主体相关的数据及其关系的集合。主体相关性和可控性是数据空间中数据项的基本属性。
• 主体是指数据空间的所有者,可以是个人,也可以是一个组织;
• 主体相关性是指数据空间所管理的是与特定主体相关的信息,而这些信息可以出现在不同的时间,存放在不同的位置,也可以采用不同的格式表示;
• 主体可控性是指主体通过各种操作或服务来控制和管理数据空间中数据项。
可见,数据空间为我们解决来自跨域、异构、动态数据源的集成管理提供了一种新的思路和解决方案。相对于数据库技术,数据空间技术具有现收现付(Pay-as-you-go)、数据在先,模式在后、不断演化的数据模型、数据集成不改变数据的原有格式、数据内容以共存形式分布在不同数据源、自动处理数据源的动态变化、充分利用数据源的自我管理能力、主体对数据具有部分控制能力、建设过程信息丢失相对少、支持数据关联的动态变化以及服务质量的不确定性等特点。
(10)关联数据(LindedData)是一种数据发布和关联的方法。其中,数据发布是指采用RDF(Resource DescriptionFramework,资源描述框架)和HTTP(Hypertext TransferProtocol,超文本传输协议) 技术在Web上发布结构化信息;数据关联是指采用RDF链接技术在不同数据源中的数据之间建立计算机可理解的互连关系。2006年,Tim Berners Lee 首次提出了关联数据的理念,目的在于不同资源之间建立计算机可理解的关联信息,最终形成全球性大数据空间。Tim Berners Lee进一步明确提出了关联数据技术中的数据发布和数据关联的4项原则:
• 采用URI(UniformResource Identifier,统一资源标识符)技术统一标识事物;
• 通过HTTPURI访问URI标识;
• 当URI被访问时,采用RDF(Resource Description Framework,资源描述框架)和SPARQL(SimpleProtocol and RDF Query Language)标准,提供有用信息;
• 提供信息时,也提供指向其他事物的URI,以便发现更多事物。
除了上述概念之外,还有数据消减(Data Reduction)、数据新闻(Data Journalism)、数据的开放获取(OpenAccess)、数据质量、特征提取等传统概念也重新备受关注。
注:本文系书圈itshuquan授权数据观转载,选自《数据科学》,版权著作权属原作者所有,禁止二次转载,如需转载务必申请授权。以上内容并不代表数据观观点,如涉著作权等事宜请联系小编更正。数据观微信公众号(ID:cbdioreview) ,欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。
责任编辑:王培