中国工程院院士徐宗本:大数据的挑战和问题

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

在方法论方面,大数据带来了三大挑战。第一,是分析基础;第二,计算的模式与计算方法需要推倒重来;第三,根本性判定需要条件。

大数据的挑战和问题

  谈论大数据是时代话题,拥有大数据是时代特征,解读大数据是时代任务,应用大数据是时代机遇。这四句话概括出 大数据时代 。从本质上说,数据,就是指资料的信息化、数字化,大数据的复杂性体现在四个方面,第一,海量性;第二,实践性;第三,异构性;第四,分布性。这是大数据区别于传统数据的四个特点。什么是大数据技术?严格地讲,是没有定义的。

目前,有关大数据搜集、整理、成熟、解读或应用的技术,我们统称为大数据。在日常生活中,大数据的价值到底在哪里?需要强调四个方面。

第一,提供社会科学的方法论,实现基于数据的决策,助推管理革命。这也正是目前大数据最热的领域是在社会科学方面的原因所在。大数据改变了人们对文科、理科的认识。社会科学最大的问题在于没有一个可普遍遵循的、可重复和被所有人接受的公共方法论,而利用大数据,弥补了这个缺憾。

第二,形成科学研究的新范式,支持基于数据的科学发现,减少对精确模型与假设的依赖,使过去不能解决的问题变得可能解决。也就是说,我们有一种方法能够较小地依赖于模型和依赖于假设,形成了第四种科研范式。

  第三,形成高新科技的新领域,推动互联网、 物联网云计算 等行业深入发展,形成大数据产业。互联网能实现如何把信息技术中的人、环境、机器,沟通在一起来处理问题,这是未来的发展。而大数据,则是实现信息化的组成,换句话说,即实现机器和机器的交换、人和机器的交换,是以数据的形式来沟通、来交换的。

第四,大数据成为社会进步的新引擎,深刻改变人类的思维、生产和生活方式,推动社会变革和进步。

理性认识大数据

信息技术革命与经济社会活动的交融催生了大数据。大数据是经济社会、现实世界、管理决策的片断记录,蕴含着碎片化信息。随着分析技术与计算技术的突破,解读这些碎片化信息成为可能,这是大数据成为一项新的高新技术、一类新的科研范式、一种新的决策方式乃至一种文化的原由。大数据是指数量特别巨大、种类繁多、增长极快、价值稀疏的复杂数据,简而言之,是“大而复杂”的数据集。作为信息资产,大数据的价值需要运用全新的处理思维和解译技术来实现。

   大数据具有大价值

大数据的价值主要通过大数据技术来实现。大数据技术是基础性信息技术,它刻画了新一代信息技术中机器与机器、机器与人之间信息交换的内容特征,构成了现代信息技术的基本信息处理模式。因此,大数据从信息载体这一底层捕捉到了信息化的共性基础、未来发展与普适技术。这说明,大数据热潮的来临是一种必然,大数据技术不会是过眼云烟。

   科学理解大数据的“大”

数据的积累是一个从量变到质变的过程。当数据积累不够多时,没有人能读懂这些“碎片”背后的故事。但随着数据的积累,特别是超过某个临界值后,这些“碎片”整体所呈现的规律就会在一定程度上被显现出来。可以认为,这一从量变到质变的临界值是区分数据“大”与“不大”的标准。所以,大数据的“大”是相对的,是与所关注的问题相关的。只有这样理解,才能避免产生大数据能解决所有问题的误读。

   科学理解大数据的“复杂”

由于具有海量性、快变性、异构性和分布性等复杂特性,大数据技术是一项不断发展的技术,并非已经成熟。这当然并不妨碍运用现有大数据技术从现实的各种大数据中获得价值,但我们必须清楚:大数据的价值实现是无止境的,大数据理论、技术和产业将相伴而行。这是大数据发展的基本形态。

大数据带来三大挑战

数据的获取是基本的,因此,数据的程序和处理是基本的。大数据的资源管理与规模,大数据高效和处理信息技术,大数据分析和处理统计学的计算技术,这三者中,大数据扮演的是不同的角色。

  比如,大数据分析和大数据处理,两者是有区别的。处理,如统计,查询,排序,比例,融合,对齐等等,统称为数据处理。数据处理的逻辑,是计算机严格的逻辑运算。但是,处理与分析的深层次是不一样的,那么, 大数据分析 会涉及到哪些问题?比如,数据中间呈现了什么样的发展趋势,数据中间有什么共性结构,数据链如何关联?数据有什么特定的模式,相互之间如何对应?如何分析?以及优化与控制等等。这是大数据分析。因此,分析相对于处理来说,并不是逻辑运算,而是用人工智能的方式来处理。在数据分析技术上,我国目前的发展相当缓慢。有数据表明,目前全世界有4% 的大数据,但是真正用来做分析的不到0.4%。

在方法论方面,大数据带来了三大挑战。第一,是分析基础;第二,计算的模式与计算方法需要推倒重来;第三,根本性判定需要条件。依赖于样本是独立组成的假设,分析出来的结果可能是谬误的。“基础不牢,地动山摇”,就是这个道理。换句话说,如果大数据的分析技术不建立起来的话,很多的假设都是不成立的,大数据的危险性可想而知。

科学技术是关键,分析技术是处理办法,根本性判定,这是当前最值得关注的三个问题。为此,需要建立的三大基础:第一,统计学基础;第二,计算理论的基础;第三,模拟技术。

大数据的机遇是什么?最大的机遇是学科发展问题。什么叫学科发展机遇?以融合信息、数学、计算、数据为一体的数据科学正式形成。这对于大学人才的培养,对于学科的设置等各方面将起到根本性作用。

(本文整理自中国工程院院士、西安交通大学徐宗本在第四届中国科研信息化发展研讨会上的演讲“大数据的挑战和问题”)

 

责任编辑:陈近梅

随意打赏

提交建议
微信扫一扫,分享给好友吧。