2016数博会论坛精彩观点摘录(五):把握全球发展趋势 增强产业智慧力量

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

把握全球发展趋势 增强产业智慧力量

——2016中国大数据产业峰会暨中国电子商务创新发展峰会论坛精彩观点摘录(五)

2016数博会论坛精彩观点摘录(五):把握全球发展趋势 增强产业智慧力量

5月25日,中国大数据产业峰会暨中国电子商务创新发展峰会在贵阳开幕。图为参观者步入博览会会场。

题 记

5月25日,作为2016中国大数据产业峰会暨中国电子商务创新发展峰会的重要内容之一:第一届大数据科学与工程国际会议举行,此次论坛分为一个主论坛、四个主题论坛和两个子论坛。该论坛主要关注全球大数据发展趋势以及大数据在学科交叉领域中的研究应用,探讨大数据发展中面临的挑战、技术创新、应用创新等方向,着力反映国际大数据技术研究的最新进展。

会上,围绕大数据科学认识与理解、大数据分析与管理、大数据系统、大数据安全、大数据学科与人才等领域,中国工程院院士邬贺铨、中国工程院院士方滨兴、中国科学院院士梅宏、美国伊利诺伊大学芝加哥分校特聘主任教授、清华大学数据科学研究院院长俞士纶、美国特拉华大学电子与计算机工程学院终身教授高光荣、英国帝国理工学院数据科学研究所所长郭毅可等专家学者及相关企业代表发表主旨讲话。

中国工程院院士邬贺铨:

大数据是博大精深的

“大数据不能以‘大’盖全,它是已发生事件规律的总结。”昨天,中国工程院院士邬贺铨在“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”论坛上发表了主旨演讲。他指出,大数据不仅是数据量的庞大,而且是多维度和具有代表性的。同时,大数据追求数据精准,而且强调规律,其“深”又在于大数据的分析不仅需要大量的数据而且需要建立模型。

首先,邬贺铨指出,大数据具有多个来源,其中包括社会空间数据、物理空间数据、信息空间数据三个方面。又可以分为国家安全数据、商业秘密数据、个人隐私数据。从结构上来看,大数据可分成结构化、半结构化、非结构化,其中,非结构化,是不能用表格来表示的数据。

在邬贺铨看来,大数据具有增长性、长期性、颗粒性、移动性、多维性、语义性、隐私性等特点。大数据只有大于一定量时才有用,到2020年人类的数据量可能会达到40ZB,如果装到光盘上,其重量需要几十艘美国的“尼克兹航母”才能装下。目前,各行各业每天都产生着大量的数据。

然而,大数据不仅是数据大,而且是多维度与具有代表性的。麦肯锡曾评价大数据价值堪比石油,但矿产资源因不可再生通常会随时间而增值,信息资产则随着互联网发展会越来越多但折旧很快。比如,谷歌公司,根据美国阿特兰大中部地区2008年春夏之交有关流感的搜索词频率异常增长而成功判断即将爆发流感,但流感疫情的前兆与有关流感搜索词突发的相关性的逆命题并不成立,导致谷歌对2012年底美国流感的预测结果比实际情况过分夸大。这不是大数据的失效,而是谷歌内容如能更多关注和收集搜索引擎之外的大数据效果会更好。

提到大数据的“精”,邬贺铨说,通常指的是大数据追求数据精准但强调规律,这应理解为对于一个大数据集而言,我们很难要求所有数据都精准,都只需要大多数数据有代表性,这并不妨碍数据集合得到较为准确的结果。比如,谷歌的无人驾驶汽车牌照,利用传感器、雷达、导航系统、数据地图、实时街景数据和大数据分析等技术支撑无人驾驶车,这个精度要求面积,它通过大数据进行扫街扫出来的地图,比百度地图精确度高得多,这要求非常精密。

此外,大数据还可以提高分析精度。最近十年,语音识别错误率和机器翻译的准确性都成倍改进,其中20%的贡献来自方法的改进,80%则在于数据量的提升。传统用OCR办法识别文字的成功率到98%后就很难再提升,但通过大量收集已知文字的照片和图片等用于比照,识别成功率提高到99.9%。

中国科学院院士、上海交通大学副校长梅宏:

大数据发展亟须顶层规划与示范引导

“现在许多非技术学科的领域也开始汇集在大数据的基础之下,这无疑过热了,大数据已经成为各行各业争取资源的‘马甲’。”中国科学院院士、上海交通大学副校长梅宏在数博会“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”论坛上发表《对大数据热潮的若干思考》主题演讲时表示,目前大数据发展已出现炒作过热的状态,应根据发展需求做好顶层设计和示范引导,审慎推进。

梅宏指出,目前,我们已进入大数据驱动的新时代。回顾过去,1995年以前是信息化1.0;2015年进入以联网应用为特征的网络化阶段,即信息化2.0;现在已步入以数据的深度挖掘与融合应用为特征的智慧化阶段,即信息化3.0。他认为,大数据作为一个现象的产生,是信息技术的不断廉价化与互联网及其延伸所带来的无处不在的信息技术应用所产生的“自然现象”。

在梅宏看来,现在在商业智能、智能交通、自然语言处理、机器人等领域已有很多数据应用的成功案例,但很多仍处于初级发展阶段,大数据不只是简单地统计数据,真正的大数据应用应该体现在数据挖掘的深度和多源跨界数据融合的广度,绝不是数据的“海量”。

梅宏说,通过大数据构建一个数据空间,从样本到全体、从精确到近似、从因果到关联度,可以无限逼近我们的现实世界,根据大数据分析,可以对未来有所预见,从而影响政府的决策。但梅宏强调,现在许多非技术学科的领域也开始汇集在大数据的基础之下,无疑过热了,大数据已经成为各行各业争取资源的“马甲”。

梅宏认为,大数据的普遍应用将对社会产生重要影响,可能带来数据所有权、隐私保护、信息安全等一系列新的问题,而相应的道德、法律建设、以及技术手段仍处于滞后状态。他认为,大数据中心的投建要根据应用需求,做好顶层设计,积极谋划并审慎推进。他指出,大数据正引发新一轮信息化建设新潮,亟须顶层规划和示范引导,积极谋划、谨慎推进,避免一哄而上,造成超前投资或重复投资。

美国俄亥俄州立大学教授张晓东:

数据是检验真理的重要标准

“大数据让我们更清晰地看到社会本质和认识自身,从而致使违背规律和人的本性的决策大大减少。”昨日,美国俄亥俄州立大学的Robert M. Critchfield讲座教授、计算机科学与工程系主任张晓东在数博会“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”论坛上发表《数据分析将对人类自身的了解达到前所未有的高度》主题演讲。他说,今天大数据发展的原因与目的最终是为了人类社会发展,数据将成为检验真理的一个重要标准。

张晓东指出,首先,随着计算机的不断演进、数据量逐渐增大,数据处理也面临诸多挑战。互联网和无线上网是数据世界的基础,计算机到了今天的时代,已经是一个数据中心,这个数据中心每天都会有庞大的数据进出。“而如此大的数据量,也对我们数据处理带来很多新的挑战。”张晓东指出,这两个挑战一是传统的数据管理的商业模式不被日益增加的非盈利用户所接受,通用的数据库技术不能满足大数据可扩展和高容错的特殊需求;二是世界级的大公司必须拥有成功的通用软件。

在张晓东看来,大数据分析是走向理性决策的重要基础。大数据分析发展的最主要原因是从巨大、不规则和零散的数据中找到新知识,它可以提供完美科学的决策,消除感性、教条和口号式的决策,同时违背规律和人的本性的决策会大大减少。大数据分析的本质不是数据量的大,而是分析结果的科学性。

张晓东以划分我国人口密度的胡焕庸线举例说,在过去,胡焕庸是通过非常简陋的条件做大量的考察,才在1935年总结出了中国千年不变的人口分布。而现在,这条线的面积和人口比例已经发生改变,其中原因我们已可以通过具体数据分析得到答案。同样对比美国人口动态迁移,从1800到2010年,美国人口一直向西边移动,尤其是西海岸,如今通过数据分析,我们可以了解到这与1862年颁布的法律有关,这些原因甚至人口迁移的条件、速度等分析都已可以通过大数据得来。

张晓东感叹,上世纪90年代曾预测,互联网的出现和完备将对整个工业生产和人类日常生活作出颠覆性的变化,而在今年我们知道,这些预测已经全部应验了。今天人们对大数据的分析,使人类对自身的了解与回答上升到了一个前所未有的高度,越来越多的普适价值将是以数据为基础的,数据成为检验真理的一个重要标准。

清华大学数据科学研究院院长俞士纶:

异构让大数据实现更多价值

昨天,美国伊利诺伊大学芝加哥分校特聘主任教授、清华大学数据科学研究院院长俞士纶在数博会“第一届大数据科学与工程国际会议——大数据科学认识与理解”论坛上发表《对异构数据源的思考》的演讲。他说,大数据时代,数据可以改变很多细节,我们要做的是找到有意义的数据,并融合不同的数据,将数据运用在实际的事情上。

俞士纶将数据库比作药品,将数据比作药品的内部结构。人们通过研究药的内部结构来预测这个药的治疗效果,但一个药的内部结构只是一些有限的资讯,如果我们制作两个化学药品都有相同的效果,那可以把这两个内部结构的资讯合到一起,这将会得到更好的结果。这就像如果我们把来自不同的领域的数据库和数据联在一起,我们就可利用数据做出更好的预测。

与这个比喻相似的是,豆瓣利用人们对于一个电影的喜爱程度,综合这部电影和这个人以往看过电影的主演、导演、电影类型、人物性格等多种电影资讯就可以进行预测。但这种数据预测的效果又是因人而异的,有些人社交关系比较多,但有些人却没有什么朋友,所以数据的预测要通过不同的路径,再进行预测,就会减少误差。

俞士纶说,当这种方法应用在治疗上,如一个人进行老年痴呆症的检查时,医生不仅可以综合他扫描的CT,还可以对他做的抽血检查和以往病史等文字、图片及影像材料进行综合,将会得到更好的结果,这也是数据融合的例子。

在俞士纶看来,异构数据可能是一张图和与之相关一段图解,就是用两个不同的方式来表达一件事。当我们从图和文字找到相似的地方时,我们通过图就可以找到相关的文字描述,通过文字描述,就可以找到相关的图片。如果将两者联系在一起,结果就能更为准确。

俞士纶指出,现在是大数据时代,一个重要的事情是我们要怎样融合不同的数据。比如气象预测,光做预测是根本赚不了钱的,但如果应用在货物运输、农业等具体领域,天气的这些数据将可以改变很多细节,提供更多便利,成为真正有价值的数据。所以,我们首先要了解到什么是有意义的数据,然后如何把这些数据合在一起去提供更好的服务。

中国工程院院士方滨兴:

云监控与云加密助力打造可信云

昨天,中国工程院院士方滨兴在“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”论坛上发表了主旨演讲。他认为,云监控和云加密可以打造可信的云,保障云中数据安全,降低泄密风险。

方滨兴指出,云安全分为四个层面,第一个是可靠的云,能够始终可靠地提供服务,然后是安全云,保障用户及租户在云中不会因攻击而受到损害。其次是,可信云,保障云服务商不会对租户的运行进行侵害。然后是可控云,这个云本身,调动各种云的资源,保障租户不会利用云来运算恶意程序。

在方滨兴看来,大数据由云平台进行存储和处理,分工更细,另外,数据的所有权和管理权分离,这种分离将导致数据不可控,而云监控与云加密可打造可信的云,云监控可防止云服务商作恶,保障云中数据安全,云加密可降低泄密风险,无缝数据加密传输、支持任意云端平台。

方滨兴说,云加密是用户自保式安全模式,首先它是主动加密,主动加密不乱化结构;其次是透明应用,云加密在操作过程不改变用户习惯,可与应用无缝集成,不影响功能,属于傻瓜式配置,可维护性强;最后,功能加密支持密文搜索和格式安全,通过云加密浏览看到的是正常的文章或图片,未通过云加密浏览看到的是乱码。

方滨兴表示,云监控与云加密具有增加了云管控与审计、多终端无缝介入,随时进行操作、智能权限策略、精准指令控制、文化内容审计、大数据分析、更高安全系统等多个特点,其中智能权限策略可以在用户进行敏感操作时提出拒绝,而云管控与审计则具备对云平台和虚拟机的安全加固能力。

记者 牛悦根据人民网、数据观图文直播整理

☞点击此处进入2016数博会专题报道页面:

http://www.cbdio.com/zhuanti/node_6623.htm

责任编辑:王培

随意打赏

2016行业发展趋势2016年发展趋势2016贵阳数博会2016数博会论坛贵阳数博会论坛数博会2016数博会分论坛贵阳数博会数博会论坛
提交建议
微信扫一扫,分享给好友吧。