院士梅宏:真正的大数据应用体现在数据挖掘的深度
2016 CCF大数据与计算智能大赛于2016年9月24日在中国·北京梅地亚中心酒店开幕。
北京理工大学副校长,中国科学院院士梅宏在会上做了《大数据与数据驱动的智慧》的演讲,探索了大数据带来的挑战和可能的应用。梅宏认为,目前来讲,大数据还在炒作的阶段,真正的大数据应用应该体现在数据挖掘的深度。在演讲的梅宏最后提出:当自演化的软件能够让机器自己改代码的时候,才是真正的类脑智能。
以下为梅宏院士演讲全文:
*根据主办方提供的速记整理,在不改变原意的情况下,部分有删改。
◆ ◆ ◆
我今天的题目叫做 大数据 与数据驱动的智慧,首先我大概分成四个部分,谈谈我对大数据的认识,我想讲四个部分,第一个谈谈对大数据的认识,第二个大数据给我们带来什么挑战,第三个大数据应用,最后结合我们的主题讲讲数据和智能的关系,主要谈我的理解。
◆ ◆ ◆
认识大数据
所谓大数据,它是我们信息化到一定阶段之后,必然出现的一个现象(自然现象),主要是由于信息技术不断的成本化,不断的廉价化,以及互联网及其延伸出来的,带来的信息技术无处不在的应用所带来的自然现象。
基本上有几个主要的驱动力:
一个是摩尔定律所驱动的指数增长模式;
第二个是我们技术低成本化驱动的万物的数字化;
第三个就是宽带移动泛在互联驱动的人机物广联连接,以及最后大规模的汇聚。
实际上大数据正在带来我们新的一拨数据化的浪潮,信息化的第三拨浪潮3.0。
如果我们回顾来看我们的过去的话,我们大体上能够看到两个明显的阶段的划分,一个是在从PC机开始进入市场以来,应该说带来了信息化的第一拨浪潮,这个浪潮差不多到90年代中期,这个时候的主要特征是单机应用为特征的数字化特征,我们主要完成简单的工作上最核心业务的数字化的工作,以PC机为主。
在过去的20年,90年代中期到现在,以联网应用为特征的网络化出现数据大集中,开始全国范围内的大联网等等,各个企业甚至走向企业全球,现在我们正在进入新的阶段,这个以数据的深度挖掘和融合应用为特征的智慧化,或者智慧化的现象。
到底什么是大数据,这两个定义从两个角度来谈:
一个从技术上来讲,我们的技术供给能力不足所面临的对象他称之为大数据,第二是从数据特征讲的数据,这是两个数据的定义。
◆ ◆ ◆
应对大数据
大数据带来的是什么,我觉得最重要的东西可能带来的是思维模式的变化,如果回顾来看看我们过去,基本上定义这不一定是大家都能够接受,但是能够去查的话,定义出现所谓的大数据是在上个世纪的时候,97年的时候,SGI的首席科学家曾经用了这个词,他讲了数据提到大数据,特别强调从技术的视角来看,所谓的难获取,难预测,难处理,难组织四个难题。而从商业视角与大数据时代这本书的发行,开始探讨大数据在商业里面的应用,特别强调了几个很重要的特征,从随机样本到群体数据等这么一个变化。
这是我们经常讲的大数据的价值和意义,大体上分成几个方面。
一个通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力保障国家安全,提升政府的治理能力以及服务民生服务社会的能力。
这是我在几个场合讲的一个我对当前数据状况的一个认识,以及个人的一些见解,时间关系我不会详细的说,我觉得目前来讲,大数据开始还在炒作的阶段,至少到我们中国炒作的热潮还没有过去,所以我们相对于国外的炒作,国外开始进入我们还滞后了3到5年,真正的 大数据应用 应该体现在数据挖掘的深度。
原因有三点:首先有我们对数据认识不到位的原因,还有在当今的情况下一宣传大家都很热,成为了获取资源的途径。不聊大数据就拿不到项目,这也是一个很重要的原因;
第二个是大数据投入过热,资源浪费比较明显,这方面的投入特别是数据中心的投入为典型;
第三个就是我们认为大数据的理论和技术都还处于发展的早期,所以我们定义已经有了共识,但是对它的核心观点和命题还是有很多争议的,比如说大和小,到底怎么来定义,关联和因果的辩证性,所有都讲关联不求因果的吗,所有的数字化的东西相对于客观世界而言也仅仅是一个抽样而已,不管是它的时间密度,空间密度到底有多大。第二是不是有通用的技术体系也不太敏感,从我们做计算领域研究的人来讲,总是希望能够为数据的处理方式提供一种手段。数据科学的理论基础还没有,比如说传统的统计方法,他有一个数据统计的基础在本,我们是不是就用统计,用深度学习,还有没有其他更好的理论上的突破,这个应用了相对超前理论和技术的发展,这样使得很多 数据分析 的结论基本上缺少因果,缺少理论知识,都是用靠关联关系建立起来的。有时候这个使用还是需要适当审慎的。最后一个大数据这个现象可能会长期的存在,对我们计算能力的挑战也是永恒的。
我顺便举两个历史上大人物说过的话,这是过高的估计了当时的计算。
一个是IBM当时的首席认为世界上是由几台计算机就够了,这个大家经常当成他的笑话来说,比尔盖茨也说640K的内存就差不多了,我想数据的增长会远远的超出我们处理能力的增长,所以我们很多的数据是做不到的。比如说2016年美国存储软件供应商发布的,刚才我看有人给我发一个他们做的冷数据存储,冷数据你还处理过,但有的数据你碰都没碰把它存储起来,这个对我们的挑战也是很大的。我们把一个地球搞清楚,把科学搞清楚,很多数据我估计真的到宇宙发生变化的时候也未必能够完全处理清楚。
第二个数据带来的挑战,我是把它分成两大类,一类下面这类有大数据的管理,主要指的计算机的技术,讲计算机类的技术,第二是大数据的分析方法,怎么样有理论方法去分析它,讲这两个。大体上有这么几个东西。管理上一个是数据库管理系统,面临一系列的挑战,我们传统的关系型关系库追求数据的一致,系统的高性能。没有预先定义的模式使得一致性难以支持,高性能也难以实现。数据库传统发展的理念也开始完全由一个通用的数据库开始追求领域通用,这是一部分。
这是数据的管理本身,那么数据的处理,怎么处理,由于单台计算设备不管性能有多高,它也不可能把数据处理完,所以说并行处理就成为不二的选择,因为数据量太大了。要并行处理就面临不同数据的需求,比如说批处理,流处理,图处理,当然一系列的东西大家都在尝试,也可能不存在通用的数据处理方法,或者数据处理平台能够适应所有类型的数据,是不是能够做到,现在目前来看也没有。
一种可能的途径,比如说能不能通过软件的定义的方式,我们能够把各种能力集中到一起,然后在上面透过不同的数据处理的需求,定义出不同的平台,也就是说我要实现这种平台把它柔和到一起的这种可定制性,可剪裁性能不能做到。还有云计算中心,现在越来越多的大数据依托于云计算中心。
第二部分大数据的分析方法,可能和数学分析方法更紧密的相关,怎么能够把我们理论方法体系建立起来,在不同领域进行应用。
我们大数据分析面临着一对挑战:
一个是分析对象的改变,过去是预处理后数据我们现在是原始数据,以前是样本数据,现在是全数据,以前是单源单模态数据,现在是多源多模态数据。就是分析对象发生了变化;
第二是分析的需求发生变化,我们需要更加准确的高精度分析,还有复杂关联的深层特征,还有大规模的复杂关联;
第三个变化分析模型能力的变化,我们需要追求从表达力受限的低维数据,到高信息量的高维数据,还有弱表达力的简单模型到强表达力的复杂模型,目前来看,我们很多的大数据分析方法都主要是可视化的展现,统计分析,机器学习的技术;
再一个大数据可能在这种情况下,计算机领域也探讨了很多,现在的以通用性考虑为主的IT体系很难满足大数据的需求,有必要考虑对整个IT架构进行革命性的重构。
◆ ◆ ◆
应用大数据
第三应用大数据有一些成功的案例我就不细说了,我做了一个分类,一类是互联网类的,这主要是指公共平台的, 物联网 类主要是有助的,做的各种传感器,组织业务是指每一个企业机构他们自己内部的以结构化数据为核心的融合的各种各样的组织业务的数据。还有一个科学实验的数据,大体分成这样几个。大家可以看到这几类数据都有很多成功的案例,在这我也不细讲了。
大数据应用,大家基本上认为有三个层次。
一个首先第一个层次只是关注到底当前发生了什么,把发展的态势曲线给你描述出来,呈现发展的历程;
第二是预测,能够在当前分析的基础之上,预测它未来可能会发生什么,呈现事物发展的这么一个趋势。比如说流感的预测,奥斯卡的预测大概都属于这类;
第三类就是所谓的指导性,指导性的就当前的态势,如果你做一个动作,会产生什么后果,这就便于当前的态势要做出决策,不仅是预测未来怎么样,而是做一个动作以后,做一个决策以后,会不会影响未来的结果。
所以从当前来看我以为当前的大数据应用呈现这么几个特点:
一个从应用层次上讲,应该说描述性,预测性的应用还是比较多的,真正的指导性的应用偏少;
第二从数据源的角度,基于单一数据源的数据偏多,基于多态数据源偏少,有什么数据整什么数据,包括今天发布了很多题目,数据摆在这你找去,根据我的应用需求,我把各种数据柔到一块这种应用也偏少,有时候前几年看了很多竞赛题目都不错,真正呈现大数据分析的非常让你眼睛一亮的这种特征的东西还是偏少,他没有应用需求。
怎么根据我的要求找这种数据,这种应用偏少,当然对数据研究缺少数据源也是很重要的理论。从需求导向,也是根据我到底有什么问题,在问题里面我想解决什么问题,我提出解决方案,这样的应用这种构建模型的应用也偏少,因此从这个意义上讲,我以为大数据应用还仅仅在于初级阶段,这也就是我刚才我讲的,我们从现在开始,也许我们正在进入信息化的第三拨浪潮,这个阶段会持续多少年,我不知道,但我乐观的估计,大胆的揣测一下我相信应该有十几,二十年,这也有一个依据,这个依据我在报告的时候也会讲一个东西,经济学上有一个传播理论,每一个传播大概是50年左右,包括早期的蒸汽机引领了50年,汽车也引领了50年,我们真正的信息领域引领这50年是从上个世纪50年代,以微电子网络才开始,所以信息技术已经发展了几十年了,真正在经济里面占据主要的驱动力,也就从90年代开始,大家算算90年加50,我们可以到2014年所以在未来的20多年大体上还是IT的天下。
◆ ◆ ◆
数据和智能
最后讲讲数据和智能,我们谈的最多的是数据驱动的智能时代正在到来,我们来回顾一下人工智能,人工智能这个词早期有非常明确的定义,他有它的做法,人工智能到现在为止也正在接受第三个高潮,早期的人工智能都是硬编码,所谓的智能都是程序,就是高级程序设计,通过高级的编成方法,后来长期的发展还是走的基于规则的智能,实际上就是基于逻辑的,构建一个规则库,构建一个事实库,加上逻辑推理,当时人工智能里面也很长时间受到批评,认为人工智能没有产生什么实际的效果,实际上有一批人工智能还是不错的,就是专家系统,专家系统真正解决了很多当时存在的问题。
我觉得现在当前我们正在走的这拨人工智能,它和过去的做法是不一样的,这是数据驱动的智能,它是利用机器学习,统计分析的方法从数据中自己向上发现规律,前期先构建规则,规则驱动它不太一样,走的这样一个途径,今年最热的就是阿尔法狗,在最难的棋内战胜了人类,当时网上炒的很多很多,很多专家也没出来说话,所以如果我说这个事情对于人类的威胁,我牙根就不认为它有什么威胁,他永远是为做事的,大家想想过去每次技术进步,就把我们人类的劳动减少多少,机械把我们的体力劳动减少多少,不过就是计算把我们的智力劳动,很多烦琐的劳动把它减少了,他离人工智能还远的很。
最后谈到一些若干概念,当前关于智能或者叫做人工智能,有很多提法,人工智能是最早的,一直在谈,我一直认为人工智能是有它当初严格的定义的,过去人工智能做的东西,现在我们写的人工智能技术,前沿技术我真的不认为所谓人工智能前沿技术是什么,有人曾经用过机器智能,这个走的路径应该说是一种结合,但更多的还是基于规则的多一点。
现在也有人称之为数据智能,我们叫做计算智能,李老师也谈到了,是有一个狭义的定义的,神经网演化计算,曾经用过的词,我们为什么用这个东西呢,我个人还是觉得数据驱动的智能,最终呈现智能的方式,还是算出来的。实际上本质上是把人的智能的问题,把它转化成计算的问题,这个计算的问题要么是逻辑推理算的,有一个规则去驱动的,要么是通过数据处理的方式从数据里面弄的实际上它本身还不算是智能,所以我们为什么想选择智能,我觉得这也挺好,我觉得站在计算领域的角度总希望用这个角度来说话,我讲大数据的时候我曾经说过,我说大数据能够出现是因为计算智能要解决它还得靠计算智能,甚至你说你可能有一个模型的方法出来能够用量级的计算,但不管有多大的量级,没有计算机,你人靠手算是永远算不出来的,所以还得靠工具克服,因此还是计算问题,我们更倾向于把它叫做计算所产生的智能,当然是基于数据所产生的智能。
第二个问题是机器计算机真的能拥有人的智能吗?
在座的大部分都知道,它不可能,现在又有一个说法,类人智能和类脑智能,我们现在国家在搞脑计划,有内脑计算,我们现在的机器是没有智能的,它是把人看成一个黑客,互联网上提一个问题都有,这个智能是像人一样,感知相对容易,认知且难且难,所以我觉得内脑智能应该是什么,我们真的把人的科学上的人脑的科学上的东西搞清楚了,然后模拟这个东西做一套东西,我觉得这叫内脑智能,给你一个行为,好像他能解决问题,只不过是靠计算机强大的计算能力,把一个所谓的这种问题变成了一个数据处理的问题,计算的问题而已。所以我觉得类人智能发展大体分成三个层次,第一个是传统的人工智能走的路,一个软件加上一个知识库,在上面做推理,这是一种。第二种如果说我们能够形成一个自演化的知识库,要靠数据的方式解决,我从数据里面能够不能不断的凝练一些东西出来,知识库能够自己去增长能不能做到这一点,我想如果能够做到这个,就能够形成第二层次的智能,这个东西要从我们数据汇集里面得到想要的结果。
我想第三个层次,能不能自演化的软件,加上自演化的过程,大家知道我们现在所有的软件,一旦写好以后,编译结束以后是改不了的,自演化的软件能够机器自己改代码可能吗?现在肯定是不可能的,但我们也尝试,比如说用数据的方法来改它有大量的软件片断存在,我能不能在某种特定的环境之下,解决软件的一些行为的改变,这是一个梦,这个梦是计算机科学家长期的梦,过去软件智能化就是想解决这个问题,但实际上没有做成,那是走的规则方式未来这个如果能够解决,我觉得类脑智能就更像,机器能够改代码,现在我们组织一个团队想尝试这个事情。
机器自己能够改代码,我想在我有生之年看不到了,从我本意来讲也不希望这个情况出现。如果真的这个情况出现了,世界就大乱了,好,谢谢。
----------
启动仪式上,各行业大咖发布了来自各创新企业与科研机构的11道高质量大数据与人工智能创新赛题,涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等多个热门方向,将为图像处理、自然语言处理、用户画像、推荐系统等领域提供大量来自真实场景的问题与数据。
感谢大会主办方提供速记,部分有删改
记者|魏子敏
注:本稿件摘自数据观入驻自媒体-大数据文摘,转载请注明来源,百度搜索“数据观”获取更多大数据资讯。
责任编辑:陈卓阳