中国工程院院士张尧学:大数据能形成产业吗?
5月25日,由2019中国国际大数据产业博览会组委会主办,中国通信学会承办,贵州省通信管理局、贵州省通信学会协办的“2019云计算和大数据发展前沿高峰论坛”在中国数谷贵阳召开。论坛活动中,行业专家、学者、企业家就大数据、云计算的前沿发展问题发表演讲,中国工程院院士张尧学发表了《大数据能形成产业吗?》的主题演讲。他认为,促进大数据形成产业的因素主要有三个,分别是数据采集、数据储存、数据安全。
以下是演讲内容整理:
张尧学:
尊敬的各位专家,各位朋友,大家下午好!
大数据非常热,大家也非常了解,我最早接触大数据的时候已经是十几年前了,我心里有一个疑惑,就是大数据它到底能不能形成一个真正的产业?我所说的产业不是一百个亿或是几百个亿,而是几万个亿甚至上千万个亿的大产业。
看看这十几年的发展历程。首先这是一个老问题,在上世纪八十年代末,诺贝尔经济学奖获得者索洛当时提出一个观点:计算机无所不在。此观点在全世界的经济界引起了热议,最后信息化没有带来实际的发展,这句话被他自己给否定了。
现在是软件即服务的时代,大数据已经成为一个服务提供给大家,但是其实作为服务提供给大家,说的是数据采集、数据存储、数据分析、数据应用。很多时候我们虽然用了“大数据”这个名词,但是到底是不是大数据,我们很难给它下一个定义,或者说我们说的所谓的大数据就是“大数据”。
2017年,我们国家的大数据产值大概为200多亿,当然这是指核心产业。真正做大数据系统并拿出来卖的,我们国家包括全世界有没有专门卖大数据系统的公司?大家听到最多的是阿里云、腾讯云等等。它有一个大数据系统,什么都放网上,说这是大数据,说交通大数据、医疗大数据、教育大数据,但是大家真正在卖大数据吗?在卖大数据支持系统吗?卖的是服务。
既然说大数据系统做了十年,但并没有带来很大的一个产业值,问题出在哪儿呢?真正建一个大数据,或者说建一个大数据系统,它有哪些关键因素?
第一,数据采集是关键因素。 大数据一定要和一个相关的产业融合、结合起来,才能产生生产效益。也就是说如果没有一个行业或者产业与大数据技术融合的话,那么它是很难形成生产效益的,也就生产不出利润。
要和行业结合,首先必须采集数据。比如采集海洋大数据,那就必须有相应的终端或者传感器深入海洋去采集,这就是5G和IOT为什么有这么大影响力的原因。IOT以采集和处理数据为主。最早采集数据的时候,数据库基本上是格式化的文本数据,后来也有一些流媒体等数据,但是现在它是跨媒体或者全媒体数据,即采集的数据不仅是声音、图象、文字等,而是各种各样的。数据采集之后要对它进行整合、传输,传输过程当中还要关注保密、安全等等问题。
其次,是公共数据、私有数据的采集问题。去年12月在美国,我对一个现象大吃一惊:张学友的演唱会运用了人脸识别以后一下子抓了十几个逃犯,那是因为中国走到哪儿都采集你的头像,而且不违法。我发现美国只有进海关的时候才能采集你的头像,其他地方都不能采集你的肖像。一个案例:旧金山街上小混混抢警察的车,抓不着,但是在中国就可以很快抓住犯罪者。为什么美国抓不到?因为在美国肖像信息是隐私,谁对你拍照了你可以告他,因为你有肖像权,他侵犯了你的肖像权。这就是公共数据和私有数据该怎么处理的难题。我们在座的每个人的脸部特征都在公安部的数据库里,所以你不管走到哪儿,通过特征匹配很快就知道,好人匹配没问题,坏人一下子就会被抓住,这是好事,同时也是坏事。
另外就是采集终端的问题。IOT最大的变化就是把原来的台式计算机和手机都变成了都是计算机,它主要用途第一是采集数据,第二才是对采集到的数据进行处理。不同的行业具有不同的数据采集标准,所以要想使大数据和行业结合,数据治理标准十分重要。
第二个就是数据怎么存。 数据采集之后面临储存的问题,目前大数据有很多存储方案,包括结构化、非结构化、半结构化的数据。很多省市建了很大的存储基地,这是一件好事,但是大数据的集中存储和分布式存储是不一样的,过分集中的储存大数据有的时候是一件坏事。
第三是数据安全的问题。 还有一个涉及大数据的问题——人工智能。人工智能涉及机器学习、神经网络等,到现在大家都认为人工智能有很大的发展与进步,但其实人工智能是没有太多进步的,它唯一的进步就是大数据,即数据多了。数据为什么多了?是网络。
人工智能在算法上根本没有进步,感觉它进步了是因为机器强了、算力强了、数据量大了,然后你可以通过原来的算法,使得它原来一天算出来的现在十秒钟就算出来,原来是1P的数据现在有1000P,所以就能更快得到结果。所以不同的行业如果能和大数据深度融合,能够通过新的算法进行分析,才是具有真正的竞争力。当然你有了算法,还有一个核心问题就是精准搜索问题,包括百度、Google它实际上都是精准搜索。
总之,我认为大数据能不能形成产业的核心问题不是在大数据本身上形成产业,而是大数据推动行业进步,和其他行业融合起来发展形成产业。所以我的看法是三点:一是大数据没有办法形成产业,它和原来的Oracle不一样,就是卖软件,像微软操作系统能够卖出巨大的微软,后来云计算也是一样卖服务了;二是大数据虽然可以极大推进新的产业的发展,但是它的融合可能会给人的隐私或者人类本身带来极大的破坏。打一个简单比方,如果你把希特勒的基因搞明白了,复制一千个希特勒的基因出来,这个世界怎么办?你把一千个希特勒放美国,他肯定挑起战争,全世界很快就被它灭亡了。科学技术发展这么快,大数据稍微控制不好,或者数据造假,一个小问题可能就会放大成蝴蝶效应;三是数据采集,我们也做了不少终端应用到医院采集数据,这些数据包括CT、MRD、核磁共振等,只要机器启动所有的数据就进入了大数据系统,同时病人能在1~2分钟内拿到片子,数据采集对之后的数据使用十分重要。
扫码或点击链接查看更多2019数博会信息
http://www.cbdio.com/zhuanti/node_12008.htm
责任编辑:陈近梅