徐宗本院士再论大数据:政府开放共享大数据 才能关联聚合产生更大价值
中科院院士、数学家徐宗本演讲。 南都记者 马强 摄
“大家以为数学家都像陈景润一样,边走路边思考数学问题,然后撞电线杆上了,其实不是。”2月8日下午,中国科学院院士、数学家徐宗本出席南都报系2017年总结表彰会暨南都大数据研究院揭牌仪式,现场分享了题为《再论大数据》的主题演讲。
“画面中看似混杂无序的小碎片,经过成倍数据的叠加,最后形成一张大象的图像。当数据达到量变和质变的临界点时,人们可以清晰看到数据背后的故事,这就是大数据。而数据如果不相关联和分析,就无法创造更大的价值,好比有人只看到大象的鼻子,有人只琢磨大象的尾巴,但是怎么也看不到大象的整体。”围绕大数据原理,与其它信息技术的关系及盈利模式等问题,徐宗本借形象比喻与案例,将原本深奥的内容生动化。在他看来,目前国内大数据产业链条存在缺乏健壮性、完整性的问题。在国家大数据战略推动下,各地建立数据中心的积极性非常高。但在大数据产业价值链上,存储只是一部分,如果缺乏分析挖掘能力,并形成数据产品,就好比只买米不做饭。
徐宗本总结,做大数据首先要明确目标,“数据是基础,平台是支撑,分析是核心,赚钱是王道。于大数据产业而言,数据就是基本的生产资料,而平台为收集存储数据提供支撑,最为核心的是分析,通过对数据的具体加工解决实际问题,进而变现创造价值。”
◎谈大数据产业
国内大数据产业处在初步阶段 红利未得到充分释放
南都:人们常有一个疑惑,多少数量级的数据才能被定义为“大数据”?
徐宗本:大数据需要有很大空间才能存储,如果这样理解大数据,就是比较低级的认识。首先,我们需要认清几个概念。资料是指记录日常生活、经营、管理、生产过程的载体,比如一张报告,一份视频等。如果这些资料放在计算机上,那就是数据。数据是资料的数字化,以编码形成存在的信息载体。大数据则是大而复杂的数据,具有海量性、时变性、异构性、分布性的特征。数据从量变到质变会产生一个临界点,严格上超过这个临界点才达到“大”的含义,所以大数据是个相对概念,与特定的决策问题相关联。
南都:在你看来,目前国内大数据产业发展处于什么阶段?
徐宗本:与国外相比,我认为基本处于同一水平。现在大数据上升为国家战略,政府在积极推动,这是一个制度优势。同时,我们还有一个天然优势,就是人多市场大,数据资源丰富,而且目前国内互联网发展也走在前头。但总体而言,大数据产业还处在初步阶段。产业链条缺乏健壮性和完整性,未支持形成稳定的价值链。数据开放共享发展也较为落后,大数据的红利未得到充分释放。此外,地方政府还只满足于规划和战略层面,尚未具体落实。更重要的是对需求的认知模糊。企业的大数据盈利模式并不清晰,核心技术也有待突破。最后一些政策法规跟进不及时,数据垄断、数据安全事件多发。对于大数据产业,人们在观望,也存在盲目性。
◎谈大数据价值
数据只存储不分析变不了现 创造价值关键在于模式
南都:为什么大数据能产生价值?
徐宗本:我认为与四个大数据原理有关。首先是量变质变原理,积累的数据量足够充分后,可以解决具体问题。第二个是关联聚合原理,比如研究大象,如果一个人只盯着大象的鼻子、尾巴,你观察20年,积累再多数据,也不能反映原来的面貌。数据只有聚合才能产生价值,共享则能放大价值。另外还有“分析出价值”原理,目前各地建立了太多数据中心,甚至出现产能过剩的问题。如果数据只存储不加以分析,则变不了现。最后,数据本身拥有的可复制、可重用、可加工的特点,使得数据的价值能够随着扩散的范围而增大。这就是效用倍增原理。
南都:你曾提到大数据如果只存储不分析,就好比只买米不做饭,是这样吗?
徐宗本:是的。大数据产业的本质在于分析数据。很多人不知道,这个比喻其实出自南方报业记者一篇报道。当时,我在广东参加一场活动,分享关于大数据的一些看法,记者用这个比喻做标题,解读得非常准确。这也是为什么你们一邀请我来参加活动,我就来了。因为我相信你们的水平。
南都:大数据的盈利模式有哪些?
徐宗本:很多人很关心大数据怎么赚钱。大数据产业链上,包括数据资源获取与管理;数据传输、存储和处理;数据分析、挖掘与理解;结合领域的大数据应用。基于价值链条的不同,可分为全链条模式和节点聚焦模式两种。前者关注聚焦全部环节,后者是做精中间产品,专注于某一环。第三种模式是垂直行业的合作共建模式,行业公司和技术公司合资成立公司,这样既可以保护数据源,又能增强服务。第四种模式是产研共生,一个公司和一个研究院合作,可保证产品质量的可持续性。最后是推动产业的平台模式,这种更适用于政府,由政府搭建平台提供公共服务,企业在其中孵化产品。其实大数据可以做很多事情,关键在于模式要对。
◎谈大数据应用
大数据带来思维的改变 利用不同数据能提高效率服务
南都:现在人工智能、物联网等技术发展迅速,人工智能的核心是大数据的分析,物联网的发展也离不开大数据。如何看待大数据的应用问题?
徐宗本:现在大数据的实际应用案例已经不少,比如对医疗数据的应用,通过对大量的影像和病例数据分析,进而作出医疗诊断,有些技术水平已经达到能与医生相匹敌的程度。当然,目前大数据的应用水平仍处于低位水平,数据开放共享进展滞后,大数据的活力还未得到充分释放。现在80%的数据掌握在政府手中,很多人在呼吁政府开放共享数据,这样才能让数据产生关联聚合产生更大的价值。
南都:在大数据应用过程中,一些企业有时并不知道自身需要什么样的数据,并且拿到数据后,也可能不清楚这个数据可实现多大价值。这是为什么?
徐宗本:我觉得是缺乏大数据思维的原因。在我看来,大数据带来的是思维的改变,能够为我们提供社会科学方法论。现在企业做商业分析更多的还是基于业内数据分析。举个例子,比如我开了一家火锅店,目的是提高营业额。大数据怎么来帮忙呢?如果只是分析一天有多少顾客量,点了什么菜,消费额多少,这并不足为奇。需要注意的是,人们吃火锅跟天气、地域、小区周围有关。如果你收集和分析了天气数据、人口分布数据等,你就可以知道天马上冷了,人们想吃火锅了,哪里的人最喜欢吃麻辣火锅,店铺周围的小区住户是什么人,这样利用不同数据能够提高我们的效率和服务。
◎谈数据安全
必须采用技术手段保护用户隐私
南都:数据流通才能创造价值。但数据流通过程中,可能涉及个人隐私和数据安全的问题?
徐宗本:掌握大数据的政府部门、企业都负有不可推卸的责任,那就是必须采用技术手段,保护用户的隐私。比如将数据抽象化,进行脱敏和匿名化处理,同时还要承诺不能泄露和非法买卖数据。
可以看到,现在公众对于个人隐私尤为关注。但另一方面,数据不流通不使用就无法创造价值,不要认为我所有的数据都不能让别人知道。举个例子,你的病例信息,谁来看比较好?如果大家都不提供病例信息,医生就无法通过大量医疗数据,发现疾病规律和作出预测。而且,在数据分析过程中,医生并不需要知道甲乙丙丁具体是谁。另外,还涉及到承诺和默契的问题。比如遇上妇产科医生是男的,产妇让不让他接生?所以,我认为企业应该主动担起保护责任,通过用户协议、隐私政策等方式,告诉用户是怎么收集和使用数据的,作出相应的承诺。
南都:当被掌握的信息越来越多,一个直观的感受是针对你的营销越来越精准。如果有一天机器比你更了解你自己,这是一件值得担心的事吗?
徐宗本:互联网或大数据来了以后,改变最大的是客户关系,客户在生产地位不一样,过去用户是上帝,现在叫做生产资料的一部分。随着数据的积累,机器对你的行为习惯、购买力、价值观爱好等,作出的预测当然会越来越精准,但不可能做到百分百。因为一旦意识到某个问题,人可以突然改变主意,就让你预测不出来。人和机器的不同在于,人可以产生意识、情感和顿悟。我认为不用担心,机器代替不了人。
责任编辑:陈近梅