俞士纶:大数据的机遇与挑战(附PPT)
导读:“2016首届中国大数据应用大会”在成都世纪城国际会议中心举行了开幕式。在7月14日上午的开幕论坛中,清华大学数据科学研究院院长、Fellow of the ACM and the IEEE俞士纶院长分享了题为“大数据的机遇与挑战”的演讲。以下为演讲实录:
大数据的产生
进入大数据时代是因为现在有很多数据可以被收集和产生,我们有很多传感器,其实今天我们手机上也有很多传感器可以传输我们的位置在哪里,或者我们行动的速度,我们每一天要上网,我们上网的记录都会被记录下来,另外现在我们大家要电子医疗,就把我们所有的病历都整合在一起,这又是另外一种数据,现在我们在很多地方也是利用数据来研究,比如说我们的加速器,也是收集很多数据,从这些数据里推测最近发生了什么现象。前阵子我们放了很多卫星到太空,也是为了收集资料,我们购物的时候也会留下很多的数据。
从前只有新闻记者可以发表意见,而现在我们每个人都可以发表意见,在饭店吃完饭之后就可以发表什么好吃什么不好吃,以前只有美食家才能给饭店评星,现在每个人都是一个记者,都可以发表意见,正是因为这个原因我们就有了大量数据产生。
大数据的机遇
我们有大量的数据不断地在产生。但是我们为什么要关心这些数据被产生?因为这些数据事实上有很高的价值在里面,比如从一个公司来说,它希望能够得到它的顾客资讯,顾客了解越多就越能够为顾客提供更好的服务,所以对于一个公司来说,收集顾客的数据对他而言是一种竞争的优势,比如说我们像阿里巴巴,它有很多的顾客,这样收集的数据就不是一个小的电子商务公司可以相比的。
每一个人都可以到网上批评任何一个产品,所以对公司来说也必须要了解它的产品在网上的评价是什么,如果被别人评价的不好就要马上采取措施,解释说为什么这个产品有人会觉得不好或者要进行产品改进,不然既使是大公司,它的产品收到不好的网络评论它也会卖不出去。政府也希望了解一般人对政策的反应,所以美国一个政策实施之前会放一点东西到网上看大家的反映,这样政策就会跟着调整。
现在大家最关心的是反恐,如果要反恐也是需要收集很多网上或者电话资料的,这样就可以在恐怖分子攻击之前就把这些恐怖分子抓到。
健康医疗方面,一般人现在的看法是,我们的健康医疗其实并不是很进步,比如一个人得了癌症,通常如果做化疗医生第一个建议化疗的药物是很多人对这个药物有好的反映,如果这个药物没有效再介绍下一个药,所以他并不是针对一个个人的状况来推荐药物的,我们就希望如果可以把很多病人的资料能够聚合在一起,就可以找到对这个病人而言哪一种药是对症下药的。
社会科学方面,我们知道社会科学都是喜欢做问卷,你设计一个问卷,然后访问,也许100个或者1000个人就可以得到答案了,而现在社交网络上有很多资讯,我们可以直接在网络上采集资料,比如美国大选曾经也是使用问卷的方式,来预测哪一个人会当选,现在直接从社交网络上收集资料,因为这些资料有的时候更加有代表性。
教育方面我们有很多数据,但是教育跟其他行业相比,它没有受到大数据的影响,这有很多因素,一方面教育你要进什么学校,还是受到品牌的影响,你觉得哪一个大学有名就进哪一个大学,所以教育方面不太会受别的影响,这跟商品不太一样。从一个学生入学开始就可以看他各种资料,可以研究一下哪一类学生最后毕业之后表现会比较好,我们教学几十年都没有改变,就是在课堂上讲课。但是事实上我们有很多学生表现的资料,也可以用这些资料改进授课的方式,当然现在以一种新的方式进行授课,就是在线教育开始萌芽,这可能对将来整个教育系统有一个冲击。在线教育的好处是因为在线,就可以收集很多资料,看学生在获取知识的时候它的反应是什么,怎么样的教育对某个特定的学生会比较有效。
另一方面,高等教育的成本其实很高,在中国因为有政府的贴补,如果是在美国,尤其是私立大学,一年教育费用大概6万美金,也是很贵的,既使是州立学校也需要两三万美金,所以对中产阶级而言教育的费用很高,需要花相当多的钱,所以很多学生念书的时候就借贷。现在有一种想法就是,我们怎么样把教育的费用降低,想要教育费用降低,那么在线教育就是一种方式,因为可以几十万人同时在线学习,而传统教学学生增加了老师就必须增加。如果我们走向在线教育,也许我们就可以把教育做的更个性化。
我们知道大数据是颠覆性的技术,会使很多产业受到影响,上一次我们有一个颠覆性技术出现的时候就是英特网的时代,当时对各个产业的影响,互联网受到冲击最大的就是零售业,在美国就是亚马逊和易贝。第二个是做产品,你要买一个手机或者电视机,只要知道产品的型号,你到哪里去买都是一样的。所以,这对传统的零售商是最大的颠覆。旅游业方面,从前在互联网起来之前,如果要去国外旅行,多半要经过一个中介商去帮你买飞机票、预订酒店,现在就不需要了,你直接就可以在互联网上到航空公司的网站或者酒店的网站直接订票,整个行业就慢慢消失了。
从前你要买股票的话,就要经过一个中介商帮你买卖股票,而现在也不需要了,你可以直接在网上购买,很多网站都可以提供这种服务。
在80年代你要看电影就需要跑到店里去拿VCR或者DVD,但是现在这个行业完全不存在了,因为你可以在网上就观看,在美国传统的这些店都被打垮掉了。现在我们有一个新的模式,根据你用的时间来付费,思维都在改变。
受到最大影响之一的报纸,从前从美国来看,报纸业是可以赚钱的,但是现在因为网上所有新闻可以即时看到,报纸上还需要第二天早上才能看到,而网上当场就可以看到,所以你得到的讯息更快,很多人都不再订报纸了,直接看网上的新闻就可以了,911的时候,我们也可以在网上直接看到视频,这是报纸无法给予的。
还有一个被挑战的产业就是出租车,传统的出租车面临优步和滴滴的挑战,如果他们不改变,那么就会被淘汰。
大数据的挑战
大数据时代是一种颠覆性的技术,所有企业都要想一想这对它们的含义是什么。但是我们也要想想看,大数据的企业怎么起来的?
大数据企业既然叫大数据,就要有数据,而有了数据还不够,大数据的量是很大的,你怎么从大量的数据里提取有价值的出来,是一个挑战。我们讲大数据的特性当然是量大,但是产生的速度也很快,有五花八门的数据在里面,它的可靠性也是有问题的,所有必须要知道什么是有质量的数据。
我们要有新的思维,怎么样把价值进行提炼。政府政策、企业的资金、人才这些都是问题。我们说大数据的关键,就是我们要有数据。所谓大数据,大家都说到处都是数据,但是这不表示每个人都可以拿到数据,因为有些数据只有一些大公司才有,比如阿里巴巴和腾讯,这些数据也不会跟你共享,因为对这它们来说这是竞争的优势。即使说我们要去做精准医学,我们要拿到病人的资料,这也涉及到隐私的问题,所以有时候也不愿意把这个数据给你。当然有些数据是在网上的,你可以去下载,但是有些也是五花八门的,整合起来也不容易。所以,我们要发展大数据,一个思维就是政府要能够把一些数据开放出来,让大家可以用。
世界上有很多大数据的公司,他们有的数据也只是单一的数据,比如说亚马逊,它只是一个卖东西的公司,它是买卖的数据,并不是社交网络的数据,所以和脸谱相比就在这方法没法比,有时候你可以根据过去的历史看你过去买了什么东西,如果我知道你的朋友是什么我也可以更好地推荐,因为我知道你朋友喜欢买什么,喜欢去哪一家餐厅吃饭,这也是有效的资讯,可以用来推荐。所以,数据是越多越好,你要收集到越多的数据,再把它整合,就可以有更加多的优势。
现在大家都把数据当做一种资产,因为数据本身就是你要发展大数据,你要成为一个大数据公司,提供大数据的服务,或者是大数据的产品,如果没有数据这些都是不可能的。最近微软就购买了一个社交网络公司领英,因为微软没有社交网络的数据,买了领英之后就有了每个人的数据。IBM之前也购买了一个气象公司的数据,IBM本身跟气象预报也不是太相关,但是天气的数据可以跟很多别的东西联系在一起,比如你要推荐交通路线,运货的大卡车从一点走到另外一点,就需要知道天气状况,如果过几天会下雪或者下雨就可以避开这些路线,宁可走更远的路线,所以天气的东西有很多别的用处。你预测到明年会干旱,这个产品就会减少,那么这个价格就可能会增高,你就可以采取一些相应的措施。所以,这是很有用的数据源。
各种不同的数据源要合在一起,这其实是一个挑战,因为不同的数据源的形式都不一样,想要合并在一起也不是容易的事,很多公司也有不同的方式来收集顾客的资料。比如谷歌一开始是一个搜索引擎公司,它就知道你在搜索一些什么东西,后来有了Gmail,又提供了谷歌MAP,它就知道你在什么地方,比如我在北京要找饭店,它就可以给你提供北京周围的饭店,如果我到了成都又会给我成都的推荐,通过它的社交又可以知道我的朋友是谁,各种资料合并在一起就可以做更好地推荐。
比如说如果要发现一些恐怖分子要做什么行动的话,也不单一数据源就可以解决这个问题,你可以收集手机通讯信息,看他跟哪些人通话,在银行里他的银行交易记录,还有购买飞机票的资料,把这些资料合并在一起,也许就可以发现一些蛛丝马迹。
之前马来西亚有一个飞机MH370不见了,从天上要用卫星来看这个飞机可能的轨迹在哪里,地上就使用雷达,就可以给飞机的高度、位置作一个定位,海底也要侦查黑匣子的信号,就天上、地上、海下全方位配合。但是还是没有找到,为什么呢?因为雷达在高度资讯上是错误的,所以我们要把不同的数据源合在一起,有的数据源可能杂音比较多,我们就要知道怎么样处理这些问题。
我们希望我们能够把公共的数据公开化,这样就可以解决一般人人没有数据的情况,所有人只要有兴趣,都可以参与大数据的发展。李克强总理说我们要大众创业万众创新,如果他们有了数据,就知道他们怎么样参与到大数据的产业创新中了。
现在我们看几个例子,我们现在看到的是谷歌,如果你要问它两点之间要找一个路线,它不只是告诉你哪一个路线好,还会告诉你不同的路线会花多长时间,它不是一个简单的问题,怎么去做预测,里面有各种不同的数据,一种是公共的数据,也有私人的数据。还有一个是我们可以在社交网络上收集一些数据,公共数据就是政府的数据,政府里面有各种各样的摄象头等等这些东西,可以用来收集数据。私人的话,如果是一个公共汽车,那么它可以计算公共汽车到你这个点的时间,当然出租车像滴滴这些,它就知道自己的车在哪里,就可以计算这个时间。社交网络上也有很多资讯,如果看到什么地方拥挤了,也会在社交网络上进行报告,所以各种各样的数据都有,但是每一种数据都有极限,像我们看Twitter,他们对交通事故爱报告,拥挤也爱报告,其他事情不太爱报告,但是覆盖率也别不太高。真正要做一些正确的预测,就要把所有的数据合在一起。
如果我们要发现药物,能够预测一个化学药物能不能治疗疾病,就要看它内部的结构来进行预测。事实上这只是一个很少的资料,我们有五花八门的资料。这样就有很多的资讯,出去有了这些,就可以做精准医学,可以看哪些病人跟他有相似的情况,就可以知道哪一种药物对他更有效。
我们讲精准农业,因为我们可以用卫星拍下来的照片去了解土壤的情况,如果再加上我们对天气的预测,就知道这块土地应该施用什么肥料,种什么东西可以得到最大的收获。
当然,我们在讲大数据的时候也不能不提到我们的隐私问题,越多的数据这个问题就越严重,虽然每个数据源都把它保护了起来,但是如果合在一起反而有时候又会造成一些新的情况,所以这个问题需要继续研究。
本文讲稿速记和PPT由主讲人俞士纶院长和主办方 “首届中国大数据应用大会”授权获得, 大数据文摘(bigdatadigest) 和数据派(datapi)联合发布。速记内容有删改。
整理:袁明嘉
校对:张冬阳
注:本稿件摘自数据观入驻自媒体—数据派,转载请注明来源。微信搜索“数据观”获取更多大数据资讯。
责任编辑:陈近梅