中国工程院院士邬贺铨:大数据共享与开放及保护的挑战

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

中国工程院院士邬贺铨:大数据共享与开放及保护的挑战

尊敬的陈部长,各位领导,各位专家,早上好,我的报告题目是大数据共享与开放保护的挑战,谈三方面问题,大数据的共享与开放、大数据流通与交易、大数据的利用与保护。

先说说大数据的共享与开放。我们知道现在大数据本身有物理空间的数据,有信息空间的书局,还有智慧空间的数据,这是三元数据。作为网络层面的数据有自媒体数据、富媒体数据、基层网络数据、日志数据,麦肯锡曾经讲过大数据的利用能给美国的保健、欧洲公共管理服务的提供者分别带来3000美元、2500亿欧元和6000亿美元的年度价值,会给经销商带来60%的利润增加,会给制造业带来50%的成本降低。麦肯锡曾经统计过,受教育、运输、消费产品、电力、游戏、保健,如果政府开创数据,大约在保证国家安全和公民隐私的情况下开放数据,可以带来年度的全球经济价值32000亿美元到54000亿美元,所以大数据本身带来的产业价值是很大的。

首先说共享,国务院关于促进大数据发展的行动纲要里提到推动政府信息系统和公共数据的互联共享,消费信息孤岛,避免重复建设和数据打架,增强政府的公信力,促进社会信用体系建设。大数据共享是谈什么共享呢?政府部门之间的数据共享、跨行政区域政府间的信息共享、政府与企业间的数据的合作和共享、企事业单位之间的数据共享,这是很多方面的,当然我们可以先看政府层面的。需要设立大数据协同管理机构促进政府部门间的数据共享,必须有很多政府间合作才有很大得数据量,但是必须要健全地制造框架和制度体系,明确共享什么,明确参与共享的责任和义务,要有互利,否则共享是很难持久的。现在一些城市设立大数据局来做这个工作,比如广州大数据管理局,主要做协调政府内部的信息平台的共享,怎么打破部门之间的信息壁垒,共享各项民生数据。

另外需要建立进一步的基础数据库,一方面是要集中存储被共享的数据,同时进行清晰、校验和整合,提供可以共享的目录,以便用户可以接入和收取这些数据。当然还要规定访问的权限,跟你没关的数据你不见得都需要去访问。还要灾备等等。

这是政府基础数据共享与交换平台,首先包括人口数据、空间地理数据、宏观地理数据、医疗数据、经济数据,进行融合、重组、转换、关联、安全。提供服务可以提供部门之间综合的服务,部门企业政府的数据共享。

按照行动纲要的要求,明年中央就要构建形成统一的互联网数据平台,习总书记讲要建立全国统一的数据集中的平台,当然这是逻辑上的统一,是不是物理上都是统一,这可以研究。有一些跨神经区域的大数据共享合作的例子,这里讲的是连云港有个区是跨山东和江苏的,跨两个省,它彻底打破了行政区划的限制,整合了山东和江苏相邻的几个地方的监控图像数据,要做统计分析、轨迹展示、布防布控,实现一键查询、统一风控报警、快速判定行窃轨迹等等,目前通过这个平台抓获了国内违反犯罪人员500多名,破案400余起,这仅仅是这一个区和周边五个县就已经取得这么好的成效。这是跨部门的大数据共享,发展行动纲要提出要加快建立公民法人和其他组织的统一社会信用代码制度,要有企业的信息公示系统。目前已经建成了网络执行查获系统,现在已经有13个国家部门、3000多家银行能够查询11类14项,使得全国法院可以了解所有被执行人的情况,实现自动化的精准查询。

中央政府之间的共享,监察部对其他部门有监督作用,他可以共享其他部门的数据,不见得其他政府部门可以共享他的数据,中纪委的数据不太可能跟其他部门全部共享,部分的数据共享可能是不对称的。中央政府跟地方政府间的数据共享也是不对称的,中央政府可以看到所有地方政府的数据,但是不等于地方政府都能看到中央政府的数据。中央政府共享到什么层次,是省级、市级还有县级现在没有界定。政府数据共享到什么程度,是不是政府与政府部门之间所有工具都是透明的,至少公安部不会跟其他部门的数据透明。

政府跟企业间的数据共享是不对称的,政府提供给企业的数据本身就是可以公开的数据,除此之外政府也不能只给某个企业提供信息,而不给另一个企业提供信息。从国家安全出发,政府是有权调用企业数据,但除此之外企业是不是有义务一定要向政府提供数据,这是有疑问的。在政府调用企业数据的情况下怎么保证企业的商业秘密不泄露,现在还没有完成规范,企事业单位间的数据共享,这实际上是交易行为。在国家大数据行动纲要提到,2018年要开展政府和社会合作开发大数据的试点,不是简单说政府调用企业的数据,而是政府怎么跟企业合作开发。在关于积极推进互联网+行动计划纲要,开展一批社会治理互联网的应用试点,打通政府部门、企事业单位之间的信息壁垒,利用大数据分析手段提升政府的数据治理能力。政府为了很多数据,很多BAT数据政府是不拥有的,如果政府能把BAT数据融合在一起,对于政府能够掌控社会智慧城市、中国的治理都会有很大的作用。

2013年在北爱尔兰召开的会议提出了开放数据,发布数据是为了激励创新。开放14个重点领域,这里边非常详细。开放数据三项共同行动,激发国家的行动计划,每年都要评估政府开放数据的情况如何。要求发布的数据不是一般的数据,而是高价值的数据,包括预算、民主、环境,另外不仅仅是发布加工过的数据,还要有源数据,往往我们认为政府发布的数据是加工过的,实际上只要不影响国家安全和公民隐私,很多原始数据政府应该开放。开放的数据是要完整的、重要的、及时的,很重要读,不要对某些公民开放,对某些公民不开放,不能说一定要有授权才能接入,不能开一阵就关掉了。共享是政府部门之间、政府和单位之间,开放是对社会,所以在这点上对开放的要求是很严格的。

美国政府有个开放网站,有些没有开放,公民提出来要求开放的时候要分析,有些就立即开放,有些经过一段时间开放,因为安全隐私原因没法开放要向政府交代。而且开放数据要屏蔽掉隐私,比如他开放人口数据,是安全编码分区域的人口数据,老龄化的有多少,上学儿童有多少,男的多少女的多少等等,可以看出这个地方的情况,还有用电量、犯罪记录、中小学评估等等,可以判断这个地方的学区房值不值得卖。还有小区的污染、噪声等等。还要注意到美国政府的开放数据同时开放了数据挖掘的工具,帮助老百姓利用这些数据,在政府开放数据的平台收集了老百姓通过挖掘这些数据得出的可视化的结果,所以非常有利于公民对社会的了解。美国开放数据可以开放到很多方面,有交通、空气污染、环境、支付各种。

这是英国的开放数据,他在网上,比如你的收入是2万英镑,你就点网上,把鼠标拉到2万英镑,得出你一年的税收是8774英镑,你的税收用到哪里,用到政府运行,每天的税收,1.69用在国防,每个人都可以很清楚地看到你的纳税在政府里的应用状况,是阳光透明的。中间的大图是英国总共收到的税收,6948万亿英镑,其中用在各个方面多少钱,就知道政府开支具体的状况。中国政府开放得怎么样?根据不完全统计,中国政府数据开放平台超过40多,其中沿海经济发达地区占总数的70%,西部中部还是比较少的,我们开放了教育、医疗、文体、环境,开放的数据存在什么问题?开放的总量偏低、结构化程度低、数据质量不高、民众参与反馈不准。我们还有很多方面做得不够。

以北京的政府开放数据为例,去年北京政府主动公开政府信息超过100万条,跟2015年差不多,其中主动公开的文件不到1万件,主动公开的重点政府领域信息73万条,细看一下北京公开的政府信息里主要是关于食品安全标准和食品生产的占了一半,关于企业信用系统占40%,两项加起来占了90%,剩下的只有10%,10%有政府的三公预算、农民征地、政府定价,实际上可以看到还是很不全面的,还有很多可以开放应该开放的数据没有开放。公民关心食品安全,所以这方面的数据比较多。

联合国电子政务发展指数,有三项,信息基础设施、人力资源、在线服务的情况,其中在线服务跟开放数据有关。我们看到两年统计一次,2016年开放电子政务发展最好是英国,中国排第63位,还是比较靠后的。数据有个晴雨表,开放数据的准备程度、开放数据的执行力,开放了什么类型,质量怎么样,开放数据的影响力、效果、透明性、对环境的影响、对国家经济的影响。根据三方面来评价,2014年中国排在46位,第一位是英国100分,中国只有28分。2015年中国退后了,排在第55位,不是说中国2015年跟2014年比没有前进,而是别的国家前进更多,相比之下中国得分排名反而下降。可以看到我们的影响力,特别是看到2015年的影响力只有8,我们也开放,但是我们开放的效果比较差,只有8,北京开放100万条数据,从应用效果上来看反映还是不够的。政府开放数据需要技术框架来支持,包括开放数据管理、开放数据技术、开放数据的门户。今天我主要不是讲技术,所以不细致地解释这部分了。

社会上有免费开放数据的例子,有些公司现在在网上已经公开地表示大家只要上网去点,可以看到这些是免费的,谁都可以用,有些比较简单,有些是身份证查询、手机查询、IP地址查询,还有股票、基金等等,当然这些对老百姓可能有点用,但是基本上还是一种比较普通的开放数据。数据共享开放现在面临三大挑战,不愿意共享开放,政府部门各自为政,把数据开成自己的权利,很多政府部门以信息不对称作为手段,缺乏激励机制,和技术部门共享数据还得向公众开放数据,得不到商业回报,因此在多数情况下职能部门对于数据开放消极的被动。现在很多法律法规制度不够具体,不清楚哪些数据可以跨部门共享和向公众开放,数据信息的共享开放有一定的风险,搞不好把一些应该保密的数据开放了,搞不好泄露了公民隐私,目前制度是不明确的,导致了我们政府开放存在风险,责任很难界定。现在缺乏公共平台,共享渠道不畅,过去信息的传递多数是部门之间通过电子邮件进行,安全性保密性可持续性很难保证,没有统一的标准规范,不同职能部门对数据的采集记录标准千差万别,统计口径和时间不一致,没法用。数据开放需要脱敏,缺乏必要的技术和人才支撑,很难按照技术标准来规范。所以实际上我们数据开放面临三大挑战。

第二,大数据的流通与交易。什么叫数据交易?数据有提供方有使用方,很多时候需要通过数据中介方,政府开放的数据在脱敏以后的原始数据,我们有数据挖掘公司,开放了政府收集的数据,在加工以后把它出售,给数据使用方、行业户,数据生产者、原始的要脱敏的数据给数据挖掘的中介方清洗以后提供给行业用户,通过中介方整合挖掘合并清洗以后,提供给行业用户。数据生产加工者,清洗后的数据通过数据交易所、数据交易所就是倒手,把他清洗加工后的数据转售给行业用户,或者数据生产者直接把原始脱敏的数据交给行业用户。

一般来讲数据生产者是很少直接面向最终用户的,大多通过中介渠道实现自身数据的变现,像美国的推特本身不直接销售他的数据,把他的数据授权给好几个公司,让他们卖,目前美国的数据中介思想在2012年的最规模已经达到1500亿美元,数据中介本身也是一个很大的产业。美国有好多数据中介公司,这些中介公司通过各种渠道收集和买数据,Clemic(音)从政府收购数据,他自己也有传感器,也收集了一些数据。

中国联通有很多用户数据,包括OSS的上网流量、BSS的用户的详单等等,这些数据不是中国联通的,都是用户的,中国联通可以进行加工利用,通过脱敏,屏蔽掉个人隐私,当然这里面要通过审核,他可以接受很多公司的委托,有审核他的需求,通过各种分析通过过滤最后可以提供服务,联通是以咨询的方式对外部的公司提供服务,他们已经上线了身份核查、位置验证行为评估等等,已经服务于招行、蚂蚁金服、住建部、交通部等等,这是数据收集者直接数据挖掘然后提供服务。

目前在我们国家网上出售的数据有多少呢?有公司已经出售了一些数据。总的来说现在网上出售的所谓大数据都不够大,不够大也不能说一点没有用,从大数据的角度还是有限的,这是公司本身的行为。

大数据交易关键对数据质量的要求,准确性,你一般会提供原始数据,我怎么知道你的数据是真实的完整的,万一你提供给我的是不全面的、不真实的假的,我买的数据挖掘结果你告诉我这是数据挖掘,谁知道你挖了多少数据,最后怎么能判断你是真假,这里没有第三方,所以这是个大问题。还有完整性,数据是不是缺漏,很多时候是数据过滤和脱敏以后的,如果说简单只是为了避免安全、隐私,但是最后你的数据还得有全面性,不能是片面的。还有一致性,同类数据的表述形式是否一致,出现多次的数据是不是差异,数据是不是符合标准,是不是合规,否则买来的数据也不好用。

合法性,你卖给我的数据所有权是不是你的,我现在问一些国内的数据交易所数据是哪儿来的,他说政府的数据,我说政府数据不能卖钱,政府数据能公开就是免费,他说有些企业给我的数据,我说首先明确企业给你的数据是不是企业自身的,三大运营商有数据,但数据所有权不是三大运营商的。数据及时性,你给我的数据是2017的数据还是2016的数据,你是不是有实时性。可用性,你给我的数据我能不能容易理解,能不能用我的技术手段进行分析挖掘。安全性,你给我的数据是不是真正把国家安全和个人隐私的都屏蔽掉了,不然我用了以后变成我侵犯别人的商业机密和个人隐私了。我把数据存在你的中介那里,你能不能保证这个存储是安全的,不被污染的,数据不被窃取。

现在在我们国家做数据交易,我觉得有很多问题,现在没有保证它的质量。

大数据交易权限。政府的数据如果能够开放那就是免费,不能开放的数据无论多少钱也不能卖,所以政府的数据不存在提供给中介方交易的问题,当然中介方也许收集政府的数据,通过加工可能他有他的劳动,运营商收集的用户数据原则上所有权是用户,BAT收集的数据原则上所有权是用户,但运营商和BAT拥有对数据脱敏对挖掘分析后的加工结构数据的所有权。没有数据所有权,有数据的公司通过挖掘向政府和企业提供咨询报告,是不是允许在保护隐私和国家安全的情况下提供,他没有数据所有权,但是他有数据挖掘能力,他进行挖掘加工了,这个时候他是不是可以提供,没有数据但是有数据挖掘能力的公司可以受委托完成数据挖掘。受委托挖掘以后,他能不能利用数据为非委托方服务呢,应该是不允许,但是现在没有明确规定。

没有数据也没有挖掘能力的公司,可以作为中介平台,但是是不是可以允许他截留数据呢?中介方收集了政府开放的数据据为己有并且出售是不是合法?很多政府公开的数据,有些网站标明价格出售,按道理这是政府的数据,尽管你去收集花点时间,但是毕竟还是公开的东西,你是不是能出售?在数据源的稳定性、更新频率和数据扩散方面也要商量明确的界限。

怎么衡量数据的价值?精加工的数据可视化的数据怎么定价,怎么衡量数据挖掘的工作量,你做了多少工作,一次性买断的数据和可以重复多次出售的数据怎么定价,数据的价值跟时效性什么关系,应该随着时间掉价,是不是需要有对数据评估的第三方机构,现在都是两者来谈。国内的数据流通和交易存在什么问题?我国数据源的活行不够,数据中介机构处于起步阶段。政府企业组织没有充分认识到用外部数据可以对自身工作和业务起到巨大的提升作用,所以一般来讲都很少利用外部数据。很多数据拥有者对数据里蕴含的东西缺乏足够的洞察,不放心让自己的数据进入流通环节,担心企业隐私机密泄露。刚才是不愿意吸收外部数据,这是不愿意把自己数据拿出去流通,大部分数据资源的垄断,关注自己的小生态圈,不愿意把自己的数据资源向生态圈之外的市场提供,所以流通也不够,交易也不够,利用更不够。

这个月刚刚挂牌的大数据流通与交易技术的国家工程实验室,是发改委批的,有上海数据交易所牵头,联合了浪潮、联通、互联网信息中心。

大数据利用和保护。什么数据要保护?和国家安全有关的数据要保护,和企业商业秘密有关的数据要保护,公民隐私的数据要保护。目前欧盟制定了严格的数据保护法案,中国虽然有宏观上的数据保护的要求,但是没有全面的数据保护法规。关于欧盟的数据保护,去年4月份欧洲议会通过了通用数据保护法案,也叫一般数据保护要求。这个法案要在明年5月25日生效,还有一年左右,这个数据保护法案里没有国家安全、企业秘密。涉及欧盟里面的单位对多元数据的处理,这个处理不管在欧盟内部处理还是在欧盟外部处理都要受这个法规管。没有在欧盟里有分支机构,但是你向欧盟的消费者提供服务,不管你的服务是不是收钱也都受这个法规的约束,你对欧盟里头的消费者进行行为监控,欧盟之外如果已经有的法律受欧盟成员国控制的也在这里。所以要注意的是处理者不在欧盟里边不重要,但是欧盟里头的消费者都要受这个管理,中国的企业如果把微信支付宝用到了欧洲,那么一样你也要受这个管理。什么叫多元数据?多元数据是跟个人隐私、专业、公共生活有关的任何信息,包括姓名、照片、电子邮件地址、IP地址等。

针对个人的信息的收集、记录、组织、建构、存储、修改、咨询、使用、传播和其他的应用,包括排列组合,无论是人工处理还是自动化处理,你可以通过这些处理能够针对自然然的工作表现、经济状况、健康状况、个人偏好、兴趣、这里个人隐私的范围是很宽的,包括个人的IP地址都是隐私。个人对自己数据有什么权益?个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通知的权利以及被遗忘权。对个人数据处理有什么要求?合法公正透明,必须有规有法。目的是有限的,你可能为某一个目的来收集处理,只要是为公共利益或者历史研究的目的、统计的目的,目标是有限的。数据是最小性,你获得我的数据不能把我所有的数据都要,可能跟某个目的有关的数据被使用,但是不能把所有数据都拿走。及时性,你用完以后要毫不延迟的删掉处理掉。存储的有限性。只有为了公共利益或历史研究,个人数据才能长时间存储,其他目的个人数据不能长时间存储。完整性,要保证你收集的数据要有技术措施保证它不能受非法授权、非法处理、遗失丢失损毁。

关于数据处理什么算合法?并不是说个人数据不能处理,以下的规定可以处理。本人同意可以作为一个或多个特定目的,我特意查了一下所谓本人同意是要书面同意,要写下来同意。我有一个合同,要有个人数据,处理的数据主体在签合同前的请求。处理是为了执行法律,当然要征求。处理是为了保护我自己,为了保护另一个自然人的切身利益,为了保护利益。处理是为了公共利益,处理是为了追求合法的利益的必要,这是允许商业利用,利益的商业部门企业来处理个人数据,首先是为了合法利益,当然不能侵犯提供个人信息的数据的消费者的利益,尤其是儿童。我们现在手机上的APP几乎所有APP都收集个人信息,收集完了如果有合法利益的那是允许的,什么界定你的合法利益,很多时候不见得是合法利益。有个社会调研,有人提出来你是否愿意为了你将来的应用资费上的优惠牺牲你的隐私,全国有27%的人表示可以牺牲隐私,中国有38%的人表示可以牺牲隐私,中国更多人认为隐私不重要,反而优惠更重要。

传输存储和开发要有要求,所有的软件包括移动应用的APP在开发阶段和运行数据处理阶段要保护个人数据的隐私,数据控制也含APP,要有充分的技术和措施确保数据和移动应用的完整性,必须应对数据处理面临的风险,处理的时候是不是数据被丢失了,有很多要求。违规怎么办?一般性的违规,处理上限是罚款1千万欧元。如果严重违规的罚款上限是2千万欧元,上一年度的营业额的4%,BAT营业额都到几百亿的话,要罚起来不得了。云计算跟这个法规什么关系?管理者负主流责任,如果一个政府在云里存储了数据,你就是管理者,很多人认为我把数据存在云平台,管理者是云平台,欧盟提出来你存进去你应该对数据所有的保密、安全负责,所以云平台有云平台的责任,你存数据也有你的责任。法规不受限于公司国籍,不受限于云服务的地理位置,如果在中国存了关于欧洲公民的个人数据,这个法规也适用,所以在中国的云平台里不是说什么数据都存进去有用。目前80%的云服务不会在合同终止的时候立即删除客户的数据,58%的云服务不能提供IT所有权的保证。对2万多个云服务的调查,只有6%的云服务符合这个,如果现在云服务涉及到欧盟的消费者,这里面就危险了。

对中国有什么影响?法规提出非欧盟成员国公司只要满足下边两个条件就受这个法规的影响。你向欧盟境内可识别的自然人提供商品和服务,收集和处理他们的信息,你做支付宝肯定收集了他的信息,你做微信肯定收集了他的信息。监控欧盟境内可识别自然人的行动收集他们的信息,你做地图服务也收集了信息。在欧盟境内有分析机构的外国公司,分析机构被作为责任主体强制执行法律要求。如果在欧盟境内没有分支机构,一旦境外公司高管进入欧盟境内将直接执行,你小心,如果你犯规的话,你的高管进去他就罚你,把你抓起来。所以对中国企业的移动应用安全数据收集处理交易产生重大的影响。首当其冲的是银行、电子商务、互联网、IT企业、软硬件生产商。欧盟这个法规既有保护他的意义,也有很多是限制。

我们国家当然也有一些数据开发应用的文件,工信部出台的大数据产业发展规划,去年出台的网络安全法都提到对个人信息和重要数据在境内存储,保护信息安全和个人隐私,我们的规范都很宏观,不具体,真正违反了怎么样并没有没有。跟欧盟的比,我们准备得还是比较粗的。

最后,数据的价值在于融合与挖掘,政府数据对公众的最大利益在于共享与开放。数据流通与交易有利于促进数据的融合挖掘,数据的使用必须面对保护的责任与义务,尤其是对个人隐私数据的保护。欧盟提出的GDPR将数据保护的严重性提高到前所未有的程度,需要引起我们的高度重视。数据的共享开放、流通交易和数据保护以及数据安全,对数据技术提出的研究挑战,区块链技术在数据流通交易的保护方面能够起到一定的作用,数据的共享开放流通交流使用保护对法律的制定与执行提出了很高要求,同时需要平衡数据的保护与数据的开发利用。

谢谢。

 

责任编辑:陈近梅

随意打赏

中国工程院院士邬贺铨院士
提交建议
微信扫一扫,分享给好友吧。