大数据和开放获取政策——欧盟BYTE开放数据项目
项目网站: http://byte-project.eu/
编译者按:本报告是欧盟第七框架计划下的项目,限于篇幅,仅编译执行总结部分,欲了解具体内容,请链接至报告全文: http://byte-project.eu/wp-content/uploads/2014/10/BYTE-2.3-Open-access-and-big-data.pdf
本文旨在评述有关开放数据获取政策和举措的相关文献,并通过与私营部门比较,探讨公共部门开放获取政策和举措的意义。研究这些政策和举措的有效性,识别大数据开放获取的障碍,更重要的是探索好的实践。该工作承担了欧盟FP7资助项目“大数据路线图和跨学科社群——解决社会外在化”(Big data roadmap and cross-disciplinarYcommunity for addressing socieTal Externalities,简称BYTE)的一部分。
公共和私营部门开放获取政策比较
公共资助数据,诸如研究数据和政府数据(一般包括环境和地理数据)、气象数据、商业信息、法律信息。公共部门承担大数据相关的开放获取政策制定。政府在此过程中占主导地位,如推动大数据集的开放获取,尤其在促进大数据集互操作性方面,以及调控降低由开放获取数据引起的新风险而产生的负外在化。然而,大数据集的可获取性不再等同于只有政府持有或其他公共资助的研究数据。随着私营部门的发展,分析和数据挖掘技术越来越支持用于商业用途的开放获取。尽管当商业模式包含开放获取元素时将发挥巨大潜力,但私营部门的大数据开放获取政策还没有像公共部门一样广泛实施。
本文通过一些案例研究来探讨开放获取的计划,领域包括:健康数据;危机数据;能源数据;环境数据;交通数据;文化数据;智能城市/公共事业。正如案例分析所示,开放获取政策可以依据任何类型的大数据集进行制定并有诸多好处。对于每个案例研究,可确定其开放获取政策、举措和/或获取数据的模式、开放数据程度、以及由这些政策和举措带来的相关收益和问题。
健康数据
首先,健康大数据的开放可以由该领域多个利益相关者(包括病人、供应商、保险公司和政府)推进。然而,目前公共部门获取计划的案例要比私营部门更多。其中的一些计划包括:GOSgene健康计划、基因数据库和蛋白质数据库(欧洲和国际范围内)、Teralab计划和耶鲁大学开放数据访问计划。医疗保健方面的开放举措显示出开放健康数据为公共和私营部门的利益相关者带来了积极成果。然而,大量开放获取的健康数据是由公共部门机构提供,却被用于私营部门的商业用途,而私人医疗保健公司却很少推进开放获取计划。对此,公共和私营部门的合作将为双方产生更多利益。
危机数据
其次,当危机大数据嵌入到开放获取计划时,能为社区和机构创造价值。危机地图和社交媒体网络为用户和社会传播危机数据带来了积极成果,也为实现危机地图的公司带来大量潜在商业利益。危机数据通过危机地图和社交媒体网络变得越来越开放,这不仅是一种公共服务,而且能够通过获取个人数据获得额外利润,如行为数据,即哪些用户在高峰时段获取这些服务。危机数据通过开放获取为社区和机构创造价值,如Ushahidi危机图谱平台和推特。然而,开放获取推进举措,诸如用危机图谱和社交媒体来传播危机数据面临着机遇和挑战。其中存在着一些负面影响,包括数据何时应用于危机图谱或何时通过社交媒体传播,都是不准确的,涉及到人身安全和隐私或阻碍了应急措施。但是,使用危机数据的负面影响是可以忽略的,因为这些举措在很大程度上是为公共利益而生,是为人道主义努力的一部分。确切的说,很难确定欧洲开放获取计划的案例是否涉及到危机数据,这不仅显示出市场差异,而且是为推进这些举措带来机会。
能源数据
第三,开放能源数据产生了一些创新机会,挪威石油管理局(Norwegian Petroleum Directorate ,简称NPD)一项名为FactPages举措证明了该观点。NPD是一个能源领域的政府专家理事会和行政机构,推动着开放获取。为此,NPD管理NPDFactPages,其中包含有关挪威大陆框架(Norwegian continental shelf ,简称NCS)的石油活动数据,涉及经营企业和生产许可、领域和发现、设备和管道、以及井眼和底层数据。这些数据中有些可以追溯到20世纪70年代初NCS石油生产之初。FactPages中的数据是从NCS的经营公司收集来的,这些信息为当局者今后的活动规划和现有活动判断提供了基础和依据。此外,FactPages一个重要目标是确保公司间信息的有效共享,为公众提供充分的信息。该案例研究强调向公众公布数据库的元数据和架构,这对数据库管理者提出了更高要求,需要适当地实施变更管理流程,因为内部变化也将公开曝光。但是,对于任何情况下的任何重要数据集,这些程序要到位。开放数据所带来的真正利益远远超过生产和维护开放数据集的成本。
环境数据
第四,欧洲数字法案认识到大数据革命带来了新的理解方式和解决环境挑战的新方案。两个开放获取环境部门内的大数据的案例印证了这一观点:GEO倡议和哥白尼计划。这些案例阐述了访问大量数据与开放政策密切相关的含义,尤其是来源于遥感和地球观测的数据,正如“大数据革命”预言的那样。适用于新观测平台的跨学科数据,其可用性不断增长,预计将赋予科学家和社会前所未有的资源,因此能够理解我们的星球、更好的控制或减轻环境的动态变化。上述案例强调了该部门正在经历一项转变,即推动放弃传统数据保护模式,赞成充分公开地交换数据,确信会带来新的应用,提供更多的就业机会和更开放的竞争。然而,环境数据开放共享存在着一些负面影响,如由于技术、应用、语言和法律框架背景下的异质性而产生的互操作问题;地球观测所需的必要金融投资问题;以及工业部门保护投资和竞争的巨大利益。解决这些问题需要在全球范围内,由各级公共权力部门和不同的社会部门就交流、共享、访问,互操作服务和数据使用制定共同的政策。
交通运输/物流数据
第五,欧洲数字法案意识到交通部门毫无疑问的可以从大数据中获利,这些数据的收集来自传感器、GPS数据和社交媒体。因此,智能交通系统应运而生,尤其是英国国家公共交通数据知识库。该案例表明,运输和物流领域的应用可以从不断增加的、开放可用的数据中明显获利。物流数据的共享、分析以及与人员和物资数据的交叉组合,共同支撑公共和私营部门通过线路计划支撑系统的使用,优化多种运输模式、管理交通流、减少运输成本(如时间、燃料和人力资源)。然而,也认识到了负面影响,主要是由私营部门带来,在交通领域利用开放数据广泛汲取成本和利润,由此形成商业模式。商业利益相关者所带来的阻碍似乎通过政策驱动下的监管行为并不能轻易得到解决。
文化数据
最后,文化数据为开放数据计划提供了另一个案例,显示出双方利益和负外在化。为彰显文化内涵的社会和经济价值,实施了多种措施促进文化遗产的再利用。这方面的例子如欧洲数位图书馆(Europeana)创意,其目的在于通过创意产业促进数字对象再利用。欧洲数位图书馆为推动文化界数据开放获取的许多其他举措(如OpenGLAM计划、欧洲图书馆)提供了框架。欧洲图书馆是国家图书馆数字资源的整合者,面向欧洲数位图书馆,按月从国家图书馆向欧洲数位图书馆传递数字内容。这表明,文化部门数据的更好利用能带来可观的财务和运营效益。然而,在文化部门价值创造的过程中,有时缺乏一定的市场效益(如果不依靠补贴),也可能对文化内容的社会和经济价值的认知产生负面影响。
智能城市/公用事业
智能城市本质上是基于“开放获取信息可以改善决策和资源管理,最终提高居民生活水平”这一观点实现信息开放获取。欧盟委员会明确表示,“智能城市”是用便捷的方式为公民提供公共服务,实现有求必应、居民为上,提供实时正确的信息,以便更好地开展日常生活和做出商业决策。而实现这一切要采用经济可行的方式,以改善环境的可持续性。在某种程度上,通过获取其他部门如交通和能源部门的开放数据以及各部门间的协作可以实现。回顾雅加达和佛罗伦萨这两个智能城市的典型案例,展现出大数据开放获取在智能城市的特定环境下取得了积极成果,如经济决策、资源管理、居民生活条件。通过资源优化和规划,支撑经济增长、创新和服务增值(如旅游)、公民参与和透明化、安全和控制、创造和提升文化价值。然而,这些措施零散,几乎没有协同(如通过物理和数字基础设施的共同使用),除了基础设施调度问题之外,有时目标不够明确,过少关注商业可行性是意识到智能城市能够实现潜在正外在化的主要障碍。
总体而言,这些案例研究将若干公共和私营部门的政策和计划结合起来,展现了各领域开放获取政策之间的关系。然而,这些案例也强调了公共和私营部门组织提供开放的程度不同,同样强调了各部门之间合作的潜力。
本文推荐了一些大数据开放获取的优秀实践,总结了优秀实践案例,并对一致认同的极好优秀实践进行跨部门交流,也能促进私营和公共部门就“开放获取”项目发展实现合作。这一点非常重要,因为开放获取模式有可能带来可用信息的多样化。最终,优秀实践的政策为实现由大数据开放获取政策带来的价值最大化提供支持,基于大数据的开放获取商业模式同样能够实现价值最大化。最佳实践政策可以解决以下问题,但不局限于此,以下方面已在上述典型案例研究中得到确定:
- 重点发展电子基础设施和互操作性;
- 支持信息和教育从私营和公共部门的开放获取政策和计划中获益;
- 鼓励私营和公共部门之间的合作、协作伙伴关系,发展一体化服务;
- 促进开放获取监督管理;
- 促进与开放获取相关的法律法规和道德问题管理;
- 改善技术保障和安全方面(如从设计着手保护隐私)事宜。
总体来说,本报告旨在阐述大数据和开放获取政策之间的新兴关系。人们认识到开放获取政策对社会大有裨益。因此,尽管存在负外在化(本报告提及一些内容),开放数据被预示将为欧洲提供充裕机会。在数字化经济中,大数据代表着重要的有形资产。鼓励资产所有人提供资产的自由和开放获取需要自愿和强制的政策和计划,由此才能够充分实现大数据的社会经济效益。
此文来自科学网陈雪飞博客
End.