《开放数据》:是没有免费午餐,但从免费的开放数据中却可以找到创意和商机
可能你又以为这是在说大数据,并不是。
作者明确在书中指出:
值得注意的是,不应该将开放数据与近年来在信息科学领域受到广泛讨论和发展的大数据相混淆。大数据意味着通过分析处理非常大型的数据库,来确定数据的变化趋势及联系。借助于不断提高的计算机水平和日渐降低的存储花费,每天都有难以想象的大量数据被产生、积累并分析。它利用的正是大众日常生活所遗留下来的“数字足迹”。
在大数据中,数据资源通常是被动并且是保密的。大数据通常来源于无目的、无方向甚至无意识间产生的资源,并且公司和组织通常以商业机密或者安全为由对这些数据保密。
与绝大多数的大数据不同,开放数据是公开并且是有目的性的。相关组织主动发布开放数据,人们可以使用、分析和应用个人所需的数据。
也许“开放数据”的提法我们还不熟悉,但我们其实已经是它的熟练使用者,网上订机票、手机定位、天气预报,这些我们生活中的常用工具和资源,即是开放资源。
它们是免费的。人们爱说“便宜无好货”,更别提什么东西是免费的,于是我们中的大部分人会在潜意识中认为这些资源不重要,或者至少不会产生更多的价值。
但是乔尔•古林(Joel Gurin),美国白宫智能披露特别工作小组前主席,却在本书中指出:开放资源,是全球最棒的免费资源,如果我们有能力去分析和使用,“ 它将创造新的就业机会,支持初创公司发展,并为新产业带来丰厚回报 ”,而这一点在英美国家已经有了成功的案例。
“开放数据是现代社会利用信息、实现新的经济价值、提升政府透明度的最重要的方法之一。本书作者运用自己广泛而深入的研究,指出了这一具有全球意义的关键方法的核心。”
——维克托•迈尔-舍恩伯格,肯尼思•库克耶,《大数据时代》作者
精彩书摘
引言 全球最棒的免费资源
设想一下,如果突然间你拥有了一大批商业资源。一大批涉及诸多领域的新公司将会因此诞生:它们将能提供更好的医疗服务,深度分析投资工具,更有效率地供给能源,提高交通运输能力,通过手机应用软件和互联网为消费者带来更广领域的服务。已建立的公司可以更好地了解客户的真正需求,现货交易市场的早期趋势,以及如何选择风险最小的最佳合作伙伴。同时科学研究的速度也将极大提高。虽然创建这样的机会需要花费资金和精力,但是这些重要资源本身却是免费的。
这样的资源就是开放数据。 开放数据的概念很简单:那些已经被政府或者其他组织发布,任何人都能获得并能用于任何商业或者个人目的的数据。只要你曾经上网预订过机票,用过手机的GPS(全球定位系统)定位功能,或者浏览过天气预报,你就使用过开放数据。 经过不断提升的数据分析方法,这些免费的开放数据将可以应用于确立新的商业风投,解决一些决策难题,提供新类型的商业情报以及更多其他方面。
今天,开放数据的革命将我们快速引入一个全新的领域。功能更强大的计算机,更经济的存储方式,以及呈指数增长的数字信息,庞大的数据库第一次变得触手可及。开放数据由此被提升到一个新的高度,并在逐渐改变我们的世界。
开放数据正在全球范围内成为明智的商业精英制胜的法宝。投资者利用它去衡量不同公司的风险与收益,以期获得最佳的投资机会。公司老板利用它去理解自身品牌声誉的微妙内涵,并根据数据制定出市场策略。企业家凭借天气、房地产、交通运输等行业的数据,为公众提供更好的服务,造福社会。这些开发项目汇集了几千万的项目资金并能创造出几倍于此的收益。
2013年11月,麦肯锡公司(McKinsey & Company)发布了一份关于全球开放数据的最新报告。报告显示, 每年大约有3万亿美元的经济潜力是由教育、能源以及医疗保健领域的数据开发带来的。 这是迄今为止对开放数据产出价值的最高评估,也许有所夸大,例如该价值涵盖了通过运用开放数据所带来的教育质量提升的价值。尽管如此,这份最新的报告也显示出了对开放数据不断增长的商业兴趣以及它所能带来的潜在价值的惊喜。
与此同时,对于私人领域之外的商业环境,开放数据也具有深远的影响。政府部门通过公布更多数据来增强公众对政府的信心,并吸引更多商业投资。开放数据也能帮助医药行业的研究人员更快地找到治疗疾病的方法。此外,媒体也能够借助开放数据来揭露社会的各种弊病,比如洗钱和医保欺诈,并且能够公开更多合作活动。
无论你是企业家、决策者、投资家、小公司所有者,还是公共行业或者非营利组织的工作人员,开放数据都将为你工作的领域提供新的机遇。
第一章 与互联网同样巨大的机遇
2012年11月,我在伦敦参加了由刚刚成立的开放数据协会(ODI)召开的会议,会场座无虚席。该组织由英国政府提供1 000万英镑作为项目资金建立,并由政府和个人共同监管,集合了所有在此领域拥有独特见解的精英。该组织位于伦敦的“硅谷”——位于老街(the Old Street)环形路口最靠近地铁被称为“硅环”的地方。那里类似于旧金山南部市场周边以及曼哈顿下城区的硅巷,周边地区并不繁荣,却恰为新兴公司的发展提供了充足的空间,促进了革新的不断涌现,并抬升了房地产价值。
作为这个组织的一员,我与24位来自企业、政府和非营利组织的同事一起探讨开放数据。在会议日程的第二次连续会议上,与会的各方代表合并了来自麦克阿瑟基金会的资金。代表们分别来自白宫,唐宁街10号,英国政府内阁及商业部,世界银行,英国零售商巨头,两个高科技咨询公司,前沿科技出版社,大学法律、计算机、人工智能、物理和认知神经学系,两个基金会,以及致力于提升公司透明度、公众参与度和绿色商业行为程度方面的非营利组织。
我们受到了该协会首席执行官加文·斯塔克斯(Gavin Starks)的热烈欢迎。加文从事网络开发工作已20余年,曾任职于多个公司、机构,如维珍集团、Google(谷歌)、英国政府部门,以及联合国儿童基金会(UNICEF)。他曾经大胆地提出,开放数据将会产生类似万维网那样巨大的影响。
今天的开放数据,正如他所说,“像极了1994年时的互联网,那时的我仍在试图劝说人们接受电邮,开发网页。尽管人们都对互联网的前景感到非常兴奋,但是没有人确切地知道它的未来究竟会怎样。20年间,我们已然见证了大量的革新、创造,甚至是破坏。今天,我们同样无法得知开放数据的明天将会怎样,但是我们确信,它将会带来新的变革。商业运作的方式将会得到改进。对我们来说,如何控制这一切将成为新的挑战。正如网络出现早期我们所看到的潜在发展机会那样,我认为,开放数据的潜力同样不可小觑”。
这不是人们第一次将一项新技术的发展与互联网发展初期的情景相比较。但是开放数据运动的领导者们有理由做出这样的论断。开放数据协会的总裁和联合创始人蒂姆·伯纳斯–李(Tim Berners-Lee)爵士,在他的个人经历中这样简明扼要地指出,他在欧洲核子研究组织(CERN)的欧洲粒子物理实验室创立了万维网。开放数据协会主席奈杰尔·沙伯特(Nigel Shadbolt)先生,是网络与人工智能领域的先驱,在英国政府开放数据政策的制定过程中发挥了重要作用。他们都是美国、英国或者其他国家诸多致力于发展开放数据的梦想家的代表。
对开放数据的最佳描述是:公众、公司和机构可以接触到,能用于确立新投资,寻找新的合作伙伴,发现新趋势,做出基于数据处理的决策,并能解决复杂的问题。它不同于大数据(Big Data),虽然它们的确有所重叠。 开放数据有一个宗旨,就是它将提供免费、公开、透明的数据信息,并能适用于我们需要的任何领域,比如商业经营、政府运作,以及处理各项事务。正如参加那次会议的人员一样,开放数据的工作人员背景多样,来自企业、技术、政府部门、学术、非营利组织,以及医疗健康、教育和环境科学等领域。
开放数据运动最初的目的在于推进民主,让政府公开数据,以便纳税人了解他们所支付税金的去向。除了带来良好的社会效益外,开放数据还创造了巨大的商业机会,这也是本书的关注重点。别忘了,互联网创立之初也是一项由政府出资打造的项目(即ARPAnet),由美国高级研究计划署(ARPA)负责,经总统艾森豪威尔批准,以回应苏联政府发射的人造地球卫星Sputnik。该项目在当时成为驱动经济发展的因素之一。同样,由政府推动的开放数据建设也将为数据管理提供经济方面的资源与基础。
经济增长和增加就业的需求也推动了美国和英国政府联合制定开放数据政策。这在奥巴马政府于2013年5月推出的关于开放数据的新政策中体现了出来。这项政策使得空前庞大的联邦数据能为公众所用。值得关注的是,总统并没有在华盛顿新闻发布会或者白宫玫瑰园公布该政策,而是选在访问得克萨斯州奥斯汀的一家技术中心时公布。他承诺,政府的开放数据将从各方面帮助新的商业项目的建立。
开放数据政策中包含了对即将开放的政府数据各项要求的详细描述。该要求由英国开放知识基金(Open Knowledge Foundation)和总部位于华盛顿的阳光基金(Sunlight Foundation)等机构联合制定。本书扩展了开放数据的来源,囊括了除政府之外,从其他渠道获取的数据。
本书中的开放数据是指从任何渠道获得、以公开形式存在、任何人都可以获取并且满足一些特定条件的数据。所有的开放数据都应允许重复使用。它也应该以容易被电脑读取的形式存在,虽然仍然要分阶段公开。此外,一个对开放数据的共识是,它应该是免费或者花费最少的。
开放数据涵盖了联邦、州、地方的数据,科学研究数据,公司运营数据,民众在Twitter(推特网)上的更新,以及任何在Google或者其他网站上能找到的数据。通过使用这些多样的开放数据:
1) 企业家能够建立起新的业务并创造更多的税收 。美国国家海洋与大气管理局从20世纪70年代起开始公开的大量开放数据,以及最近开放的GPS数据,每年都会为新兴产业带来巨额收益。运用开放的医疗数据发展的新业务也将很快与之齐头并进。能源、金融、教育和其他领域的发展机遇也将不断增加。
2) 政府将能为商业发展提供新的、集中的数据资源 。由奥巴马政府建立的网站Data.gov,现在已使公众可以免费使用成千上万的政府数据库。英国也建立了类似的政府开放数据网站Data.gov.uk,并且其他国家也可以利用由美国贡献的网络数据平台“Data.gov in a box”来搭建自己的数据中心。
3) 公司将能够改进并制定新的市场发展策略,准确评估自己的竞争对手和合作伙伴,建立自己的品牌内涵。 一项名为情绪分析(sentiment analysis)的新技术集合了从Twitter、博客、新闻动态和其他公共资源中获取的信息,利用文本分析的方式将这些信息转变为开放数据,将海量公众观点转变成可量化的商业信息。
4) 投资者将能够找到具有最高诚信度并能最大程度规避风险的投资目标。 借助这些新的基于数据分析的网站,投资者可以快速获得关于大型和小型公司的深度信息。借助提供在线工具和数据可视化的网络服务,开放数据为投资者了解初创企业和大型跨国集团提供了可能。
5) 公司的运作和收益将变得更加透明。 无论是应政府要求还是自愿公开,很多公司都正在开放更多关于自身发展环境、社会保障以及管理惯例的相关信息。通过公开这类信息,公司可以吸引新的投资,更有效地吸纳人才,提升自身的公司形象。
6) 科学家和研究人员将能够加快研究进度。 在物理学和生物医药领域,研究人员们大胆及时地公开自己的研究数据,更多业内外人士因而能够通过网络平台获得这些数据,并协助他们取得新的研究突破。甚至连关于毒品研究的数据也正在逐步公开。
7) 网站将能够帮助消费者更好地选择各种产品和服务。 现在很多企业着眼于发展网上及移动客户端的“选择引擎”,它将能为消费者做出复杂且重要的决策提供更多信息,帮助消费者利用这些详细、交互式的开放数据做出最适合他们自身的选择,无论是涉及医疗保健、按揭、信用卡,还是大学教育。
开放数据与大数据:相关却不相同
值得注意的是,不应该将开放数据与近年来在信息科学领域受到广泛讨论和发展的大数据相混淆。大数据意味着通过分析处理非常大型的数据库,来确定数据的变化趋势及联系。借助于不断提高的计算机水平和日渐降低的存储花费,每天都有难以想象的大量数据被产生、积累并分析。它利用的正是大众日常生活所遗留下来的“数字足迹”。例如,我们驾车的时候,手机GPS系统对我们所在地点的报告;信用卡的消费记录可以显示我们在哪里、在何时消费过;Google搜索也是可以被追踪的;家中的智能电表记录了我们的能源使用情况。所有这些都是大数据这个磨坊中的原材料。
尽管大数据和开放数据都具有重要的商业价值,但是它们在原理、目的和应用方面都是很不相同的。例如,大型公司可以使用大数据去分析消费者数据库,并将它们的市场策略定位到个体,也可以利用开放数据分析销售信息,进行品牌建设;国家政府部门出于安全考虑,可以利用大数据追踪公民行踪,也可以借助开放数据更好地与民众接触,缔造参与度更高的民主政治。最近出版的《大数据时代》一书很好地展现了这一领域,但是对开放数据的介绍仅仅只有2页半。其实,二者并不完全相同。
在大数据中,数据资源通常是被动并且是保密的。大数据通常来源于无目的、无方向甚至无意识间产生的资源,并且公司和组织通常以商业机密或者安全为由对这些数据保密。这些数据包括:大的零售商所掌握的消费者的购买习惯,医院对病人情况的了解,银行对其信用卡持有人的信用记录,以及政府机构收集的上百万份手机通话记录。
2013年秋季我正在写此书时,发现每次我提到“数据”这个词,都会引发有关美国国家安全局(National Security Agency)与其棱镜计划(PRISM)的讨论。我们一直试图了解国家安全局究竟收集了哪些数据,有多少,以及为什么要收集这些数据。国家安全局信息泄漏事件重新引发了一场全美范围内关于数据隐私事件的争论(详见第十一章)。棱镜计划正是大数据负面效果的一个典型例子:公众并没有主动提供个人数据,甚至都未察觉到国家安全局在收集与自己相关的数据,这一情况直到最近才为公众所知。这也是与开放数据的不同之处。事实上,即使以国家安全的名义使用开放数据,也是一个矛盾的说辞。
与绝大多数的大数据不同,开放数据是公开并且是有目的性的。相关组织主动发布开放数据,人们可以使用、分析和应用个人所需的数据。(我并不认为“棱镜门”事件中所泄漏的数据是开放数据;如果是真正意义上的开放,那么数据需要被权威人士公布,而不是以窃取的形式获得。)不管开放数据的目的是在于推动研究和开发,为商业发展提供原动力,提高公共医疗和安全水平,还是要达到其他任何预期目的,开放数据的发布都是有目的性的。
总而言之,大数据与开放数据的确存在重合的部分,并且这些重合数据的功能十分强大。一些政府部门公开的大量数据已经创造了巨大的经济效益。美国国家气象数据、GPS数据最常被引用。美国人口普查数据和美国证券交易管理委员会收集的数据次之。民间研究机构也为科技研发的提速贡献了大量数据,尤其是在生物医药领域。
一方面,开放数据与大数据确有联系;另一方面,它也离不开政务公开。政务公开不仅包括鼓励民众参与政治的协作政策,还包括政府公布开放数据。
开放的商业机遇
尽管大数据和开放数据同为重要的商业资源这一点已得到公认,但是没有人确切地知道它们到底具有怎样的价值。衡量开放数据的价值并非易事。一方面,很多使用这些数据的公司都处于初创阶段,很难去评估它们的成果;另一方面,很多有一定年头的公司除了使用政府开放数据,还使用其他的数据,这为衡量开放数据对其商业发展的贡献带来了难度。
目前我在纽约大学政务研究室主持的关于开放数据500例的研究,将能为经济学家和其他研究人员提供一个可以帮助衡量开放数据价值的全新理论基础。这项由Knight基金资助的研究,是第一个针对使用医疗、金融、教育、能源及其他领域的政府开放数据的美国公司所进行的务实而全面的研究。我们选择了500 家公司,调查了它们是如何使用政府开放数据以及如何提高这类数据利用价值的问题。我们计划将我们的调查结果在一个网络平台上发布,以便研究人员下载数据,新公司参与我们的调查,不同开放数据团体的成员自由交流关于未来发展的构想。
为了确定那些我们需要调查的不同领域的开放数据公司,我和我的同事们首先参考了很多其他研究团队的调查报告。2012年起,伦敦的开放数据协会与德勤咨询公司开始联手研究开放数据的潜力。这项研究由洞见团队(Insight Team)主管哈维·刘易斯(Harvey Lewis)主持,主要研究5类开放数据商业“原型”:
. 供应商(Suppliers)公开数据,供大家使用。通过免费公布这些数据(如果收费,则不能称之为开放数据),供应商稳定了他们的目标消费群体,提升了自身品牌的声誉。
. 数据整合人员(Aggregators)收集开放数据,并通过分析数据和提供自己见解等方式获得回报。
. 开发人员(Developers)借助开放数据这个免费资源,“设计、构建并销售基于网络、平板电脑、手机等平台的应用软件”。
. 浓缩商(Enrichers)作为大型发展商,利用开放数据来改进他们已有的产品并提高服务质量。例如,他们利用人口统计学的数据来更好地理解消费者的需求。
. 推动商(Enablers)通过为公司提供使用开放数据更便利的方式而获利。
这一分类方式很有效果,也启发我想出了一种更简单的、仅将这些公司归为两类的分类方法。
第一类公司我称其为“开放数据带来更好的商业发展”。开放数据可以从医疗、能源、教育、金融、交通等多方面为消费者提供更好的社会环境。(德勤洞见团队提出了一个有意思的观点,在很多领域,“运用政府公开的与消费者直接相关的数据可以获得最大收益,此外,由消费者驱动经济所激发出的商业兴趣会对经济发展产生巨大影响”。)对大多数人来说,开放数据并不是日常生活必需品,甚至很多人都未曾关注过它。例如,如今,人们生病还是会去看医生,但治疗效果可能优于从前;家庭主妇在使用家用电器的时候,能够利用开放数据更好地管理能源的使用情况;和在网上预订机票一样容易,消费者也可以利用网络去选择信用卡和金融服务。日常生活中的各项事务都将因为开放数据的应用而得到改善。
与第一类公司相反,我将另一类完全依赖于开放数据的公司甚至产业称为“开放数据单一”。其中包括通过分析气象数据而进行农业革命的初创公司,运用开放数据预测医疗保健、金融市场及其他领域发展趋势的公司,管理、销售政府数据的公司,从大量社交媒介的信息中拓展市场发展策略的公司。
正如网络一样, 开放数据将会成为美国、英国及其他国家新商业与经济发展的主要推力。它将创造新的就业机会,支持初创公司发展,并为新产业带来丰厚回报。
附:目录
前.言
引.言
第一部分 开放数据的力量
第一章.与互联网同样巨大的机遇
第二章.热门新兴公司:从政府数据中获利
第三章.消费者网站:Smart Disclosure的决策引擎
第四章.管理数据泛滥的新兴公司
第五章.数据导向投资:商业分析的新工具
第六章.绿色投资:为可持续性数据一搏
第七章.精明的市场营销:如何用数据定义你的品牌声誉
第八章.情感分析的市场营销学
第九章.利用群体智慧进行快速创新
第十章.开放的实验室:通过公开合作进行革新
第二部分 商业环境:开放数据的新趋势
第十一章.个人数据的隐私、安全和价值
第十二章.在透明的社会环境下做生意
第十三章.政府和数据:为开放的世界制定规则
第十四章.开放数据的未来
致.谢
小编注:若您爱读书爱读点,我们欢迎您关注虎嗅网旗下的微信公众号“书入法”(Roobook)。你的一部分是你读过的书决定的,书入法精心挑选好书和美文,愿你在此每日遇新知予你欢喜。