地理空间大数据,我们有没有把这件利器用好?
导读:
但这些纵向扩展的数据库在很大程度上不足以应付新兴大数据用例的规模。反而是横向扩展的数据库越来越多地被用于追踪大体量、高速度的数据。因此人们开始指望用NoSQL数据库来存储和处理地理位置数据也就不足为奇。有些人估计,在当今产生的所有数据中,高达80%都包含地理空间要素(这可能是因为视频在所有数据中占大头,而用智能手机拍摄视频时能够产生地理标签信息的缘故)。
地理空间数据将被越来越多地加以利用,让我们能够追踪人和物体的位置,提供基于位置的新服务。
原文翻译:
无论信息技术变得多么成熟(谁也无法否认如今信息技术正在飞速演进),任何东西都取代不了时间和位置这两种独特数据的结合体。因此,地理空间数据才会拥有今时今日的地位。
大数据分析的出现,使企业能够解答他们以前无法解答的各种问题,比如谁在何时购买了什么。随着数据从业者更加深入地挖掘这项技术,尤其是涉及到智能手机和其他物联网设备驱动的实时分析,他们也开始越来越多地利用地理空间数据,为那些在现实世界中四处移动的用户优化产品和服务的交付。
在最近一份有关地理空间工具的Forrester Wave报告中,Forrester分析师罗恩·柯伦(Rowan Curran)写到,对地理空间的洞见不仅可用于收集销售、客户关系管理(CRM)、客户支持、人力资源和营销活动方面的数据,还可用于交付服务。
“这些工具让企业可以利用空间数据,使他们对用户习惯和行为的了解和分析达到前所未有的高度。”柯伦写道,“但这些工具也提供了平台,在最适当的情境中,把讯息、内容和其他功能直接交付给最对口的用户。”
地理空间数据的潜在用途非常广泛。请看以下这些近期实例:
- 物流:美国邮政服务公司(United States Postal Service)利用地理空间大数据分析来优化邮寄路线和减少投递时间;
- 侦测欺诈:通过追踪拟进行信用卡交易的位置(具体来说是交易位置之间的物理距离),银行有了实时侦测欺诈活动的新工具;
- 零售:梅西百货(Macy’s)连锁店利用位置感测技术为顾客提供更好的店内体验,与电商网站抢生意;
- 金融:投资者把卫星和无人机拍摄的图像作为数据来源,为决策提供信息支持,比如对商品交易进行估价和预测消费者需求;
- 航运:追踪10万艘海轮上大约2,100万个集装箱的运输情况,并利用机器学习算法来优化集装箱的运输路线,这能为承运商节省成百上千万美元;
- 广告:美国运通(American Express)根据购买记录和位置向客户发送促销信息,这要归功于Foursquare的地理标签解决方案;
- 娱乐:PokémonGO证明,把网络空间叠加到现实世界中能带来引人入胜的增强现实(AR)体验;
- 新闻:记者和编辑利用OpenStreetMap等先进的地理空间工具来帮助他们报道引人注目的故事。
毫无疑问,地理空间数据大大有利于为各个领域的决策提供急需的信息。无论人们的生活如今在多大程度上存在于网络空间中,人们与地理空间的联系永远不会不断绝。因此,知道人和物在什么时候存在于现实世界的什么地方,这点非常重要。
地理空间大挑战
然而,地理空间数据也带来了一系列独特的挑战。根据被追踪设备发送位置信息的频率,地理空间数据的大体量和高速度特征反而可能成为有效利用地理空间大数据的第一个障碍。甲骨文(Oracle)和IBM等企业已提供多年的关系型数据库,通常是通过对核心数据库的扩展,来支持地理数据归类和查询。
但这些纵向扩展的数据库在很大程度上不足以应付新兴大数据用例的规模。反而是横向扩展的数据库越来越多地被用于追踪大体量、高速度的数据。因此人们开始指望用NoSQL数据库来存储和处理地理位置数据也就不足为奇。
例如,MongoDB支持把地理位置数据存储在JSON格式的文件中,也支持某些类型的地理数据查询。超快速的键值数据库Redis已经证明自己非常擅于存储和处理地理空间计算所需的两个关键数据:XY坐标,Redis则称其为“地理集”。除了Neo Technologies和MarkLogic等公司的图形数据库以外,Aerospike、Datastax和Couchbase的文档型NoSQL数据库和列存储NoSQL数据库也具有存储和处理地理空间数据的能力。
有些人估计,在当今产生的所有数据中,高达80%都包含地理空间要素(这可能是因为视频在所有数据中占大头,而用智能手机拍摄视频时能够产生地理标签信息的缘故)。在商业环境中,企业可能利用Hadoop分布式系统,从地理空间数据中提取出价值。
美国卡车运输公司US Xpress就是这么做的。德意志银行(Deutsche Bank)的一份白皮书显示,US Xpress利用Hadoop来处理和分析从卡车收集的一系列数据,包括地理空间数据,以及来自于胎压监测器和发动机监测器的数据。该银行指出,这能为US Xpress每年节约数百万美元。
专业化地理空间数据库
但是,像Hadoop、NoSQL和关系型数据库这样的通用数据系统并不是非常适合很多地理空间用例。地理位置数据的存储困难,开始越来越多地催生出专门用来存储地理空间数据的专业化数据库。
美国加州的Esri公司是地理信息系统(GIS)领域的巨头,提供的ArcGIS产品为很多地理数据应用提供了构建基础。开源领域方面,以Postgres关系型数据库为基础、另外添加了地理空间数据存储和处理能力的PostGIS拥有众多信徒。另一个想建立GIS标准的开源组织是开放地理空间联盟(Open Geospatial Consortium),其目标是“让技术开发人员可以将复杂的空间信息和服务用于各种各样的应用”。
Space-Time Insight、CARTO和SpatialDB的数据库也有助于令地理空间数据处理起来更加容易。曾协助开发谷歌地球(Google Earth)的安德鲁·罗杰斯(J. Andrew Rogers)发现,PostGIS不足以应付他想做的工作,于是他自己开发了分片地理空间数据引擎SpaceCurve。
不过,也有其他供应商在采取全新的方法来大规模地采集和处理地理空间数据。Kinetica(前身是GIS Federal)就是值得关注的一家新兴企业,该公司开发了一种GPU驱动的数据库,名为GPUdb,已经被美国邮政服务公司采用。作为其地理空间计划的一部分,美国邮政最近把追踪装置安装到约20万辆邮政车上。这些装置每分钟便会发送一次信号,每天采集到的位置数据点加起来有2.5亿个左右。为了对位置数据进行查询,美国邮政使用了GPUdb,在由约200个X86和GPU处理节点构成的计算机群集上运行。
MapD是另一家能让客户快速完成地理空间大数据可视化的公司。该公司源于托德·莫斯塔克(Todd Mostak)在麻省理工学院的研究生项目,把GPU驱动的数据库和多种可视化工具结合起来,使用户能够以交互方式利用庞大的地理空间数据集。
随着网络和现实世界变得更加你中有我、我中有你,地理空间数据将被越来越多地加以利用,让我们能够追踪人和物体的位置,提供基于位置的新服务。然而,地理空间数据的某些方面不利于这类数据的使用。如果企业可以掌握地理空间大数据并与面向用户的应用结合起来,就将在可预见的未来获得竞争优势。
End.