老俞谈地理数据可视化
未来臭氧层浓度(图/NASA)
— 1 —
地理数据可视化:Simple,Not Easy
如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一。在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央视的春运迁徙图到旅游热点预测,从大数据工程师奇货可居到马云布道“DT”时代,“大数据”被推到了一个前所未有的高度,连国家领导人出访演讲都言必称大数据。地理信息数据天生具有大数据属性,作为整天和地理信息数据打交道的地信人自然不甘落后,地理大数据概念脱颖而出。
地理大数据是什么?
大体来说就是把社会经济、自然资源、商业信息等但凡具有一点空间维度的数据一股脑儿拿来进行空间化处理,并和基础底图进行叠加整合,形成一种新的数据表现形式。地理大数据真正兴起大约是从去年初开始的,吸引了包括百度、四维图新、ESRI、超图等在内的众多豪门的参与。经过近两年的摸索和实践,应用方向逐渐聚集在地理商业智能领域(Geo-BI)。地理商业智能并不是一个新的概念,无非是将地理大数据和地理信息技术等地理基因注入到商业智能,说白了就是传统的数据仓库的改头换面,加入了一些地理因子,新瓶装旧酒罢了。
传统的商业智能(BI)很重视 数据可视化技术 ,通过可视化技术使人们对数据仓库中的数据不再局限于通过关系表来观察和分析,而是以更直观的方式来看待数据及其结构关系。虽然可视化技术可以将数据的各个属性值以多维数据的形式表示,并从不同的纬度进行观察,但是它在空间维度面前无能为力,而地理数据可视化的出现恰好弥补了这个遗憾。
地理数据可视化充分利用了地理信息技术提供的空间数据可视化的能力,将所有的行业信息通过处理整合成地理大数据,用地图的方式进行可视化表达,以完美的姿态解决了大数据中的空间位置表达问题;同时,利用地理信息技术的空间分析能力,为地理大数据涉及到的大量的空间分析提供了处理能力,在空间维度上初步实现了大数据的分析。
看到这儿,地信专业的同学估计要忍不住噗哧得笑了:别整这些玄乎的,这不就是地图制图嘛,和平日里搞的专题数据配图一样样儿得嘛。你们说的没错,如果地理大数据的应用到此为止,那地理数据可视化和地图制图还真的区别不大。是不是很Simple?门槛很低?连我们这些普通从业者都觉得简单,资深牛人们岂会不知?于是一系列地信背景的创业公司如雨后春笋般拔地而起,纷纷入场:超图成立了“超图数据”从事地理大数据服务、地图汇升级成地图慧专注于互联网地理商业分析服务、几个从超图离开的年轻人创立了“地图无忧”专业提供地理商业智能相关服务、北京捷泰天域的智图(GeoQ)全面发力地理大数据、ESRI原技术总监王昊创立了GeoHey剑指地理在线服务……
老俞花了两周时间仔细研究了这些创业公司提供的互联网地理大数据服务,试图把握地理数据可视化的行业脉搏,然而逛完一圈后却发现情况并非和想象的一样美好……
从时间节点上看,这波地理大数据创业风应该是受去年CaroDB获风投青睐,从大洋那边儿刮过来的,在国内迅速落地,各家凭借资本的力量大肆开始跑马圈地。CartoDB和MapBox一直是我比较关注的两个在线地图应用产品,第一次使用CaroDB时被其Symbol和CartoCss给震惊了,原来在线地图制图还可以这样玩。国内类似的创业项目或多或少都有CartoDB的影子,他们提供的服务比较类似,基于在线地图应用提供地理大数据服务。当笔者在使用地图无忧、智图和GeoHey三个产品时,竟然产生了傻傻分不清楚的感觉。地理大数据服务的基础是地理数据可视化,相较于CarotDB对地图元素展示控制的细腻程度,国内的项目在地理数据可视化上下的功夫显然是不够的,粗糙得多了(坦白地说,也算够用)。他们更多地强调地理大数据的多元性和丰富性,各家争相提供种类齐全的地理大数据。
笔者产生了第一个疑问:用户自有数据的管理是不是足够了?笔者在使用的时候发现一个共性,几个平台基本只能接受Excel、CSV、Json等几类格式的离线数据,这本无可厚非。这几类格式简单明了,容易掌握。问题处在离线这个点上。离线数据意味着不能自动更新,意味着数据一次导入以后就“死”了,要更新只有两个选择:在线逐一修改或重新导入一份新数据。数据量少还好,如果数据量大呢?如果用户自有数据不是手工生成的,而是由已有业务系统自动生成的呢?数据在线更新后如何反向流回业务系统里?这些问题横亘在创业公司面前,是躲不开的。
笔者的第二个疑问:如何保障这些平台提供的地理大数据的准确性?这些数据的来源是否权威可信?提供海量的丰富的地理大数据为地理商业智能提供弹药本无可厚非,但既然是商业智能,自然得保证数据的准确性和现势性,过时的数据和不正确的数据同样都是没有价值的。国内信息孤岛普遍存在,跨部门、跨行业的数据共享并不顺畅,有价值的公共信息资源和商业数据开放程度比较低,基本处于死锁状态,无法顺畅流动。有意思的是,几个平台提供的同一类地理大数据的结果还不完全相同,显然保证第三方数据的精准度是赢得用户信任的基础。
笔者的第三个疑问:地理可视化是本还是末?传统的商业智能经过了二十多年的发展才逐步形成一套规范化的理念和运作模式,地理商业智能是一个比较新的概念,至少在国外也还没有成熟的解决方案,在国内更是新生事物。地理商业智能究竟是GEO-bi还是geo-BI?至少从国内目前几个项目来看,没有商业智能体系所必须的数据仓库、数据抽取、OLAP、数据挖掘等部件,更多的还是数据展示。GEO-bi也许已经回答了这个问题。
地理数据可视化是一个非常有意思的方向,对于习惯了生活在ArcGIS和Supermap平台商为我们构建的生态环境下的地信人来说,就仿佛是推开了一扇窗户,感受外部世界吹来的一股清风。老俞的闲言碎语看过听过就罢了,只是,地理数据可视化:Simple,Not Easy!
— 2 —
寻找地理可视化的引爆点
随着“大数据”应用的火爆,“地理大数据”逐渐成为了一个时髦的概念。“具有空间位置特征的地理信息数据天生具有大数据属性”更是给这个概念打上了完美的注脚。地理信息从业者敏锐地捕捉到了技术发展的方向,推出了一些优秀得“地理可视化”产品。前文老俞从应用的角度阐述了对地理数据可视化的看法。现在,老俞打算从地理数据可视化概念本身出发,寻找地理可视化应用的引爆点。
揭开地理大数据的面具
地理空间数据天生就是大数据。这是一句容易让人热血沸腾的话。如今我们获取地理空间数据的手段越来越多,除了卫星、无人机、移动测量车这些传统测绘技术带来的海量基础测绘数据外,很多传感器的实时监测数据、移动终端数据甚至各种UGC数据(UGC,User-generated Content,意思是用户生产的内容)都构成了地理大数据。地理大数据满足了大数据定义中海量数据(Volume)、快速的数据流转和动态数据体系(Velocity)、多样的数据类型(Variety)以及真实性(Veracity)等四个特征指标。
我们更多关注的是地理大数据的第五个特征指标:价值(Value),也就是地理大数据的功用,它能够帮助用户干什么? 地理大数据(主要是基础测绘数据)在地表要素分析、遥感影像解译等领域已经有了深入的应用,但在其它行业领域似乎还没有太多典型应用。地理空间数据经过数据挖掘和数据分析后,需要揭示某些规律/行为模式/发展趋势。它的核心价值是发现规律和预测趋势,以便于最大限度地发挥业务潜力。这样的地理空间数据才算得上真正意义的地理大数据。
单纯的地理空间数据很难承担起规律分析和趋势预测的“重任”,只有和业务特征数据结合之后才能真正发挥大数据发现和预测的作用。这个结合点就是空间位置。空间数据被赋予业务属性之后便拥有了大数据分析的基础,业务数据装上了空间属性的翅膀后,才有机会在空间维度发掘数据价值。
地理可视化和地图制图
地理可视化是地理大数据应用的最后一公里。它涵盖了一系列不同的规模,小到单个房产, 大到全球比例尺的海量地景数据的可视化。地理可视化充分利用了地理信息技术的空间数据可视化能力,用地图的方式进行可视化表达,解决了大数据中空间位置表达的问题;同时,利用地理信息技术的空间分析能力,为地理大数据涉及到的大量空间分析提供了处理能力,在空间维度上初步实现了 大数据的分析 。
从本质上说,地理可视化开发了人的空间思维能力,使人们能够更加容易的发现隐藏在空间位置背后的复杂关系,提供对隐藏现象的清晰认识,缩短搜索时间和揭示事物之间可能被忽略的关系。比起使用文本或数字描述,地理可视化更加有效的帮助用户进行分析和学习,是一种用于探索、分析、综合和表达的强大研究方法。
从地图学/地理信息技术角度看,地理可视化是地图和信息可视化的结合,是在地图可视化基础上衍生的一种研究方法。地图是地理可视化的原型,地理可视化用地图的方式提供了独一无二的工具,让人们可以对庞大复杂无法直接观察的空间信息进行分类、表达和交流。
提到地图表达,自然会想起地图制图。 事实上,地图制图作为地图表达的一种既定表述方式和地理可视化是如此的相似,他们之间区别非常感性和微妙:地理可视化集成了数据可视化、地图制图、图像分析、探索性数据分析和可视分析,其可视化结果应当引导并最终提供有助于辅助决策的洞察力。两者的细微差别不在于地图语言的表述,而在于最终结果的价值导向。
地理可视化是银弹吗?
地理可视化能否作为地理大数据分析表达的银弹?我觉得,地理可视化至少还存在三个问题没有解决。
1.地理可视化的效果是否存在标准的、有效的评价指标?
2.什么样的地理可视化效果是有效的,为什么会有效?
3.针对某类地理大数据,它最好的地图表达方法是什么?
地理数据可视化虽然是借助于地图制图的手段, 基于地图清晰有效地发掘和传达信息。但是,这并不就意味着,地理可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达空间位置背后的信息概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。
从已有的几款地理可视化产品使用体验来看,产品设计本身往往并不能很好地把握地图效果与数据探索之间的平衡。 有些地理可视化产品虽然坚持地图设计的既定用语(地图制图规范),但其基于UGC生产的应用案例从地图审美价值观方面来说,相当难看;另一些地理可视化产品虽然能创造出优美的可视化效果, 但其对于真实世界的分析并不起任何作用。
地理可视化应用的引爆点
地理可视化作为数据可视化的分支,目的是要解决大数据在地理空间维度的相关问题。从地理可视化内在的地图特性来看,我觉得,在三个应用场景可能存在引爆点:
1.网络制图应用
2.在线地理信息应用
3.基于特定意义的模型驱动
网络制图应用是用户最为熟悉的产品设计形态。对于广大不具备地图制图技术背景的用户,网络制图应用不仅免去了专业制图软件高昂的购置费用,还简化了地图制图表达要求,降低了地图制作的技术门槛。作为一款优秀的网络制图应用,需要具备三方面的能力:
第一,帮助用户制作标准的、规范的、符合地图表达要求的地图;
第二,能够尽可能多的兼容用户自有的数据格式,并且能引导用户分析和制作有意义有价值的地理可视化产品(通过场景模板或地理分析业务模型);
第三,能衔接用户最终使用的真实应用场景,比如用户创作的地图产品能够导入excel/word等常用软件。
网络制图应用的另一种模式是地图中间件的形式和某些特定行业的专业软件(如金融行业/ERP软件)进行集成耦合,满足它们对空间数据的处理和表达需求。
在线地理信息应用以SaaS(Software-as-a-Service,意思是软件即服务)的形态向用户提供专业的地理可视化服务,它隐藏了复杂的地理数据分析过程,把最终结果简洁直观的提供给用户。在线地理信息应用产品的一种服务方式,是在满足基本的地图设计原则上,引入地理分析技术,比如:商业选址/路线动态规划等;它的另一种服务方式是垂直业务模式,通过关注某类或某几类行业的业务数据和业务需求,在线提供一套完整的业务解决方案,满足大部分用户基本的业务需求。实际上,网络制图应用和在线GIS服务正在慢慢的改变地理可视化和空间数据的生态环境,它们的未来发展目标是成为大众可以使用的门户服务之一,可以集成或者混搭到其它众多应用中去。
基于特定意义的模型驱动是从地理大数据的大数据特性出发,强调大数据的规律发现和趋势预测的能力。地理可视化的一个重要作用是基于地理空间数据可视化效果,为用户提供辅助决策,引导用户进行形态预测。也就是,基于地理 大数据 (复杂散乱的带有业务特质的空间数据),抽象出业务特征维度,基于各种数据挖掘和分析形成客户画像,最终对客户人群的行为做出预测。地理数据的空间描述永远是简单的X/Y/Z或标准地址编码,而业务数据则是纷繁复杂各不相同。空间数据和业务数据的结合点就是空间位置,利用数据融合技术(海量数据清洗/处理/挖掘)融合两种不同数据类型。基于一套符合行业业务需求的具有特定意义的业务模型,驱动数据在业务通道中流动,最后形成一个对真实数据背后隐藏的复杂关系有显性指导意义的结论。
作者简介:老俞, 混迹GIS领域十年有余,敲过代码,写过文档,带过队伍,跑过客户。目前从事GIS项目开发和管理、空间位置分析应用、商业地理分析等方面的工作。
责任编辑:王培