用VR做数据可视化的正确姿势是什么?
数据可视化是少数几个 VR“布道者”非常喜欢说道的利用虚拟现实可能产生变革的领域之一。但是究竟应该如何做呢?现今的数据可视化领域又有什么问题呢?本文对传统的数据可视化的几个具体问题进行挖掘,讨论理解抽象信息方面的难题,并探讨VR如何改变这一切。
本文原作者Evan Warfel,虚拟现实数据可视化公司 Kineviz 的项目经理,曾经任 HID 环球集团数据科学家,毕业于U.C. Berkeley 的认知科学专业。 工作之余,他还研究人类制定决策的过程问题。
谈论数据和虚拟现实的问题有点像鸡和蛋的问题——如果不知道人们会如何使用 VR 数据工具,就很难设计良好的VR数据工具。话虽如此,但虚拟现实可以帮助我们提升概率思维、多维数据的可视化、高密度信息的展示、以及提供情境使人们更全面地理解问题。
高维度数据的可视化
“图像是优秀数据分析的关键”——F.J.Anscombe
如果是二维或者一维数据集,相应的可视化方法非常简单,使用图或表格即可。
上面是著名的 Anscombe 四幅图,其中每个数据集有着同样的均值、相关系数、方差和最优拟合线。
上面的每一个数据集中,X 的均值都是 9,Y 的均值都是 7.50,X 的方差都是 11,X 和 Y 的相关系数是0.816,最优拟合线的方程都是 Y=3+5x。换句话说,这四个数据集即使在实际看来,他们本身是完全不同的,但在统计意义上他们却是相等的。然而这还是最简单的,因为我们只处理了二维数据。
如果是三维数据,你会想当然地使用三维图像。但是如果是更高维度的数据呢?比如 Excel 表中很多行很多列的数据,你可能就无从下手了。实际上,超过三维的数据集都不可能在超三维空间中进行可视化。
然而,还有其他表示维度的方法。比如说,可以用一个三角形三边的长度来表示一个数据的三个维度。如果你愿意,你还可以在三角形中间标注红蓝光谱或者明暗光谱中的颜色,这样你就可以在一个可视化图中展示五个连续维度。比较每一个三角形,你就可能发现一些异常或者一些隐藏模式和关系。这就是理论的原理所在。
Herman chernoff 在70年代发展了这种理论的变异形式,他不使用三角形的边长,他用卡通脸谱的不同特征来代表数据的不同维度(切尔诺夫脸)。
图中显示了 1977 年洛杉矶的生活状况。四个脸部特征,加上地理分布和社区分布,这张图显示了一个 6维数据。
你的直觉应该会不喜欢这种数据表示的方法,因为它不好解释,看起来有点愚蠢,也似乎有些种族歧视的意思。但是我建议你再好好观察一下——你能看到贫穷和富裕之间的缓冲地带吗?
切尔诺夫脸应用不够广泛的一个原因在于,它看起来过于卡通化(科学可是非常严谨的,用这种卡通脸似乎不太适合)。虽然切尔诺夫脸有着这样的缺点,但是它强调了这样一个事实:即是他们看上去很直观,但是我们因为对脸型和表情有太多经验,所以对一个结构化的脸的评论会有任意性。
看下面的图片,Tim Cook 的脸的不同特征(比如眉毛的弯度),可以代表 Apple 不同年份年的各种财务信息。
三个 Tim Cook 脸的不同版本代表了 Apple 各年的财务信息。Tim Cook 的鼻子的宽度表示 Apple 的负债数量;Cook 嘴的开合程度代表了每年的利润;他眼睛的大小代表了每股收益;等等。
虚拟现实可以解决上述的一些问题。除了这些脸型表示,还有一些“切尔诺夫类”的技术可以应用于对物体的形状、移动、交互和分布的控制。比如,下图这个桌子的性质可以代表不同的数据维度:高度、桌面的面积、颜色、桌腿的长度、桌子的光洁度、桌子的类型、污点的位置等等。如果你有一个 15 维的数据,你可以用不同因素的维度来控制你桌子的形态。
VR 的好处在于,它可以让你通过直观地比较两个桌子的高度或者桌面的摩擦力系数的不同来理解其代表的因子维度的不同。一些实验表明,维度间的差别程度的不同可以带来感知权重的不同。
另外,关于这种方法的研究已经覆盖到心理学和颜色感知的领域。研究者们花费了大量时间测量人们在不同的知觉中如何感知微小和巨大的区别。换句话说,借助 VR 和一些心理学知识,可以使人们理解复杂数据像逛宜家一样简单。
高密度的图像
由于一个数学史上不幸的意外,某种由点和连接线组成的东西也可以叫做图像,比如下图:
维基百科的力导向图
图中每个点代表了一个维基页面,每条线代表着页面间的联系。
数据点之间抽象的关系用图像表示是非常直观的,尤其是在这些联系的类型和数量十分重要的情况下。比如,下图展示了酵母菌和酿酒酵母之间每个基因的关系。
左边是一个代表一个酵母菌基因组的节点边缘图;右边是基因的重要聚类图
有趣的是,上面这些图的内部都非常复杂。如果你去查找“巴拿马文件”的数据集,你会发现跟上面这些图一样,图像中的连接线非常复杂。
事实是,大多数图像会因为中心部分重叠在一起的复杂连接线而变得难以理解。但是我们最初是因为要看清事物间的关系才使用这些图像。
正如你可能想到的,三维图像可视化能让我们在理解上更加容易。比如下图是一个三维的可视化图像,展示了大脑中不同的连接网络。
然而,我们应该发现,这些数据的可视化图像仍然有过于密集的问题。即使作图者已经使用算法把连接线整合在一起了,我们还是很难从图像中明白对象之间究竟有怎样的联系。想象一下,如果你能够走进图中的大脑里,那你可能更容易就能理解脑中到底发生了什么。
内容提供式的数据可视化
请对比一下图表:
两张图使用了同样的数据,但第一幅图却是 2015年最误导人的图表之一。
上面的图表作为一张静态图像,其误导性来自于它改变了数据的大小、形状和比例。因为我们看到内容,会想到我们的日常体验。
使用虚拟现实进行数据可视化的一大好处是,我们可以不用仅仅展示静态表示图,每一张VR表示图都可以自动变成一种体验。这意味着读者可以根据自己的意愿来探索一张图。
VR的拯救作用
当然,VR 数据工具目前仍在初级阶段。下面是三个例子,可以生动地说明我上文中提到的内容。
CalcFlow
第一个要介绍的是 Calcflow,这是加州圣迭戈分校的数学系研发了用于对 3D 数学概念的可视化工具。目前,它建立了一系列交互式展示,人们可以通过展示直观地理解二重积分和粘性流体方程等问题。你可以体验到 VR 的一些好处:可以改变观察数据的尺寸,可以在数据中“穿梭”,是的数据更易理解。这种体验式的展示特点意味着用户可以做出自己的调整,并观察这些调整在多维中是如何改变结果的。
DeathTools
DeathTools 的数据可视化是将抽象的数字变成真实可触知的世界,我们对这样的可视化数据的理解则完全不同于原有的数字和图像。比如,它将最近中东冲突中的累计死亡人数用尸体袋数量来表示,不同于查看柱状图,你仿佛真的站在成排的尸袋中,真实地体验战争的死亡人数。
正如 DeathTools 创始人 Ali Eslami 所说:“我们的知识储备中缺少一种感知大数字的能力。我们无法理解和接受大量的死亡。比如1、2、14、20、50 这种数字我们经常会遇到,所以我们会理性地对他们形成一种思维模式。但是当我们遇到 1000、10000、20000 时,这些数字的概念化会越来越难。但是我们仍然可以使用日常中体验大尺寸物品的视觉模型来理解大数字的意义。”
Kineviz
最近,我正在 Kineviz 上使用VR基础上的 3D 图像工具。这个工具专门用来处理高信息密度数据的。并且,这个工具可以使用户直观地感受到数据的显著不同。
VR 的最大好处就是它可以使人们更轻易地感知数据间的差别,使得数据密度更低,更加直观。另外,VR也使得数据展示变得更加具有体验感,数据展示不再需要匹配一些预定的设置。最后,VR 可以让人们快速改变数据的尺寸,提高用户的空间感知力,实现过去很难想象的对数据规模的感知。
责任编辑:陈近梅