平行坐标系:高维数据可视化分析的必备杀手锏
编辑导语:数据可视化并不是简单的把数据变成图表,而是以数据为视角,看待世界,换句话说,数据可视化的客体是数据。如果能够很好的运用平行坐标系,便能高效地进行高维数据可视化分析。
“ 今天聊聊一种不太常见但又挺好用的可视化图形:平行坐标系。 ”
关于数据可视化,我们很久之前分享过Excel基础图表以及Excel进阶图表,都是Excel支持的我们常用的一些图表逻辑。今天分享一个数据人应该见过但是不那么熟悉的图形:平行坐标系(Parallel Coordinates)。
一、定义及适用场景
首先,聊聊平行坐标系的一些整体概述内容。
1. 基础定义
平行坐标系,是一种含有多个垂直平行坐标轴的统计图表。每个垂直坐标轴表示一个字段(维度),每个字段(维度)又用刻度来标明范围,如下示例图。
这样,一个多维的数据可以很容易地在每一条轴上找到“落点”,从而连接起来,形成一条折线。随着数据增多,折线堆叠,分析者则有可能从中发现特性和规律,比如发现数据之间的聚类关系。
2. 历史发展
大约在一百多年前,就已经有人运用平行坐标,来对复杂事件做可视化。
在20世纪70年代,作为一种统计图表,平行坐标系被特拉维夫大学的Alfred Inselberg系统发展起来。
3. 适用场景
平行坐标图最适用于多维数据(尤其是维度大于3个时,3个以内的维度可以用散点图)的分析和比较。例如,多个学科、多个考核指标、多个关键参数等。
当然,前提是用来比较的对象都具有这些维度。比如,一个经典的案例(下文中的场景案例2),是用平行坐标系来比较世界各国汽车在性能上的差异。对于汽车而言,这些维度是共有的(包括耗油量、汽缸数、加速度等等),因而适合比较。
二、图表详细逻辑
我们以一个例子,理解一下图表的数据逻辑。
例如,某班主任想分析班级学生的优劣势科目,以及每个学生的偏科情况。下面是具体数据表:
做完平行坐标图后:
平行坐标系的每个坐标轴,很可能有不同的数据范围,这一点很容易造成读者误解。作图时,最好显著标明每一根轴上的最小值、最大值。
使用平行坐标系时,如何确定轴的顺序,是可以人为决定的。一般来说,顺序会影响阅读的感知和判断。两根坐标轴隔得越近,人们对二者的对比就感知地越强烈。因此,要得出最合适、美观的排序方式,往往需要经过多次的试验和比较。反过来讲,尝试不同的排布方式,也可能有助于得出更多的结论。
三、与其他图表的关系
下面我们看一看平行坐标系和其他比较相似的图表的对比。
1. 与折线图
平行坐标系与折线图完全不同。
折线图的数据是通过时间组织起来的(每个数据点之间包含着时间前后的关系),但平行坐标轴并没有时间序列,它的坐标轴是可以人为设定顺序的,点与点之间也没有因果关系,折线并不代表趋势。各个坐标轴之间也没有因果关系。
2. 与桑吉图
桑吉图在之前的 路径分析 中有过介绍。
看着挺像的,但是桑吉图有个重要的逻辑是:每个竖轴前后是有顺序关系的,而平行坐标系没有先后顺序。
因此,桑吉图更多作为用户路径先后顺序的分析,以及层次拆分的分析。
3. 与雷达图
其实,平行坐标系和雷达图是最相近的。
雷达图表示的是多个维度上的分布情况,平行坐标系也是。因此可以将平行坐标系理解成雷达图的展开。大多数情况下,这两者确实可以互换。
四、劣势以及交互提升
平行坐标系的弊端在于折线太多、看上去十分庞杂,过于凌乱。但平行坐标系在处理多维数据上的优势,仍然是其他统计图难以比拟的。尤其是,当平行坐标系配合交互功能使用时,其价值就会立刻显现。
最好的解决方法是加入交互——“Brushing”,用户可以通过“刷”的方法,在坐标轴上“刷”出他们想要探索的部分。基本操作是,用户可以在每一根垂直坐标轴上“刷”出自己想要的范围,处于范围内的折线高亮,其余的呈灰度。这样一来,我们既可以看到所有折线堆叠出来的整体景观,又可以自由定制想看的范围,可以说是“见树又见林”。
当然,交互的设计可以不限于此,比如下图将平行坐标系与表格结合起来,对于小型的数据集来说,会更加一目了然。
此外,如下图所示,也可以通过技术将繁杂的折线“捆”在一起(Bundling Technique),这样,人们的视觉就更能集中于起始的刻度。
五、典型案例
最后,我们看两个典型的利用平行坐标系的案例。
1. 历年世界500强排名
下图总结了1955-2010年来的世界五百强公司排名、收入和利润情况。
每一根竖轴代表一年的排名,通过将每家公司历年的排名描点、连线,就形成了一条折线。鼠标滑动时,相应的公司会高亮显示,方便读者探索它的兴衰变化。例如上图中,我们看到可口可乐公司的排名,尽管有所波动,但始终位于高位,并且稳中有升,在1994年达到巅峰,之后有所回落。
原文链接:https://fathom.info/fortune500/
2. 汽车参数对比
在平行坐标系的众多简介中,几乎都会涉及到这个汽车的案例——数据包括上世纪70、80年代的32款汽车,以及这些汽车的气缸数(cylinders)、引擎大小(displacement)、每加仑汽油行驶的里程(MPG)、功率(horsepower)、重量(weight)等等。
从图中(Evans, no date),我们可以清晰地看出一些关系,例如从里程与气缸数呈负相关、气缸数与功率呈正相关。再比如,随着时间发展,汽车越来越轻了。通过“Brushing”功能,还有更多新奇发现。
关于平行坐标系,我们就先介绍这些吧。如果大家对可视化图表感兴趣,后面我作为系列展开多分享分享。我觉得这种基础的数据产品以及数据分析的知识点,还是有必要扎实掌握的。
#专栏作家#
NK冬至,公众号:首席数据科学家,人人都是产品经理专栏作家。在金融领域、电商领域有丰富数据及产品经验。擅长数据分析、数据产品等相关内容。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。