为什么科学家需要更好地进行数据可视化
编辑导语:数据可视化,是数据科学家工作的重要组成部分。在项目的早期阶段,科学家通常会进行探索性数据分析,以获取对数据的一些洞察;在项目结束时,能以清晰、简洁和引人注目的方式展示最终结果也非常重要,这样才能让你的非技术性客户能够理解你的意图。
想象一本没有图像的科学教科书,没有图表、图表、带有箭头和标签的插图或图表,科学将很难理解。
那是因为人类天生就是视觉生物,人们以图形形式吸收信息,而这些信息会以文字形式逃避。图像对于各种叙事都是有效的,尤其是在故事复杂的情况下(如科学常常如此)。
科学的视觉效果对于分析数据,传达实验结果甚至做出令人惊讶的发现至关重要。
麻省理工学院广泛研究所的创意总监Bang Wong说:可视化可以揭示很难或不可能以其他任何方式找到的数据模式,趋势和联系。“绘制数据可以使我们看到数据的基础结构,而如果要查看表,则无法看到这些结构。”
但是,很少有科学家会像在生成数据或撰写数据时一样,对视觉效果给予同等的关注。
数据可视化科学家SeánO’Donoghue说:大多数科学出版物附带的图表往往是研究人员要做的最后一件事,“可视化实际上只是锦上添花。”
结果,科学中充斥着不良的数据可视化效果,使读者感到困惑,甚至可能误导制造它们的科学家。
数据视觉效果不足会降低质量,并阻碍科学研究的进展。随着越来越多的科学图像进入新闻和社交媒体(从气候变化到疾病暴发的一切图示),不良视觉效果有可能损害公众对科学的理解。
随着科学数据的数量和复杂性日益增加,这个问题变得更加严重。这些数据的可视化,理解和共享它们比以往任何时候都更加重要。
然而,科学家很少接受可视化培训。新南威尔士大学的奥多诺休(O’Donoghue)是《2018年生物医学数据年度回顾》中有关生物医学数据可视化的论文的主要作者,他说:“社区尚未普遍意识到这确实是必要的。”
但是有进步的迹象,在过去的十年中,至少召开了两次致力于科学数据可视化的年度会议。
《自然方法》(Nature Methods)杂志在2010年至2016年定期刊登有关创建更好的图形和图表的专栏文章 ,然后将其改编为科学家向该杂志提交论文的指南。但是到目前为止,很少有科学家关注这个问题。
改善科学可视化将需要更好地了解人脑如何看待世界的优点,缺点和偏见。
幸运的是,研究已经开始揭示人们如何阅读和错误阅读各种可视化图像,以及哪种类型的图表最有效,最容易破译,应用这些知识应该可以更好地进行科学的视觉交流。
犹他大学的计算机科学家Miriah Meyer说:“我们对有效的方法有很多实用的知识。”、 “有许多原则经过时间的考验,并一遍又一遍地证明是有效的。”
一、图表选择
人类视觉系统的发展是为了帮助我们在自然世界中生存和发展,而不是阅读图表。
我们的大脑以可以帮助我们在有毒品种中找到可食用植物,发现猎物并且在白天和黑夜中都能很好地看到自己的眼睛的方式来解释。通过分析我们从眼睛获得的信息来实现这些目的,我们的大脑使我们对世界有了量身定制的感知。
在1980年代初期,贝尔实验室的统计学家威廉·克利夫兰(William Cleveland)和罗伯特·麦吉尔(Robert McGill),开始研究人类感知的细节如何影响我们解密数据图形显示的能力,从而发现哪种图表发挥了我们的优势,以及我们在与之抗争。
克利夫兰(Cleveland)和麦吉尔(McGill)在1984年发表在《美国统计协会杂志》(Journal of the American Statistics Association)上的开创性论文中,根据人们阅读内容的便捷程度,对视觉元素进行了排名。
人们在辨别某些类型的视觉效果上比其他特征更胜一筹,例如,两条线的长度或一条线的方向比灰色阴影或颜色的强度更容易分辨。研究表明,使用此列表顶部视觉元素的图形比靠近底部的图形更易于阅读且更有效。
他们的实验表明,人们最擅长基于条形或折线的长度来阅读图表,例如在标准条形图中。当重要的是要准确识别值之间的细微差别时,这些可视化是最佳选择。
研究参与者发现很难判断方向,角度和面积的差异。使用体积,曲率或阴影来表示数据的图形更加困难,最不有效的方法是色彩饱和度。
西雅图大学的计算机科学家杰弗里·海尔(Jeffrey Heer)说:“当听众察觉微小差异时,听众察觉的能力将越来越差”。通常,最佳做法是使用列表中满足每种数据类型需求的最高图形元素。
例如:如果重要的是要表明一种特定疾病的致死性远大于其他疾病,那么使用圆圈大小代表死亡人数的图形将非常有用。但是要强调致命性较低的疾病之间死亡人数差异的小得多,条形图将更加有效。
2010年,Heer使用亚马逊的Mechanical Turk众包服务确认了 克利夫兰和麦吉尔的排名在现代数字环境中是正确的。
从那以后,Heer,O’Donoghue和其他人使用众包来测试可视化的许多其他方面,以找出最有效的方法。O’Donoghue说:“在整个领域都具有强大的力量,并确实为它奠定了坚实的工程基础。”
二、有害的馅饼
克利夫兰和麦吉尔(McGill)的图形排名凸显了为什么一些流行的数字不是很有效。一个很好的例子是广受欢迎的饼图,它使爱德华·塔夫特(Edward Tufte)等数据可视化专家不屑一顾。
Tufte在1983年颇具影响力的论文《定量信息的可视化显示》中写道:“唯一不及饼图的设计就是其中的几个。”
饼图通常用于比较整个部分,这是一项具有认知挑战性的视觉任务。
读者需要判断饼图的面积之间的差异,或者判断图表中心的角度之间的差异:两种类型的估算比辨别条形图上条形的长度差异要困难得多。在许多情况下是更好的选择。
饼图最适合用来显示各个部分与整体的关系。
在此图中,饼形图有效地显示了每个经济部门对温室气体总排放量的贡献大小,但是很难将各个部门进行比较。条形图允许轻松比较各扇区,但无法传达每个扇区与总数之间的关系。
饼图之所以诱人,是因为它们通常比条形图更具吸引力,易于填充颜色并且易于制造。
但是它们很少是最佳选择,只有在有限的情况下才可以接受。如果目标是显示零件的总和,或者比较零件与该整体(而不是彼此比较切片),则只要精度不重要,执行良好的饼图就足够了。
例如:一个饼图很好地描绘了每个经济部门对温室气体排放的贡献,表明大约一半来自电力和热力生产以及农业,林业和其他土地利用。通常最受关注的交通运输占了很小的一部分。
在这种情况下,将六个条形图并排放置并不能立即显示出这些部分的总和为100%或每个条形图占整体的比例。
在某些科学学科中,饼图只是用于显示特定类型数据的标准实践。而且很难推翻传统。
Wong说:“表观遗传学中的某些领域,我们必须显示饼图。” Wong说,他与Broad Institute的生物医学科学家合作创建了更好的可视化效果。“我知道饼图的缺点,但是它总是在每个出版物中都以饼图的形式显示出来,因此人们坚持这一观点非常严格。”
在其他情况下,额外的工作需要人脑来使他们成为传递准确信息或连贯故事的不良工具。
三、酒吧后面
尽管条形图易于阅读和理解,但这并不意味着它们始终是最佳选择。在某些领域,例如心理学、医学和生理学,条形图经常会歪曲基础数据并掩盖重要的细节。
明尼苏达州罗彻斯特市梅奥诊所的生理学家Tracey Weissgerber说:“如果要可视化计数或比例,则应使用条形图。”他研究研究的完成方式和报告方法。“但是对于可视化连续数据,它们并不是一种非常有效的策略。”
Weissgerber在2015年对顶级生理学期刊进行了一项调查,发现约有85%的论文至少包含一张代表连续数据的条形图,例如血压或体温的测量,每个样品在相关范围内可以有任何值。
但是代表连续数据的条形图可能无法显示一些重要信息,例如每个条形图代表多少个样本以及条形图内是否有子组。
右边的四组数据中的每一组都可以由左边的同一条形图准确地表示,这说明了条形图如何掩盖有关数据的重要细节,可能会误导读者。
例如:魏斯伯格(Weissgerber)指出,妊娠并发症先兆子痫可能源于母亲的问题或婴儿或胎盘的问题。但是在这些人群中,是通过不同途径达到相同症状的患者亚组。
Weissgerber说:“我们的确专注于试图理解和识别患有先兆子痫的不同亚型的女性。” “而且问题之一是,如果我们在条形图中显示所有数据,则条形图中没有子组。”
对于基本生物医学中常见的小样本量研究,条形图尤其有问题。条形图没有显示样本的大小,而离群值可能会对条形图高度指示的平均值产生很大影响。
Weissgerber说:“挑战之一是,在基础生物医学的许多领域,条形图仅被接受为…我们如何显示连续数据。”
对于显示连续数据,许多类型的图形要优于条形图。
散点图(顶部)为读者提供了有关数据的更多详细信息,揭示了样本数量以及是否存在离群值或聚类:箱形图(中)非常适合显示数据集的可变性,直方图(底部)使读者可以评估数据的分布。
对于小型连续数据集,有几个很好的替代图。
散点图,箱形图和直方图都可以揭示数据的分布,但在魏斯格伯分析的论文中很少使用。为了帮助解决此问题,她开发了工具来创建简单的散点图和各种交互式图形。
四、废墟的彩虹
色彩对于突出显示数据的不同方面并为科学图形增添生命是非常有效的,但这也是出错的最简单方法之一。人类对颜色的感知并不简单,大多数科学家在选择颜色来代表其数据时并未考虑视觉系统的特殊性。
最常见的不良做法之一是使用彩虹色标,从地质学到气候学再到分子生物学,研究人员倾向于在Roy G. Biv的帮助下绘制数据图。但是彩虹调色板有几个严重的缺点很少推荐。
Wong说,即使它是从自然光谱中得出的,彩虹中的颜色顺序也不直观。“您有点想,蓝色比绿色大吗?黄色比红色大吗?”
更大的问题是人脑对彩虹的感知不均匀,人们从色调(例如红色或蓝色),饱和度(颜色的强度)和亮度(混入多少白色或黑色)方面看到颜色。
人类的大脑最依赖亮度来解释形状和深度,因此倾向于将最亮的颜色表示为峰值,将较暗的颜色表示为山谷。但是,彩虹中最亮的颜色是黄色,通常在刻度的中间某个地方可以看到,从而导致观看者在错误的位置看到高点。
使问题更加复杂的是,某些颜色之间的过渡似乎是渐进的,而其他变化似乎更为突然。
另一方面,基础数据通常具有一致的变化率,与彩虹的不均匀性不匹配。英格兰雷丁大学的气候科学家埃德·霍金斯(Ed Hawkins)说:“您可以拥有一个不存在的感知边界,也可以隐藏存在的边界。” 甚至科学家在解释自己的数据时也可能陷入这种幻想。
为了避免彩虹问题,一些研究人员提出了基于数学的调色板,可以更好地将其颜色的感知变化与相应数据的变化进行匹配。其中一些较新的色标特别适用于有红绿色色盲的人,据估计,这种疾病会影响约8%的男性(但仅影响女性的一小部分)。
尽管制图师和霍金斯等少数科学家一直在反对彩虹,但数十年来,它在科学文献中仍然无处不在。
自从彩色印刷发明以来,某些科学领域可能就一直在使用它。而且,由于许多科学家并不了解彩虹的问题所在,因此他们认为没有理由违背传统。霍金斯说:“人们习惯使用它,所以他们喜欢它,对它感到自在。”
彩虹色标是科学家用来创建可视化效果的许多软件的默认色,这也鼓励了这种倾向。但是霍金斯和其他人一直在推动软件制造商改变默认设置,并取得了一些成功。
2014年,MathWorks将MATLAB软件程序的默认设置更改为一种改进的配色方案,称为parula;在2015年,一位认知科学家和一位数据科学家开发了一种 新的默认配色方案,称为viridis,用于使用流行的Python编程语言进行绘图。
十二种软件库中已经添加了一种新的 数学上衍生的色彩方案cividis,尽管这在所有软件库中都不是默认的。
五、危险热图
人类视觉系统中最有趣的怪癖之一(也是数据可视化中最棘手的怪癖之一)是,我们对颜色的感知可能会受到附近其他颜色的影响。在某些情况下,效果非常显着,导致各种视错觉。
每当可视化将彼此相邻的不同颜色或什至是相同颜色的阴影放置时,它们都可以以意想不到的方式进行交互。完全相同的颜色在被较暗的阴影包围时看起来与在被较浅的阴影包围时看起来完全不同,这种现象称为同时对比度。
当阴影跨过方格网格时,棋盘格阴影错觉就是其中一个众所周知的例子,它可以发挥大脑对颜色的解释。
Wong说:“颜色相互作用的影响是一个巨大的问题。” 在生命科学中,一个普遍的例子是热图,该热图通常用于揭示两组数据之间的关系。
他说:“如果翻阅期刊,那么三分之一的数字就是热图。” “这是一种非常流行的数据可视化形式,实际上在偏向科学数据。”
热图是一个二维矩阵,基本上是一个表或网格,它使用网格中每个正方形的颜色表示基础数据的值。一种或多种色调的较浅和较深的阴影表示较低或较高的值。
热图在显示基因活性数据方面特别受欢迎,可帮助研究人员确定在不同情况下或多或少活跃地产生蛋白质(或其他分子)的基因模式。
此热图上的两个加星号的正方形是相同的橙色阴影,表示在基因活性方面的值相同。但是相邻方格的颜色不同意味着加星标的方格看起来不一样,这可能会产生误解。
热图非常适合将大量数据打包到紧凑的显示器中,但是将各种颜色的阴影紧挨在一起会触发同时出现的对比度错觉。
例如:科学家比较网格中各个正方形的颜色很容易将两个不同的橙色阴影误解为相同,或者认为两个相同的阴影完全不同,这取决于周围正方形的颜色。
Wong说:“在热图中,这是一个巨大的问题,您需要依靠一堆彼此相邻的彩色瓷砖。” “这种无意识的偏见在每个热图上都非常普遍。”
对于基因活性数据,绿色和红色通常用于显示哪些基因或多或少具有活性。
与由较深的绿色,红色或黑色包围的特定绿色相比,由较浅的绿色包围的特定绿色外观看起来非常不同;绿色阴影所代表的值是相同的,但是根据其相邻的正方形,它会显得更高或更低。
网格的一部分中出现一团亮绿色的方块,可能意味着该基因在一组紧密相关的亚种中具有很高的活性,例如细菌。
同时,在网格的另一部分,一个暗绿色的方块被黑色方块包围可能看起来很亮,这表明同一基因在无关的细菌物种中具有很高的活性,而实际上它只是弱活性的。
Wong说,缓解问题的一种方法是在网格的各个部分之间引入一些空白,也许是将相关物种,样本组或相关基因集分开。
打破正方形将减少来自相邻颜色的干扰,另一种解决方案是使用完全不同的显示,例如使用线连接高活性基因的图形,或代表随着时间或在两个实验状态之间基因活性变化的一系列图形。
六、消息混乱
确保可视化不会歪曲数据或误导读者,这对于共享科学成果至关重要。但是,重要的是要考虑一个人物是否真的在引起人们对最相关信息的关注,而不是分散读者的注意力。
例如:当绘制为线图或直方图时,许多数据集的分布将呈钟形,大部分数据位于中心附近。Wong说:“但是我们经常关心尾巴上有什么。” 对于观看者来说,“中间常常有这么大的旧东西不堪重负。”
解决方案可能是使用高度以外的其他方式来表示数据的分布,一个选项是条形码图,该图将每个值显示为一条线。在这种图形上,更容易看到低浓度区域的细节,这些细节往往在钟形曲线上几乎消失了。
钟形曲线引起人们对大量数据分布的关注。但是有时候真正重要的是数据边缘的内容。在这种情况下,条形码图可能是更好的选择。
上图显示细胞系对基因FOXA1的依赖性; 负-1参考线左侧的那些需要该基因才能存活。这些细胞系很难在钟形曲线上看到,但在条形码上却很突出。
精心应用的颜色还可以增强和阐明图形的信息。例如,在使用不同颜色标识数据类别的散点图上,最重要的信息应由最突出的颜色表示。
制图程序可能只是将红色随机分配给对照组,因为它是数据的第一列,而对于发现至关重要的有趣突变体最终变成了灰色。
数据可视化记者Alberto Cairo在2013年的《功能艺术》中写道:“纯色在自然界中并不常见,因此请限制它们以突出显示图形中重要的内容。” “将柔和的色调-灰色,浅蓝色和绿色-用于其他所有颜色。”
除了彩虹和同步对比度之外,还有很多其他方法可以使颜色出现问题。使用过多的颜色会分散可视化效果的主要信息。彼此之间太相似或与图像的背景颜色太相似的颜色可能难以辨认。
与文化期望背道而驰的颜色也会影响读者对图形的理解程度。
例如,在显示地形的地图上,人们期望植被是绿色的,干旱地区是棕色的,海拔更高的是白色,城市是灰色的,当然水是蓝色的。如果地图没有遵循这些公认的配色方案,将很难阅读。
想象一下美国的选举地图,其中民主地区显示为红色,共和党地区显示为蓝色,或者条形图以鲜艳而欢快的颜色显示了不同的死亡原因,不和谐将使人们难以吸收他们的信息。
读者在文化上定义了对不同颜色含义的期望,违反这种期望会使图形,地图和其他插图更难以解读,如美国这张变色的浮雕图所示。
如果不需要颜色,则有时最安全的做法是坚持使用灰色阴影。正如塔夫特(Tufte)在其1990年的《远景信息》(Envisioning Information)一书中所言,“避免灾难成为将色彩带入信息的第一条原则: 首先,没有伤害。”
七、想象未来
O’Donoghue说:许多数据可视化问题仍然存在,是因为科学家根本不了解它们,或者不相信更好的数字值得付出额外的努力。
他一直在努力通过通过启动和主持年度Vizbi会议来改变这种状况,该会议专注于对生物科学进行可视化,为科学家举办可视化研讨会,并整理文献以获取最佳实践和不良实践的证据,这些均已汇编成他的2018年度评论论文。
他说:但是总的来说,这项努力还没有获得很大的动力。“我认为我们还有很长的路要走。”
缺乏认识的原因之一是,大多数科学家没有接受任何有关数据可视化的培训。
理科研究生很少需要它,而且大多数机构都不提供基于科学可视化设计的课程。Weissgerber说,对于许多学生,尤其是生物医学专业的学生来说,他们唯一接触数据可视化的地方是针对他们的需求量身定制的统计课程。
在显示数据的方式上,科学家也倾向于遵循惯例,这使不良做法长期存在。
对抗先例之力的一种方法是,将更好的设计原则纳入科学家用来绘制数据的工具中(例如,已经从“彩虹”默认设置切换到更具感知性的调色板的软件工具)。
O’Donoghue说,大多数科学家都不会学习更好的可视化实践,“但是他们将使用工具。如果这些工具具有更好的原理,那么默认情况下,它们将[应用那些]。”
他说,科学出版商也可以提供帮助。“我认为期刊可以通过制定标准来发挥作用。” 早期的科学家从经验更丰富的同事和已发表的论文中汲取线索。
包括PLoS Biology, ELife和 Nature Biomedical Engineering在内的一些期刊已经对Weissgerber的2015年条形图研究做出了回应。她说:“自论文发表以来,许多期刊已经改变了政策,禁止或不鼓励将条形图用于连续数据,特别是对于小型数据集。”
随着科学数据变得越来越复杂,科学家将需要继续开发新型的可视化文件来处理这种复杂性。
为了使这些可视化效果对科学家和公众都有效,数据可视化设计人员将必须对人类的视觉处理进行最佳研究,以便与大脑合作而不是与之对抗。
参考网站: Knowledge Magazine
本文由 @小陈同学 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 unsplash,基于 CC0 协议