大数据:分类型数据可视化方法研究报告
数据可视化可以将海量数据通过图形、表格等形式直观反映给大众。降低数据读取门槛,可以让企业通过形象化方式对自身产品进行营销。
一、数据可视化原理
数据化可视原理是综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或者动画,并允许用户对数据进行交互分析的理论方法和技术。
数据可视化可以将不可见的现象转换为可见的图形符号,并从中发现规律从而获取知识。在实际应用中,它可以针对复杂和大规模的数据,还原增强数据中的全局结构和具体细节。
二、 可视化方法
1. 数据采集:数据是可视化对象,可以通过仪器采样,调查记录、模拟计算等方式采集。在可视化解决方案中,了解数据来源采集方法和数据属性,才能有的放矢解决问题。
2. 数据处理和变换:原始数据含有噪音和误差同时数据模式和特征往往被隐藏。通过去噪、数据清洗、提取特征等变换为用户可理解模式。
3. 可视化映射(核心):将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素如标记、位置、形状、大小和颜色等。最终让用户通过可视化洞察数据和数据背后隐含的现象和规律。
4. 用户感知:用户感知从数据可视化结果中提取信息、知识和灵感。数据可视化可用于从数据中探索新的假设,也可严重相关假设与数据是否吻合,还可帮助专家向公众展示数据中的信息。
用户感知可以在任何时期反作用于数据的采集、处理变换以及映射过程中,如下图所示:
三、具体操作
1. 将指标值图形化
一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小,这也是最常用的可视化形式。
传统的柱形图、饼图有可能会带来审美疲劳,可尝试从图形的视觉样式上进行一些创新,常用的方法就是将图形与指标的含义关联起来。
比如 Google Zeitgeist 在展现 top10 的搜索词时,展示的就是“搜索”形状的柱形,图形与指标的含义相吻合,同时也做了立体的视觉变化:
2. 将指标图形化
一般用在与指标含义相近的 icon 来表现,使用场景也比较多,如下:
3. 将指标关系图形化
当存在多个指标时,为了挖掘指标之间的关系并将其进行图形化表达,可提升图表的可视化深度。常见有以下两种方式:
借助已有的场景来表现
联想自然或社会中有无场景与指标关系类似,然后借助此场景来表现。
比如百度统计流量研究院操作系统的分布(上图),首先分为 windows、mac 还有其他操作系统, windows 又包含 xp、2003、7等多种子系统。
宇宙星系中也有类似的关系: 宇宙中有很多星系,我们最为熟悉的是太阳系,太阳系中又包括各个行星。根据这种关系联想,图表整体借用宇宙星系的场景,将熟知的Windows比喻成太阳系,将XP、Window7等系统比喻成太阳系中的行星,将Mac和其他系统比喻成其他星系。
构建场景来表现
指标之间往往具有一些关联特征,如从简单到复杂、从低级到高级、从前到后等等。如无法找到已存在的对应场景,也可构建场景。
比如百度统计流量研究院中的学历分布:指标分别是小学、初中、高中、本科等等。
各个类目之间是一种阶梯式的关系,因此,平台就设计了一个阶梯式的图直观的反映出了数据呈阶梯式递进的趋势。
再比如:支付宝年初出的个人年度账单中,在描述付款最多的三项时设计了一个类似颁奖台的样式也很出彩:(然而并没有觉得我在哪个类目买买买付款最多有什么骄傲的)
下方图示为供参考的线性化过程,实际可视化思考中,将哪类元素进行图形化或者图形化前后的顺序可能均有不同,需根据具体情况处理。
4. 将时间和空间可视化
时间
通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。
空间
当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。
Google Zeitgeist 在 2010 和 2012 年的年度热门回顾中,都是以地图为主要载体(同时也结合了时间),来呈现热门事件:
5. 将数据进行概念转换
先看下生活中的概念转换,当我们需要喝水时,通常会说给我来杯水而不是给我来500ml 的水。要注意来(一)杯水,是具象的,并不是用量化的数据来形容。在这里,500ml就是一个具体的数据,但是它难以被感知,所以用(一)杯的概念来转换。
同样在数据可视化,有时需要对数据进行概念转换。这是为了加深用户对数据的感知,常用方法有对比和比喻。感知就是一个将数据由抽象转化为具象的过程。
对比
比如下图就是一个介绍中国烟民数量的图表。如果只看左半部分中国烟民的数量:32000000(个十百千万十万百万千万亿…)好吧数据量级很大,不论是数零还是数逗号都很容易数错,而且具体这个数字有多大仍然很难感知。让我们目光向右移动,来看右半部分:中国烟民数量超过了美国人口总和,太恐怖了。这样一对比,对数据的感知就加深了。
比喻
下图是一个介绍雅虎邮箱处理数据量大小的图表,大概就是说它每小时处理的电子邮件有近1.2TB,相当于644245094 张打印的纸。
上面这个翻译很无聊是不是,但这并不是问题的重点,这个数它到底有多大呢? 文案中用了一个比喻的手法:大意就是将这些邮件打印出来首尾相连可以绕地球4圈。嗯,比香飘飘奶瓶还多3圈。到这里,我相信大家肯定能初步感受到雅虎邮箱每天处理的数据量有多大了吧,而且还没有被打印出来,为地球节省了很多纸(假装环保)。
6.让图表“动”起来
数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。
实现动态化通常以下两种方式: 交互和动画。
交互
交互包括鼠标浮动、点击、多图表时的联动响应等等。下面是百度统计流量研究院的时间分布图,该分布图采用左图右表的联动形式,左图中鼠标浮动则显示对应数据,点击则可以切换选择:
动画
动画包括入场动画、交互过程的动画和播放动画等等。
入场动画:即在页面载入后,给图表一个“生长”的过程,取代“数据载入中”这样的提示文字。
交互动画:用户发生交互行为后,通过动画形式给以及时反馈。
播放动画:通俗的来说就是提供播放功能,让用户能够完整看到数据随时间变化的过程。下图是 Gapminder 在描述多维数据时,提供随时间播放的功能,可以直观感受到所有数据的变化。
四、案例分析
案例:360“骗子地图”
简介:
360依托12亿终端设备作为支撑,利用海量的数据分析能力,推出了基于互联网安全的产品“骗子地图”。用户只要点击进入“骗子地图”的链接或按钮,即可直观的在上面看到全国各地的被拦截电话以及骚扰电话的分布以及地区排行榜。同时右侧还有由用户上传的“骗术揭秘”,不仅能看到实实在在的数据,还能学到更多的防骗技巧。
案例流程:
数据采集:
360借助其5亿PC端用户和7亿移动端用户的海量装机量,结合360网盾对钓鱼网站的实时监控拦截数据和手机卫士拦截的诈骗电话等数据结合,将枯燥的数据进行翻译、梳理并展现为用户可以感知的数据。
数据处理和变换:
实时性:
拦截数量实时变换,直观反映各地的拦截情况
图形化:
将数据可视化为“钓鱼“形象的图标,背景用中国地图,通过图标的闪烁反映各省市自治区、直辖市的钓鱼网站拦截情况。直观,便捷。通过不同颜色标注诈骗类型:金融;网购;虚假信息等。
个性化:
针对用户在不同时期的关注点不同,“骗子地图”也推出了不同的策略方针。如在春节期间,由于人流量扩大,用户的出行需求增加,相应的假机票、车票的钓鱼网站量增加明显,针对这种情况,在这段时间内,360 加大了对假机票、车票网站的拦截及处理,保证用户的出行安全。
可视化映射:
①通过闪烁的图标表示数量和频率,闪烁频率高,亮度大的地区发生诈骗的概率大。
②右侧配合排行榜,列出数据和地区,直观反映排名靠前的省份以及其诈骗频率,弥补了图标无法显示数据的缺点。
用户感知:
“骗子地图”的核心理念是为了增强用户对网络安全的意识,提升用户的防骗意识,让用户在网络虚拟世界中用最现实的资料和例子了解到安全的重要性。实时为用户呈现各种基于大数据的可视化数据图,更有相关的“防骗技巧”帮助用户了解安全的重要性。
小结
360“骗子地图”的可视化的一些经验:
①海量用户数据:由于多年提供免费杀毒服务的经验使得 360 拥有可观的用户数量这为其数据的准确性提供了不错的支持
②技术先进性: 其自身研发的 360 网盾能够很好的对诈骗行为进行识别,对于诈骗数据的准确性筛选提供了保障。
个人的一些想法:
虽然不清楚360这个公司靠什么盈利,但这个项目就短期来看应该不会被撤销。所以,在“骗子地图”目前的基础上,挖掘用户“为何被骗”的痛点。例如可以对用户进行诈骗提醒,进而可以推广自己的产品和服务。我认为这个才是360这个项目未来的发展方向。 另外在形象化图标和界面上应该再做改进;图标+数据排行的模式很不错,更加方便用户在数量上有清楚的认识。
五、总结
数据可视化可以将海量数据通过图形、表格等形式直观反映给大众。降低数据读取门槛,可以让企业通过形象化方式对自身产品进行营销。同时,目前有很多专门进行数据可视化包装服务的企业,如 IBM 等企业。
数据可视化具备比较广阔的前景,对企业内部的管理也有其独有的贡献。通过本次学习,以及网上资料查询,对于数据可视化有了一些粗略的认识,其中有很多认识的不足,希望可以慢慢学习改进。
作者:杨彦硕,微博“高见黑科技”作者,暂无工作,希望找到一份运营编辑类的工作。微信:yys940116,欢迎各位同好学习交流。
本文链接: http://www.yixieshi.com/53846.html (转载请保留)