工欲善其事必先利其器(数据分析工具集一)
作者:沈浩老师
2016年8月6日 青岛,今天受邀请,给来自全国各高校骨干教师网络与新媒体培训《大数据挖掘助力社会科学研究》,课后很多老师问我软件问题和工具资料来源,顺道整理一下!
其实我在2003年就开始从事一些数据挖掘的项目和培训,进行海量数据的处理,较早深入研究数据挖掘领域,所以很早的时候我也写过一段话:
(大)数据时代已经来临,如何从海量数据中发现知识,寻找隐藏在(大)数据中的模式、趋势和相关性,揭示社会现象与社会发展规律,以及可能的商业应用前景,都需要我们拥有更好的数据洞察力。
上述文字后来我给《大数据时代》一书写的推荐语。
工欲善其事,必先利其器!
数据分析也好,统计分析也好,数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析方法、手段和技能,特别是要掌握软件分析工具!我曾经说过,我的学习方法,一般是先学软件开始,再去应用,再学会理论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。
下面我来简介各种我掌握或理解的大数据时代的各种数据分析工具或软件,前提是从新闻传播学领域的视角来讲,或者是针对社会科学领域的朋友,学生来讲。
掌握:小数据时代的数据分析工具:
1、Excel 软件
凡是说数据分析的人,必须会Excel,这是职场最常用或最重要的数据分析软件了。首先版本越高越好用,这是肯定的;特别是Excel2013版增加了Power Map和快照,如果到了Excel2016版新功能更多了。当然对Excel来讲,大部分人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
Excel也经常作为其他软件的数据存储或接口使用,2003版只能放65536条记录,2007版后可以装百万记录了!现在处理更大数据可以用Power BI或其他工具。
PPT在这里无需质疑,它不是数据分析软件,但是职场和教书必备的沟通工具了,早期的可视化主要就是Excel或PPT制作了。这里要说明,PPT就是一个容器,制作PPT好的人,都不是PPT而是其他工具好,然后放在PPT容器里展现出来。PPT高手一般不用默认自带的模版,PPT也是制作信息图infograph的工具。
3、PS、AI、Mindmanager、Visio、SmartDraw等
这些软件都是为PPT或自身美化的软件工具,美观是PS出来的。PS和AI也是制作信息图的重要工具。Mindmanager是思维导图可以构思和导出PPT内容框架,Visio和SmartDraw等主要是制作各种流程图、甘特图等工具,比如设计各种图标、表格、地图块等。
4、Xcelsius水晶易表
这款软件现在有点被淘汰了,但是这是俺国内最早购买和使用的非常棒的可视化软件,也叫Dashboard仪表盘,是商业智能BI的典型工具,很多设计思想来自它的设计,比如仪表盘、指针、量表等等。它生成的交互报表可以直接嵌入PPT中。
实际上Xcelsius是在Excel基础上增加了设计导出Flash,因为Apple的流行对Flash支持有问题,这款软件慢慢弱化了。
5、Canvas软件 https://www.canva.com/
这是一款在线设计软件,可以设计各种信息图用于PPT零件或制作博客、社交媒体文档。内嵌各种图形、背景、文本效果等。(可能要翻墙)
6、SPSS统计分析软件
经典的社会科学统计分析软件,是实证定量研究和学术领域的重要统计分析工具,现在来说就是小数据或抽样数据的分析软件。最近软件更新比较快,习惯使用18.0、20.0或22版本,在描述性统计和相关、回归、聚类、因子分析和主成分分析等多变量分析都有特长;特别是高版本后增加了部分具有机器学习的算法,比如:RFM模型、时间序列预测、决策树等算法。自从开始玩大数据已经很少用SPSS了。
7、AMOS结构方程式模型
SEM结构方程式模型是最典型的证实性研究方法,所有证实性因子分析、回归分析、路径分析和影响分析都需要在理论建构的基础上进行实证。有一种说法,如果在统计分析领域不用结构方程式模型就不算学术型定量研究方法。当然AMOS显然不属于大数据领域,是典型的实证研究方法。
与AMOS对应的SEM方法还有:Lisrel、SmartPls、HLM等软件
8、SAS软件
SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计、ETL、金融或质量控制等还是SAS比较好用,另外,SAS的学习材料比较多,也公开,会有收获的!
JMP分析:SAS的一个分析分支,偏向于典型的轻量级数据分析和描述性统计、制图报表等;
9、Ucinet、NetDraw社会网络分析软件
Ucinet是早年经典的社会网络分析SNA软件,主要基于小群体网络和社会科学研究的网络分析工具,是理解网络分析的基本软件;NetDraw是基于Ucinet数据的独立网络可视化分析软件,除此之外还有Pajek、Negopy等软件,但都比较早期,现在基本上都淘汰了。
但Ucinet是典型的学术研究型网络分析软件,也是理解社会网络分析的基点,可以通过这款软件进入网络关系型数据的世界。
今天先写到这里,上述软件基本上都是20年前就开始使用的小数据工具,与大数据分析关系不大,但如果小数据分析您都不会,大数据分析就会吗?
稍后文章开始介绍大数据软件工具
主要从:数据存储层——数据报表层——数据分析层——数据挖掘层——数据可视化层来介绍。
End.