数据处理,不可不知的常用工具
作者:吴嘉川、刘佳昕
网页、PDF里的数据获取,令人头大;更别提数据清理了。在大多数情况下,做数据可视化的我们都难以得到最干净整洁全面的“ready to go”的数据,需要我们在网页中去“挖”,再去另外的平台进行“清理”,下面就介绍一些NICAR中被提到的常用工具。
01 网页获取数据-非编程方式
A. Web Scraper
Web Scraper 是一款用于网页数据索取的谷歌浏览器插件,用户可以自行创建数据抓取计划,命令它索取你需要的数据,最终数据可以以csv类型文件导出。
B. Import.io
Import.io 是一款免费的桌面应用,它可以帮助用户从大量网页中抓取所需数据,它把每个网页都当成一个可以生成API的数据源。
C. HTML表格插件
- Chrome插件
- Firefox插件
D. Down Them All
另外一款用于从网页下载文件的火狐浏览器插件,它包含一些比较简单的过滤功能,比如用户可以选择只下载包含名字中包含“county”的xls文件或者zip压缩包(*county*.zip)。
E. WGET
WGET是一个使用命令行的传统而很好用的数据索取方式。假设用户想从一个网站上索取省份信息,每个州都有统一格式的URL,比如http://sitename.com/state/34 和 http://sitename.com/state/36, 用户就将一个包含所有这些url的exl表格存成text文件,这样就可以用wget-ilist.txt来获取所有身份信息。
F. XML奇迹
很多情况下,网页的数据是以xml的形式架构起来的,这个教程可以帮助用户探索网页中潜在的数据结构,搞清楚网页的代码源是如何被组织起来的。
02 获取PDF中的数据
A. 免费软件
a). CometDocs 是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。
缺点:不能免费处理图片,需要订购OCR服务。
缺点:Tabula不能做到光学字符识别,它不如下面会列举到的商业程序精确,比如它获取的行列边距不是很准确,需要手动调整。
B. 付费程序:
a). Cogniview 和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。
缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。
c). ABBY FineReader
d). Adobe Acrobat Pro
e). Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。
03 清理数据- Open Refine
Open Refine是清理数据方面一款强大的工具。比较典型的使用案例是当你有一个人名、公司名格式不统一的数据时,Open Refine就是很好的选择。在NICAR会议中,来自纽约时报的数据库项目编辑Robert Gebeloff
和Kaas & Mulvad创始人兼CEO Nils Mulvad对Open Refine使用其自创教程对Open Refine进行了讲解:
教程: > https://github.com/gebelo/nicar2016/blob/master/refine.pdf
辅助数据资料:
https://github.com/gebelo/nicar2016/blob/master/prof.csv
https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx
via:djchina
End.