数据处理，不可不知的常用工具

36大数据 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

数据分析

作者：吴嘉川、刘佳昕

网页、PDF里的数据获取，令人头大;更别提数据清理了。在大多数情况下，做数据可视化的我们都难以得到最干净整洁全面的“ready to go”的数据，需要我们在网页中去“挖”，再去另外的平台进行“清理”，下面就介绍一些NICAR中被提到的常用工具。

01 网页获取数据-非编程方式

A. Web Scraper

Web Scraper 是一款用于网页数据索取的谷歌浏览器插件，用户可以自行创建数据抓取计划，命令它索取你需要的数据，最终数据可以以csv类型文件导出。

B. Import.io

Import.io 是一款免费的桌面应用，它可以帮助用户从大量网页中抓取所需数据，它把每个网页都当成一个可以生成API的数据源。

C. HTML表格插件

Chrome插件
Firefox插件

D. Down Them All

另外一款用于从网页下载文件的火狐浏览器插件，它包含一些比较简单的过滤功能，比如用户可以选择只下载包含名字中包含“county”的xls文件或者zip压缩包(*county*.zip)。

E. WGET

WGET是一个使用命令行的传统而很好用的数据索取方式。假设用户想从一个网站上索取省份信息，每个州都有统一格式的URL，比如http://sitename.com/state/34 和 http://sitename.com/state/36, 用户就将一个包含所有这些url的exl表格存成text文件，这样就可以用wget-ilist.txt来获取所有身份信息。

F. XML奇迹

很多情况下，网页的数据是以xml的形式架构起来的，这个教程可以帮助用户探索网页中潜在的数据结构，搞清楚网页的代码源是如何被组织起来的。

02 获取PDF中的数据

A. 免费软件

a). CometDocs 是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站，上传文件，选择输出文件类型，输入你的邮件地址，完成。

缺点：不能免费处理图片，需要订购OCR服务。

b). Tabula 是一款你可以直接下载安装到电脑上的免费软件，它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后，你需要手动将需要的表格框出来，Tabula会试图在保留行列的前提下转化数据。

缺点：Tabula不能做到光学字符识别，它不如下面会列举到的商业程序精确，比如它获取的行列边距不是很准确，需要手动调整。

B. 付费程序：

a). Cogniview 和Tabula类似，你可以将需要的表格框起来，但是如果Congniview猜错了，你可以很容易地调整它的范围。更棒的是，它有光学字符识别版本，这样即便是图片它也可以识别。

b). ABLE2EXTRACT是纽约时报图像部门钟爱的程序，界面和使用方式和Cogniview都很类似。

缺点：大多数时候Able2Extract都表现很好，但它的调试系统不如Cogniview。

c). ABBY FineReader

d). Adobe Acrobat Pro

e). Datawatch Monarch是这个系列里的明星软件，但价格不菲。如果你在做一个长期的项目，并且要从一个很难转换的形式中获取数据，Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出，用户可以自主设计输出表格的形式。

03 清理数据- Open Refine

Open Refine是清理数据方面一款强大的工具。比较典型的使用案例是当你有一个人名、公司名格式不统一的数据时，Open Refine就是很好的选择。在NICAR会议中，来自纽约时报的数据库项目编辑Robert Gebeloff

和Kaas & Mulvad创始人兼CEO Nils Mulvad对Open Refine使用其自创教程对Open Refine进行了讲解：

教程： > https://github.com/gebelo/nicar2016/blob/master/refine.pdf

辅助数据资料：

https://github.com/gebelo/nicar2016/blob/master/prof.csv

https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx

via:djchina

End.

随意打赏

你不可不知常用工具