数据新闻实战：大数据驱动新闻之数据抓取

数据观 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

《数据新闻实战：大数据驱动新闻之数据抓取》是部门内部交流《大数据驱动新闻实战（初步）》上的ppt讲稿。

现将数据抓取部分发布，供大家分享交流。

数据抓取一节分为两部分，包括数据来源和数据抓取。

数据来源主要讲数据的来源网站。

数据抓取主要讲如何将数据源的网络数据抓取到本地。

网站数据来源

政府类网站：建议优先选择政府网站，数据较为权威，能长期稳定产生数据，数据量较多；举个例子：质检总局网站、环保部网站

行业垂直网站：数据较为专业，整理较为全面；举个例子：IT桔子|IT互联网公司产品数据库及商业信息服务

百度系列产品

百度指数：关键词指数和产经类指数

百度预测：产经类大数据预测

百度舆情：产经类舆情分析

百度搜索：多条件检索

微博指数产品

新浪微博微指数：关键词指数

微信指数产品

新榜微信指数：关键词指数

数据抓取

网络爬虫：采用python等编程语言编写网络爬虫，抓取网页信息

优点：开源免费、可操作弹性大

缺点：需学习编程、编写爬虫较费时间

采集器：采用八爪鱼、火车头等网页采集器，抓取网页信息

优点：上手极快、无需学习编程、可导出为CSV/TXT/EXCEL等多种格式

缺点：超过一定量需要付费导出、某些采用异步Ajax技术的网页无法全面采集

数据抓取就是如此简单，抓紧动手尝试吧。

责任编辑：陈近梅