数据新闻实战:大数据驱动新闻之数据抓取

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

《数据新闻实战:大数据驱动新闻之数据抓取》是部门内部交流《大数据驱动新闻实战(初步)》上的ppt讲稿。

现将数据抓取部分发布,供大家分享交流。

数据抓取一节分为两部分,包括数据来源和数据抓取。

数据来源主要讲数据的来源网站。

数据抓取主要讲如何将数据源的网络数据抓取到本地。

网站数据来源

政府类网站:建议优先选择政府网站,数据较为权威,能长期稳定产生数据,数据量较多;举个例子:质检总局网站、环保部网站

行业垂直网站:数据较为专业,整理较为全面;举个例子:IT桔子|IT互联网公司产品数据库及商业信息服务

百度系列产品

百度指数:关键词指数和产经类指数

百度预测:产经类大数据预测

百度舆情:产经类舆情分析

百度搜索:多条件检索

微博指数产品

新浪微博微指数:关键词指数

微信指数产品

新榜微信指数:关键词指数

数据抓取

网络爬虫:采用python等编程语言编写网络爬虫,抓取网页信息

优点:开源免费、可操作弹性大

缺点:需学习编程、编写爬虫较费时间

采集器:采用八爪鱼、火车头等网页采集器,抓取网页信息

优点:上手极快、无需学习编程、可导出为CSV/TXT/EXCEL等多种格式

缺点:超过一定量需要付费导出、某些采用异步Ajax技术的网页无法全面采集

数据抓取就是如此简单,抓紧动手尝试吧。

责任编辑:陈近梅

随意打赏

新闻大新闻实战大数据数据抓取
提交建议
微信扫一扫,分享给好友吧。