数据新闻实战:大数据驱动新闻之数据抓取
《数据新闻实战:大数据驱动新闻之数据抓取》是部门内部交流《大数据驱动新闻实战(初步)》上的ppt讲稿。
现将数据抓取部分发布,供大家分享交流。
数据抓取一节分为两部分,包括数据来源和数据抓取。
数据来源主要讲数据的来源网站。
数据抓取主要讲如何将数据源的网络数据抓取到本地。
网站数据来源
政府类网站:建议优先选择政府网站,数据较为权威,能长期稳定产生数据,数据量较多;举个例子:质检总局网站、环保部网站
行业垂直网站:数据较为专业,整理较为全面;举个例子:IT桔子|IT互联网公司产品数据库及商业信息服务
百度系列产品
百度指数:关键词指数和产经类指数
百度预测:产经类大数据预测
百度舆情:产经类舆情分析
百度搜索:多条件检索
微博指数产品
新浪微博微指数:关键词指数
微信指数产品
新榜微信指数:关键词指数
数据抓取
网络爬虫:采用python等编程语言编写网络爬虫,抓取网页信息
优点:开源免费、可操作弹性大
缺点:需学习编程、编写爬虫较费时间
采集器:采用八爪鱼、火车头等网页采集器,抓取网页信息
优点:上手极快、无需学习编程、可导出为CSV/TXT/EXCEL等多种格式
缺点:超过一定量需要付费导出、某些采用异步Ajax技术的网页无法全面采集
数据抓取就是如此简单,抓紧动手尝试吧。
责任编辑:陈近梅