数据分析你放在人人贷的钱都去了哪里?-36大数据
作者:猫尾KUN
摘要: 本文使用 python 抓取分析数据 — 人人贷,并从中获取贷款用户。
一、抓取准备
导入必要的库
import requests # 提取页面信息 import json from urllib.parse import urlencode from pandas import DataFrame
二、获取 URL 地址
使用 chrome 浏览器 — 检查功能,因为页面是动态加载,我们以获取页面的两个 url 讲解:
url1= https://www.renrendai.com/pc/loan/list/loanList?startNum=0&limit=10&_=1504013654389 url2=https://www.renrendai.com/pc/loan/list/loanListstartNum=1&limit=10&_=1504013654389
可以观察到页面是随着 startNum=N 中 N 变化的,所以可以 N 为参数进行不同页面信息的抓取
接下来设置一个请求的头文件信息,目的是包装一下我们的爬虫,以防反爬虫的拦截而抓不到数据。
Headers={ ‘Host’:’ www.renrendai.com’, ‘Referer’:’ https://www.renrendai.com/pc/loan.html’, ‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’ }
三、页面信息提取
采用 requests+json 库进行提取 :
Res=requests.get(url,Headers) html=json.loads(Res) result=[] if data and 'data' in data.keys(): loan = data.get('data') for item in (loan['loans']): items={ 'loanId':item.get('loanId'), 'title':item.get('title'), 'amount':item.get('amount') } result.append(result) return result
四、数据保存
采用 pandas 库,因为我们的体量并不是很大,因此直接保存为 xlsx 格式就可以了。
data=[] for i in range(10): detail.extend(get_comments(i)) f = DataFrame(data) f.to_excel('renrendai.xlsx')
最后我们就可以得到 excel 格式的数据了。
五、贷款项目分布
用excel做饼图,可以看到贷款项目主要用于资金周转,占比超过一半,其次是用于装修,占比18.97%
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 数据分析你放在人人贷的钱都去了哪里?