雷锋网(公众号:雷锋网)
AI 科技评论消息,日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。
这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSON和SQL文件,利用它来教
作者:Matt K 译者:足下美中不足在2010年时,Yelp开源了一个名叫MRJob的框架,是用来在AWS基础设施上运行大MapReduce Job的。Yelp的工程师们用MRJob实现了很多功能,从广告推送到翻译,比比皆是。事实证明,MRJob是一个非常强大的工具,可以在我们当时丰富的数据集合上完成计算和聚集操作