资源 | 微软官方整理:用于Azure机器学习的免费数据集
选自Microsoft
作者:Lee Scott
机器之心编译
参与:李亚洲、吴攀、杜夏德
要学习怎么使用微软 Azure 机器学习,最重要的是获取样本数据集和进行实验。
在微软,我们有大量的样本数据集可用。这些数据集已经在 Azure Cortana Intelligence Gallery 中的样本模型中得到了应用。
其中一些数据集可以通过 Azure Blob 存储获取,所以可以直接链接到 Azure 机器学习实验;而其它的数据集则是以 CSV 格式提供的。下面列出的这些数据集都将提供直接的链接。你可以通过 Import Data 模型在你的实验中使用这些数据。
这些数据中的剩下数据集都列在模块(module)面板中的 Saved Datasets 下;当你在 ML Studio 中打开或创建一个新实验时,你能在实验画布(experiment canvas)的左边看到它们。你可以直接将这些数据集拖拽到实验画布而将它们应用到你自己的实验中。
以下列出了一些可以免费使用的数据集:
成年人收入普查二分类数据集
一个 1994 年的普查数据库的子数据集,使用了 16 岁以上的工作年龄的成年人的数据,其带有一个经调整之后大于 100 的收入指数。
用途:使用人口学信息对人进行分类,以预测一个人年收入是否超过 5 万美元
相关研究:Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院
机场代码数据集(Airport Codes Dataset)
美国机场代码
这个数据集包含每个美国机场,提供了机场 ID 编号和名字,以及机场所在的城市和州。
汽车价格数据(Automobile price data,原始数据)
按厂家和车型分类的汽车信息,其中包括价格、气缸数量和 MPG 等特征,以及保险风险评分(insurance risk score)。
这个风险评分最初是与汽车价格关联的,后来根据实际风险在一个被精算师称为符号化(symboling)的过程中进行了调整。+3 的值表示该汽车是有风险的,而 -3 的值则表示它可能是相当安全的。
用途:使用回归或多变量分类,根据特征预测风险评分。
相关研究:Schlimmer, J.C. (1987). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院
自行车租赁 UCI 数据集(Bike Rental UCI dataset)
UCI 自行车租赁数据集基于来自 Capital Bikeshare 公司的真实数据,该公司在华盛顿特区运营着一个自行车租赁网络。
该数据集包含 2011 年和 2012 年每一天和每一小时的数据,总共有 17379 行。每小时租赁自行车数量的范围在 1 到 977 之间。
Bill Gates RGB Image
已转换成 CSV 数据的公开可用的图像文件。
用于转换该图像的代码提供在使用 K-均值聚类模型的颜色量化(Color quantization using K-Means clustering model)的详情页面。
献血数据(Blood donation data)
一个来自台湾新竹市输血服务中心献血数据库的一个子数据集。
献血者数据包括献血频率、总献血次数、自上次献血以来的时间和献血量。
用途:目标是通过分类预测献血者是否在 2007 年 3 月献血,其中 1 表示目标区间内的一个献血者,0 表示没有献血者。
相关研究:Yeh, I.C., (2008). UCI Machine Learning Repository , CA: 加州大学信息与计算机科学学院
亚马逊网站的书评
由宾夕法尼亚大学研究者采集(地址:
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)。-参见论文《Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification》,来自 John Blitzer, Mark Dredze, and Fernando Pereira; 计算语言学协会 (ACL), 2007-
原来的数据集包含 97.5 万条包含 1、2、3、4、5 评分的书评。这些书评都是用英语写的,截取自 1997-2007 年这个时间段。这个数据集已经被下采样成了 1 万条书评。
乳腺癌数据(Breast cancer data)
由 Oncology Institute 提供的三个与癌症相关的数据集中的一个,其常常出现在机器学习文献中。结合了来自对大约 300 种组织样本的实验室分析的特征的诊断信息。
用途:基于 9 种属性分类癌症类型,其中一些是线性的,一些是按类别划分的。
相关研究:Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository, CA: 加州大学信息与计算机科学学院
乳腺癌特征(Breast Cancer Features)
这个数据集包含了来自 X 射线图像的 10.2 万个可疑区域(候选项)的信息,其中每个区域都用 117 个特征进行了描述。这些特征是专有的,而且它们的含义没有被该数据集的创造者(Siemens Healthcare)揭示出来。
乳腺癌信息(Breast Cancer Info)
这个数据集包含了来自 X 射线图像的可疑区域的额外信息。每个样本都提供了对应 Breast Cancer Features 数据集行数的信息(如,标签、病人 ID、图像块相对于整张图像的坐标)。每个病人都有很多样本。对于患癌的病人来说,一些样本是积极的,一些样本是消极的。该样本有 10.2 万个样本。这个数据集有偏置的,其中只有 0.6% 的点是积极的,其余都是消极的。该数据集由 Siemens Healthcare 提供。
CRM Appetency Labels Shared
来自 KDD Cup 2009 客户关系预测挑战赛的标签:
http://www.sigkdd.org/site/2009/files/orange_small_train_appetency.labels
CRM Churn Labels Shared
来自 KDD Cup 2009 客户关系预测挑战赛的标签:
http://www.sigkdd.org/site/2009/files/orange_small_train_churn.labels
CRM Dataset Shared
来自 KDD Cup 2009 客户关系预测挑战赛的数据:http://www.sigkdd.org/kdd-cup-2009-customer-relationship-prediction%20-%20orange_small_train.data.zip
该数据集包含来自法国电信公司 Orange 的 5 万个客户。其中每个客户有 230 个匿名的特征,其中 190 个数值特征和 40 个类别特征。这些特征是非常稀疏的。
CRM Upselling Labels Shared
来自 KDD Cup 2009 客户关系预测挑战赛的标签:
http://www.sigkdd.org/site/2009/files/orange_large_train_upselling.labels
能效回归数据(Energy Efficiency Regression data)
基于 12 种不同的建筑外形收集的模拟能量分布。这些建筑按照 8 个特征进行了区分,比如:玻璃窗面积、玻璃窗面积分布和取向。
用途:使用回归(regression)或分类(classification)来预测能效等级,其给出的两种响应是有实际价值的。对于多类别分类,响应变量被取舍到了最接近的整数。
相关研究:Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository Irvine, CA:加州大学信息与计算机科学学院
航班延误数据
来自美国交通部收集的 TranStats 数据集中的乘客航班正常率数据。该数据集覆盖 2013 年 4 月到 10 月的统计,在上传到 Azure ML Studio 之前,该数据集处理如下:
-
该数据集经过过滤只覆盖美国本土的 70 个最繁忙的机场
-
废除了标记显示延误超过 15 分钟的航班
-
转航班数据也被消除
-
选择使用数据目录如下:Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled
美国 2011 年 10 月飞机到达与离开的记录数据
用途:预测航班延误
相关研究:来自美国交通部的 http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
森林火灾数据
该数据集包含来自葡萄牙东北部的天气数据,比如温度、湿度指数和风速,结合与森林火灾的记录。
用途:这是一项很难的回归任务,目的是预测森林火灾焚烧的地区。
相关研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and
Computer Science
[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 � Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 地址: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
德国信用卡 UCI 数据集
UCI Statlog(德国信用卡)数据集(Statlog+German+Credit+Data))使用了 german.data 文件。
该数据集通过一系列的属性进行表述,根据人进行分类,每个样本表示一个人。此数据集中有 20 个特征,都是数字和类别,以及二元标签(信用风险值)。高信用风险标记为 2,低信用风险标记为 1。将低风险样本误分类为高风险的成本是 1,反之误分类高风险的成本是 5。
IMDB 电影
该数据集包含 Twitter 上评估的有关电影的信息:IMDB 电影 ID、电影名和流派、生产年。该数据集中有 17K 的电影。
鸢尾花两级数据
在模式识别文献中,它可能是最知名的数据集。该数据集相对较小,包含来自三个鸢尾属植物分类的每种花瓣测量的 50 个样本。
用途:从测量中预测 iris 的类别。
相关研究:Fisher, R.A. (1988). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science
电影 Tweets
该数据集是 Movie Tweeting 数据集的扩展版本,此数据集有 170K 的电影评估信息,从结构较好的 tweets 中提取。每个示例代表一条 tweet,数据元组:用户、IMDB 电影 ID、评估等级、时间标记、该 tweet 的点赞人数、转推人数。该数据集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。
汽车MPG数据
该数据集是由卡耐基梅陇大学 StatLib 库提供的数据集的修正版本,此数据集曾被 1983 年 American Statistical Association Exposition 使用。
该数据列出了每加仑汽油各种类型机动车的消耗情况,同时也包含气缸个数、引擎排放量、马力、总重量和加速这样的信息。
通途:基于 3 个多值离散属性和 5 个连续属性预测节约燃油。
相关研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science
Pima 印第安人糖尿病二进制分类数据集
来自 National Institute of Diabetes and Digestive and Kidney Diseases 数据集的一个子集。该数据集经过过滤只关注 Pima Indian 遗传的女性病人。数据包括血糖、胰岛素水平、生活方式这样的医疗数据。
用途:预测该主体是否有糖尿病(二分类)
相关研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science
餐馆消费者数据集
一系列关于消费者的元数据,包括人口统计学和喜好。
用途:使用该数据集,结合其他两个餐饮数据集,可训练并测试推荐系统。
相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.
Restaurant feature data
一堆关于餐馆和餐馆特征的元数据,比如食物类型、餐厅风格、位置。
用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。
相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.
餐馆评分数据集
包含用户给出的对餐馆的评价,等级从 0 到 2 划分。
用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。
相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.
钢退火多级数据集(Steel Annealing multi-class)
该数据集包含一系列来自钢材退火实验的记录,数据包含测试钢材类型的物理属性(宽度、厚度、类型(线圈、薄片等))。
用途:预测任何二数类属性:硬度或强度,也可用于分析属性间的关联。钢材等级划分遵循一定标准,由 SAE 和其他组织定义。你可以寻求特定的等级,并了解所需要的值。
相关研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science
望远镜数据集
高能量伽马粒子爆发的记录,也带有背景噪声,都使用 Monte Carlo 处理方法模拟。
模拟的目的是改进地表大气 Cherenkov 射线望远镜的准确率,使用统计方法微分想要信号(Cherenkov radiation showers)和背景噪声。
该数据已经过了预处理,以创建一个以指向相机中心方向为长轴的延长的聚类(elongated cluster)。这个椭圆的特征(通常被称为 Hillas 参数)是可以用于判别(discrimination)的图像参数中的一部分。
用途:预测 shower 表征信号或背景噪声的天气图像。
注意:简单分类准确率对此数据意义不大,因为将背景时间分类为信号要比将信号分类为背景更糟糕。该数据可用来对比 ROC 图应该使用的不同分类器。同时也要注意背景事件(h 代表 hadronic showers)的数量是被低估的,在真实测量中,h 或噪声类代表主要事件。
相关研究: Bock, R.K. (1995). UCI Machine Learning Repository Irvine, CA: University of California, School of Information
天气数据集
来自 NOAA 的每小时地面天气观测(融合了从 2013 年 4 月到 2013 年 10 月的数据)
这份天气 数据包括了机场天气预报站的观测数据,时间从 2013 年 4 月到 10 月。
在上传 Azure ML Studio 之前,数据集要做如下处理:
-
气象站 ID 要映射到对应的机场 ID 上。
-
与忙碌的 70 家机场无关的气象站需要过滤掉
-
日期按年、月、和天分为单独的列
-
需要选择的列包括:机场 ID、年、月、日、时间、时区、天空状况(skycondition)、能见度、天气类型、干球华氏温度(DryBulbFarenheit)、干球摄氏温度(DryBulbCelsius)、湿球华氏温度(WetBulbFarenheit)、湿球摄氏温度(WetBulbCelsius)、露点华氏温度(DewPointFarenheit)、露点摄氏温度(DewPointCelsius)、相对湿度、风速、风向、ValueForWindCharacter、本站气压(StationPressure)、气压趋向(PressureTendency)、气压变化(PressureChange)、 海平面气压(SeaLevelPressure)、 记录类型(RecordType)、每小时降雨量(HourlyPrecip)、(高度计)Altimeter
维基百科标准普尔 500 指数数据集(Wikipedia SP 500 Dataset)
源自维基百科的基于标准普尔 500 指数中每家公司的文章的数据,以 XML 格式存储。
在将该数据集上传到 Azure ML Studio 之前,需要进行以下处理:
-
提取每家特定公司的文本内容
-
移除 wiki 格式
-
移除非字母数字的字符
-
将所有文本转换成小写
-
已知公司类别已被加入
注意有些公司没有找到文章,所以该记录的数量小于 500.
可以 CSV 格式下载的数据集
direct_marketing.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/direct_marketing.csv)
这个数据集包含了关于一项直接邮寄活动的客户数据和关于他们的响应的指示。其中每一行代表一个客户。该数据集包含关于用户人口学信息和过去行为的 9 项特征,以及 3 个标签列(访问、转化和支出)。访问(visit)是一个二元行,表示了每次营销活动后客户的访问;转化(conversion)表示客户购买了一些东西;支出(spend)是指花费了多少钱。该数据集由 Kevin Hillstrom 为 MineThatData 电子邮件分析和数据挖掘挑战赛(MineThatData E-Mail Analytics And Data Mining Challenge)提供。
lyrl2004_tokens_test.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_test.csv)
RCV1-V2 Reuters 新闻数据集中的测试样本的特征。该数据集有 78.1 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。
lyrl2004_tokens_train.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_train.csv)
RCV1-V2 Reuters 新闻数据集中的训练样本的特征。该数据集有 2.3 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。
来自 KDD Cup 1999 知识发现和数据挖掘工具竞赛(KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition)的数据集。
该数据集可在 Azure Blob 下载:
https://azuremlsampleexperiments.blob.core.windows.net/datasets/network_intrusion_detection.csv,其中包含了训练和测试数据集。训练数据集有大约 12.6 万行和 43 列,其中包含标签;3 列标签性质信息和 40 列数值与字符串/类别特征信息,都可用于训练该模型。测试数据集有大约 2.25 万个测试样本,和训练数据一样有 43 列。
rcv1-v2.topics.qrels.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/rcv1-v2.topics.qrels.csv)
在 RCV1-V2 新闻数据集中的新闻主题分配。一篇新闻可被分为多个主题。每一行的的格式是 1。该数据集包含 260 万个主题分配,由 David. D. Lewis 共享。
student_performance.txt
这个数据集来自 KDD Cup 2010 学生表现评估挑战赛(student performance evaluation)。这个数据集已被 Algebra_2008_2009 训练集采用(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010))
在 KDD Cup 2010 教育数据挖掘挑战赛中的 Algebra I 2008-2009 数据集可以在该竞赛的网站中下载:http://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp。
该数据集也可以在 Azure Blob 下载:
https://azuremlsampleexperiments.blob.core.windows.net/datasets/student_performance.txt,其中的数据来自于学生辅导系统。其中提供了问题 ID 和简要描述,学生 ID,时间标记,同时还有学生在正确解决问题前的尝试次数。原数据集存储了 890 万条记录,这个数据集减少了取样数量,容量缩小至前 10 万行数据。这份数据每一条目有 23 个不同类型的分项,包括数值、类别和时间戳。
©本文由机器之心经授权编译,机器之心系今日头条签约作者,本文首发于头条号, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn