【资源】17个最受欢迎的机器学习应用标准数据集

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

1 新智元编译

来源：machinelearningmastery.com

作者：Jason Brownlee

　　编译：刘小芹

　　 新智元启动新一轮大招聘 ：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　 简历投递：j obs@aiera.com.cn

　　 HR 微信： 13552313024

　　 新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

　　 加盟新智元，与人工智能业界领袖携手改变世界。

　　 【新智元导读】 学好机器学习的关键是用许多不同的数据集来实践。本文介绍了10个最受欢迎的标准机器学习数据集和7个时间序列数据集，既有回归问题也有分类问题，并提供了各数据集输入输出的变量名称和基准性能，以及下载地址，可以用作练习的资源。

　　学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题，需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎的标准机器学习数据集，可以用作练习的资源。

　　每个数据集均按照一定的格式介绍，以使读者相对容易比较，为他们的特定练习任务选择数据集或建模方法。

　　 格式：

名称：如何引用数据集
问题类型：是回归问题还是分类问题
输入和输出：输入和输出特征的数量和名称
性能：使用零规则算法（Zero Rule Algorithm）的基准性能比较，以及已知的最佳性能
示例：原始数据前5行的快照
链接：下载数据集及了解更多的链接

　　 标准数据集

　　下面是本文将介绍的 10 个数据集的列表。每个数据集都不大，能够适应内存或使用电子表格查看。所有数据集都由表格数据组成，并且没有（显式的）缺失值。

瑞典汽车保险数据集
葡萄酒质量数据集
比马印第安人糖尿病数据集
声纳数据集
钞票数据集
鸢尾花卉数据集
鲍鱼数据集
电离层数据集
小麦种子数据集
波士顿房价数据集

瑞典汽车保险数据集

　　瑞典汽车保险数据集（ Swedish Auto Insurance Dataset）包含了对所有索赔要求的总赔付预测，以千瑞典克朗计，给定的条件是索赔要求总数。

　　这是一个回归问题。它由 63 个观察值组成，包括1个输入变量和1个输出变量。变量名分别是：

索赔要求数量
对所有索赔的总赔付，以千瑞典克朗计

　　预测平均值的基准性能的均方根误差（RMSE）约为 72.251 千克朗。

　　前5行的示例如下：

　　下面是整个数据集的散点图：

　　【资源】17个最受欢迎的机器学习应用标准数据集

　　下载地址： http://t.cn/RfHWAbI

葡萄酒质量数据集

　　葡萄酒质量数据集（Wine Quality Dataset ）涉及根据每种葡萄酒的化学度量值来预测白葡萄酒的质量。

　　它是一个多类分类问题，但也可以定义为回归问题。每个类的观察值数量不均等。一共有 4898个观察值，11个输入变量和一个输出变量。变量名如下：

非挥发性酸度
挥发性酸度
柠檬酸
残留糖
氯化物
游离二氧化硫
总二氧化硫
浓度
pH值
硫酸盐
酒精度
质量（得分在 0 和 10 之间）

　　预测平均值的基准性能的均方根误差（RMSE）为 0.148 的质量分数。

　　数据集前5行的示例如下：

比马印第安人糖尿病数据集

　　比马印第安人糖尿病数据集（Pima Indians Diabetes Dataset）涉及根据医疗记录预测比马印第安人5年内糖尿病的发病情况。

　　它是一个二元分类问题。每个类的观察值数量不均等。一共有 768 个观察值，8个输入变量和1个输出变量。缺失值通常用零值编码。变量名如下：

怀孕次数
口服葡萄糖耐受试验中，2小时的血浆葡萄糖浓度。
舒张压（mm Hg）
三头肌皮肤褶层厚度（mm）
2小时血清胰岛素含量（μU/ ml）
体重指数（体重，kg /（身高，m）^ 2）
糖尿病家族史
年龄（岁）
类变量（0 或 1）

　　预测最普遍类的基准性能是约 65％的分类准确率，最佳结果达到约 77% 的分类准确率。

　　数据集前5行的示例如下：

　　下载地址： http://t.cn/RfaFfq8

声纳数据集

　　声纳数据集（Sonar Dataset ）涉及预测根据给定声纳从不同角度返回的强度预测目标物体是岩石还是矿井。

　　它是一个二元分类问题。每个类的观察值数量不均等。一共有208个观察值，60个输入变量和1个输出变量。变量名如下：

从不同角度返回的声纳
... ...
类（M为矿井，R为岩石）

　　预测最普遍类的基准性能是约 53％的分类准确率，最佳结果达到约 88% 的分类准确率。

　　该数据集前5行的示例如下：

　　下载地址： http://t.cn/Rf8GrP7

钞票数据集

　　钞票数据集（Banknote Dataset）涉及根据给定钞票的数个度量的照片预测是真钞还是假钞。

　　它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值，4个输入变量和1个输出变量。变量名如下：

小波变换图像（连续）
小波偏斜变换图像（连续）
小波峰度变换图像（连续）
图像熵（连续）。
类（0 为真钞，1 为假钞）

　　预测最普遍类的基准性能是约 50％的分类准确率。

　　该数据集前5行的示例如下：

　　下载地址： http:// t.cn/Rf8GdQo

鸢尾花卉数据集

　　鸢尾花卉数据集（Iris Flowers Dataset ）涉及根据鸢尾花的测量数据预测花卉品种。

　　它是一个多类分类问题。每个类的观察值数量是均等的。一共有 150 个观察值，4个输入变量和1个输出变量。变量名如下：

萼片长度（cm）
萼片宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）
类（Iris Setosa，Iris Versicolour，Iris Virginica）

　　预测最普遍类的基准性能是约 26％的分类准确率。

　　该数据集前5行的示例如下：

　　下载地址： http:// t.cn/Rf8GeUq

鲍鱼数据集

　　鲍鱼数据集（Abalone Dataset）涉及根据鲍鱼个体的测量数据来预测鲍鱼的年龄（环的数量）。

　　它是一个多类分类（multi-class classification）问题，但也可以作为回归问题。每个类的观察值数量不均等。该数据集有 4177 个观察值，8个输入变量和1个输出变量。变量名如下：

性别（M，F，I）
长度
直径
高度
总重量
剥壳重量
内脏重量
壳重
环的数量

　　预测最普遍类的基准性能是约 16％的分类准确率，预测平均值的基准性能的均方根误差（RMSE）是约 3.2 个环。

　　该数据集前5行的示例如下：

　　下载地址： http:// t.cn/Rf8GDdu

电离层数据集

　　电离层数据集（Ionosphere Dataset）需要根据给定的电离层中的自由电子的雷达回波预测大气结构。

　　它是一个二元分类问题。每个类的观察值数量不均等，一共有 351 个观察值，34 个输入变量和1个输出变量。变量名如下：

1 17对雷达回波数据。
2 ... ...
3 类（g 表示好，b 表示坏）。

　　预测最普遍类的基准性能是约 64％的分类准确率，最佳结果达到约 94% 的分类准确率。

　　该数据集前5行的示例如下：

　　下载地址： http ://t.cn/Rf8GFY4

小麦种子数据集

　　小麦种子数据集（Wheat Seeds Dataset）涉及对不同品种的小麦种子进行预测，给定的是种子的计量数据。

　　它是一个二元分类问题。每个类的观察值是均等的，一共 210 个观察值，7个输入变量和1个输出变量。变量名如下：

区域
周长
压实度
籽粒长度
籽粒宽度
不对称系数
籽粒腹沟长度
类（1，2，3）

　　预测最普遍类的基准性能是约 28％的分类准确率。

　　数据集前5行的示例如下：

　　下载地址： http://t.cn/RfHHbzw

波士顿房价数据集

　　波士顿房价数据集（Boston House Price Dataset）包含对房价的预测，以千美元计，给定的条件是房屋及其相邻房屋的详细信息。

　　该数据集是一个回归问题。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。变量名如下：

CRIM：城镇人均犯罪率。
ZN：住宅用地超过 25000 sq.ft. 的比例。
INDUS：城镇非零售商用土地的比例。
CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。
NOX：一氧化氮浓度。
RM：住宅平均房间数。
AGE：1940 年之前建成的自用房屋比例。
DIS：到波士顿五个中心区域的加权距离。
RAD：辐射性公路的接近指数。
TAX：每 10000 美元的全值财产税率。
PTRATIO：城镇师生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。
LSTAT：人口中地位低下者的比例。
MEDV：自住房的平均房价，以千美元计。

　　预测平均值的基准性能的均方根误差（RMSE）是约 9.21 千美元。

　　数据集前5行的示例如下：

　　下载地址： http://t.cn/RfHTAgY

时间序列数据集

　　机器学习可以在时间序列数据集上应用。这些属于需要预测数值或分类的问题，但数据是按时间排序的。下面介绍7个标准时间序列数据集，可用于使用机器学习进行时间序列预测的实践。

单变量时间序列数据集

　　只有一个变量的时间序列数据集称为单变量数据集（univariate datasets），其优点是：

简单且容易理解；
支持excel或其他绘图工具；
易于预测结果和期望结果的比较；
易于尝试你并评估新的方法。

　　以下是4个单变量时间序列数据集，均可从datamarket上下载。

洗发水销售数据集（Shampoo Sales Dataset）

　　【资源】17个最受欢迎的机器学习应用标准数据集

　　该数据集描述了3年期间的洗发水月销售量，单位是销售量，有36个观察值。下面是该数据集前5行的示例，包括标题行：

日最低温度数据集（Minimum Daily Temperatures Dataset）

　　【资源】17个最受欢迎的机器学习应用标准数据集

　　该数据集描述了澳大利亚墨尔本市10年间（1981-1990）的日最低温度。单位是摄氏度，有3650个观察值，数据来源为澳大利亚气象局。

　　下面是该数据集前5行数据的示例：

每月太阳黑子数数据集（Monthly Sunspot Dataset）

　　【资源】17个最受欢迎的机器学习应用标准数据集

　　该数据集描述了230年间（1749-1983）观测到的每月太阳黑子数量。单位是太阳黑子数量，有2820个观察值。数据集的来源为 Andrews＆Herzberg（1985）。

　　下面是前5行数据的示例：

每日女婴出生人数数据集

　　【资源】17个最受欢迎的机器学习应用标准数据集

　　该数据集描述了1959年加利福尼亚州每日出生的女婴人数。单位是人数，有365个观察值。数据集来源自 Newton（1988）。

　　下面是前5行的示例：

多变量时间序列数据集

　　多变量数据集（Multivariate datasets）通常更具挑战性，多变量时间序列数据的主要来源是 UCI 机器学习库（ http://archive.ics.uci.edu/ml/ ），下文推荐的3个数据集均可下载。

EEG 人眼状态数据集

　　该数据集描述个体的 EEG 数据，以及他们的眼睛是睁着还是闭着。这个问题是为了根据跟定的 EEG 数据预测眼睛的状态。

　　这是一个分类预测模型问题，共有14980个观察值和15个输入变量。分类值“1”表示眼睛闭着，“0”表示眼睛睁开着。数据按时间排序，记录观察结果的时间是117秒。

　　下面是数据集前5行的示例：

使用检测数据集（Occupancy Detection Dataset）

　　这个数据集描述有关房间特征的数据，目的是预测房间是否在使用中。数据集包含几个星期期间，共10560个一分钟的观察，属于分类预测问题。数据集包括7个特征值，例如房间的光线、气温、湿度等。

　　下面是前5行数据的示例，包括标题行：

　　【资源】17个最受欢迎的机器学习应用标准数据集

臭氧水平检测数据集

　　这个数据集描述了6年期间的地面臭氧浓度数据，目的是预测是否“臭氧日”。数据集包含2,536个观察值，73个特征。这是分类预测问题，类别值为“1”表示这天是臭氧日，为“0”表示正常日。

　　下面是前5行的示例：

总结

　　本文介绍了 10 个最受欢迎的标准数据集，你可以用它们来进行机器学习的应用练习。

　　可以采取以下步骤：

选择一个数据集。
选择你最喜欢的工具（例如 Weka，scikit-learn 或 R）
看看你的结果比基准分数高多少。

　　责编：XJ

新智元招聘

　　 职位运营总监

职位年薪：36- 50万（工资+奖金）

工作地点：北京-海淀区

所属部门：运营部

汇报对象：COO

下属人数：2人

年龄要求：25 岁至 35 岁

性别要求：不限

工作年限：3 年以上

语言：英语6级（海外留学背景优先）

　　 职位描述

负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作，人工智能及机器人产业方向
擅长开拓市场，并与潜在客户建立良好的人际关系
深度了解人工智能及机器人产业及相关市场状况，随时掌握市场动态
主动协调部门之间项目合作，组织好跨部门间的合作，具备良好的影响力
带领团队完成营业额目标，并监控管理项目状况
负责公司平台运营方面的战略计划、合作计划的制定与实施

　　 岗位要求

大学本科以上学历，硕士优先，要求有较高英语沟通能力
3年以上商务拓展经验，有团队管理经验，熟悉商务部门整体管理工作
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
有媒体广告部、市场部，top20公关公司市场拓展部经验者优先

　　 新智元欢迎有志之士前来面试，更多招聘岗位请访问新智元公众号。

随意打赏

大数据机器学习机器学习数据