如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

泰坦

阿里云阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

操作界面

操作界面

阿里云机器学习平台架构

机器学习

阿里云机器学习平台的架构图

通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层的算法和计算引擎完全解耦,数据加工人员只需要考虑每个算法的准确率和效能,无需操心底层的计算。每个算法以plugin的形式运行在MaxCompute(阿里云分布式计算引擎)上,计算结果会以可视化的方式返回并展现给用户。

可视化

结果展示图

人人都是大数据玩家

阿里云机器学习平台的产品主要优势可以概括为以下几方面:

1.良好的交互设计

通过拖拽的方式搭配实验,并且提供了数据模型的可视化功能。缩短了用户与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便用户将算法嵌入到自身的工程中。

交互设计

操作界面

2.优质、丰富的机器学习算法

平台上边的机器学习算法都是经过阿里大规模业务锤炼的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归等机器学习算法,也提供了文本分析、特征处理的算法。

算法框架

算法框架

3.与阿里系的融合

使用阿里云机器学习平台计算的模型直接存储在MaxCompute上,可以配合其它阿里云的产品组件加以利用。

阿里融合

阿里云数加产品图

4.优质的技术保障

阿里云机器学习算法平台的背后是阿里巴巴IDST的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。

技术保障

工单系统

使用场景

阿里云机器学习平台丰富的算法和技术保障支持也给用户解决自身业务场景带来了更多的可能性和想象空间。在DT时代,通过使用阿里云机器学习平台可以真正的实现数据驱动业务的目的。因此使用场景包括:数据预处理、特征工程、机器学习模型训练、模型评估等组件来解决实际业务场景。

试验流程

实验流程

这里举一个沉重但又挺有意义的例子。比如,这样的一个应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,判断拥有什么样的属性的人有更大的概率获救。

数据准备

数据准备

原始数据

将数据导入MaxCompute,

•PassengerId:用户的ID号

•Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)

•Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower

•Sex:乘客的性别,“1”表示男,“0”表示女

•Age:乘客的年龄

•sibsp:乘客在船上的配偶数量或兄弟姐妹数量

•parch:乘客在船上的父母或子女数量

•fare:乘客的船费

•cabin:是否住在独立的房间,“1”表示是,“0”为否

•embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

搭建实验流程

搭建数据

实验流程

1)首先将数据集按照7:3进行拆分,一部分作为titanic训练集,一部分作为预测集。

2)将数据进行标准化处理,去除量纲对于数据造成的干扰。

3)训练数据通过逻辑回归LR算法生成模型。

4)对预测集进行预测。

5)通过ROC曲线和混淆矩阵来对结果进行评估。

评估结果

混淆矩阵结果

结果分析

混淆矩阵结果分析

说明:

1.正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP);

2.召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);

3.F1指标:P和R的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想;

ROC曲线评估结果

评估结果

ROC曲线结果分析

说明:

1.TPR=TP/(TP+FN);

2.FPR=FP/(FP+TN);

3.ROC曲线:

①Y轴:TPR; X轴:FPR;

②(0,1):FRP=0,TPR=1。FN=0,FP=0,将所有样本都正确分类;

③(1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正;

④(0,0):FRP=TPR=0,将所有样本划分为负样本;

⑤(1,1):所有样本划分为正样本;

⑥ROC曲线越接近左上角,该分类器越好;

4.y=x,随机猜测,一半正样本,一半负样本;

5.AUC: ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好 ;

模型分析

逻辑回归生成模型:

模型分析
模型分析

根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出age、sex和pclass对于结果影响最大。

根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,age、pclass和sex的值越小,目标值越大。

也就是有钱人家的女人和小孩有更大的获救概率。

通过真实数据比对也印证了我们的分析结果:

分析结果
真实数据
via:aliyun

End.

随意打赏

提交建议
微信扫一扫,分享给好友吧。