看阿里 AliOS 神灯团队在推荐系统上的独门秘籍

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

阿拉丁神灯的故事想必大家都听过，对着神灯许下心愿，你的愿望就会实现。而今天，在阿里 AliOS 有一支神灯团队，他们希望能像阿拉丁神灯一样，让用户通过其服务获得满足。团队成员王智楠对雷锋网 (公众号：雷锋网) AI 研习社说道，「我们希望让客户拥有一种想要什么服务就能得到什么服务的感觉，这是取名『神灯』的初衷。」

神灯项目团队主要负责 AliOS 端上智能与服务的算法研发，攻克方向是推荐领域。项目组共有八名成员，大家的背景也很多元，涉及统计、广告、NLP，甚至还有心理学。

目前，他们的算法主要应用于车机智能推荐系统，例如帮助客户预测线路、推荐周边街道、关联附近的停车场、介绍好吃的餐厅等。

其中，他们自研的多层 Stacking Model 极大提升了分类预测的准确率，已广泛应用于 AliOS 多项业务。值得一提的是，年初在 WSDM Cup 2018 挑战赛上，得益于这一模型，AliOS 神灯团队小组在比赛中表现优异，团队成员王智楠也受邀在会议 Workshop 上做了主题分享。

WSDM 被誉为信息检索领域最顶级的会议之一，会议的关注点为搜索、数据检索、数据挖掘、算法设计、算法分析、经济影响方面的实际且严谨的研究，以及对准确率和运行速度的深入实验探究。每届 WSDM 都会像 KDD 一样，举办一个数据挖掘类比赛。今年的比赛的出题方是流媒体音乐公司 KKBOX（与 Spotify、Apple Music 等类似），共有两个任务，一是用户流失预测，二是音乐个性化推荐，阿里团队在前一个任务上一举夺得亚军。

雷锋网 AI 研习社以此次比赛为契机，与王智楠展开讨论，了解到阿里神灯团队获胜的独门秘籍、经验教训以及多层 Stacking Model 的相关信息。

WSDM Cup 挑战赛

在 KKBOX 的用户流失预测任务中，参赛者需要根据主办方提供的数据，预测 2017 年 3 月订阅到期的用户中，哪些会流失。

谈及参加此次比赛的原因，王智楠对 AI 研习社说道，「算法团队需要经常关注数据挖掘类比赛，获取最新信息。得知这一比赛时，恰好神灯团队在做音乐推荐项目，我们就想拿 KKBOX 的数据练练手。另外，我此前参加过 WSDM 2017，对此次会议也有一定了解。」

这次比赛是一个比较典型的二分类问题。王智楠表示，二分类问题中，他们主要考虑两个方面：

一是特征，希望能将更多的信息融入进来；

二是模型，在单模型上，业内用的都差不多，这一阶段重点考虑融合。

主办方提供的数据有如下三类：

订单数据。2017 年 3 月之前两年的订单交易信息，包括用户 id、付款方式、购买的会员周期、价格、时间、是否是自动续订等。

用户听歌日志。2017 年 3 月之前两年的用户听歌日志，包括用户 id，日期，听歌数量、时长等。

用户人口统计学信息。截止 2017 年 3 月的用户信息，包括所在城市、年龄、性别、注册时间等。

在数据预处理阶段，他们主要碰到两类问题，一是脏数据，二是正负样本比例不均衡。

针对脏数据问题，例如年龄数值小于 0 或者大于 100，注册时间和支付金额中的极端异常值，他们处理的方式有根据分布将异常值转换为合理取值，删除无法解释且不包含重要信息的数据等。
对正负样本分布不均衡的问题，他们使用欠采样的方式对训练样本进行处理，分别尝试了 1：3，1：5，1：8 的正负样本配比，在最终模型中，根据交叉验证的结果选择了最优配比。

在特征工程阶段，他们做了很多数据分析工作，比如统计用户的注册方式、注册渠道，每个渠道的注册人数，是否过滤掉特别小的渠道等。

针对出题方给的三份数据，神灯团队起初对每份数据都进行了分析，大概一周之后，发现除了订单数据，听歌日志和用户人口统计学信息起的作用很小，这时候他们进行了策略上的调整——把听歌日志和用户人口统计学信息放在一边，集中精力处理订单数据。直到比赛的最后阶段，他们也没有特别花时间研究另外两个数据。

最终，他们使用两层 Stacking Model，第一层采用逻辑回归、随机森林、XGBoost 算法，第二层又采用 XGBoost 算法把第一层的结果融合，在最后取得第二名。

在此次比赛中，他们也有一套方法论：「我们内部有一个称为 MVM（minimum variable model）——最简可用模型的策略，即先上线一个最小的模型，之后通过每次提交结果获得反馈，再不断修改原来的模型。

目前，AliOS 神灯团队已经在利用深度学习做推荐系统，但在比赛中并没有使用这一方法，王智楠表示，这次的场景不太适合利用深度学习，更加适合传统特征工程的构造方式。他说道，「比赛时，主办方提供的数据都是经过加工的数据，比如用户听歌日志，主办方已经把这个数据整理到某人每天听了多少歌的粒度，这种细粒化的数据导致不太适合用深度学习方法解决。而我们平时利用深度学习做推荐可以从最原始的数据开始，将这些数据直接输入到模型里，得到一个处理过的向量值。」

细节分享

比赛并非一帆风顺，王智楠表示，中途出现了戏剧性的情况：比赛开始没多久，由于出题方的失误——在验证数据阶段没有对用户的结果进行随机打断，导致很多选手的比赛得分接近于满分。「期间中断了大概两到三周，后来主办方又公布了一批新的数据，大家得以重回到比赛中。」因为这一问题，他们之后再重新修改模型时，状态不如之前，因此花了一段时间进行调整与追赶。

此外，分析了冠军和其他选手的方案，他总结出两方面的教训。

第一是时间管控与模型调试。王智楠表示，他们在最后两周留的时间太紧张了，导致没有足够的时间调整线上模型超参。「其他参赛团队可能会这么尝试——每周把参数上调一个点，然后观察线上分数的变化情况。此外，如果我们能够在前面阶段将速度放快，就可以为比赛后期预留更多时间，把参数调的更好一点。」
第二是特征处理和数据分析。他在这里重点提到冠军的方案。王智楠对雷锋网 AI 研习社说道，从模型上对比他们与冠军的方案，神灯团队更占优势，但冠军在特征工程上做得比他们更加细致。他以日期为例，对于这一参数，他们会将其转化成一个数值来构造特征，但冠军还会把日期转化成 one-hot 特征。「有一些日期，比如是否月底，其实还是具有一些信息量的，但是当时我们没有考虑到这个问题。不单是这次比赛，在做其他比赛和业务的时候，也需要这么细致的考虑。」

他们团队主要是进行推荐算法的设计，之前也有相关的经验积累，那么，在工作中的算法是否能直接应用于此次比赛呢？

王智楠表示，参加比赛和实际业务场景还是存在极大差异。「比赛时可以不用考虑计算成本、线上服务，效率问题。但在实际场景下，如果模型做得太过复杂，后台计算就会特别复杂，时间可能会特别长，用户体验就不那么美好了。例如用户想要一个推荐服务，请求之后，1 秒钟都没有回复，这就存在极大问题。」

多层 Stacking Model

其实除了此次比赛，AliOS 的推荐算法团队还在多项国际大赛上获得优胜，例如 2015 ACM RecSys Challenge 亚军，2016 ACM RecSys Challenge 冠军，2016 KDD CUP Phase1 第二名。此外，他们团队在阿里天池的天猫推荐大赛、LBS 推荐大赛等多个内部赛上都曾获得奖项。

而这次比赛中使用的多层 Stacking model，也是源于 2016 年 KDD Cup。当时在比赛中为了提升效果，他们不断搜集资料，研究出这一模型。后来，他们尝试在线上使用这一方法，发现提升显著，于是有了这一模型的完备方案以及大规模应用。

他坦诚表示，虽然这一模型可以极大提升预测准确率，但目前也存在一个问题——线上消耗资源量比较大。「以前可能只用训练一个模型，但现在用两层 Stacking Model 就要多训练 4 个模型。」不过相较该模型带来的优势，资源的消耗相对来说变得不那么重要：「对于一些场景，比如广告场景，虽然资源消耗多，但性价比相对来说比较高。」

目前，他们也在研究如何用最少的资源来训练模型。

谈到该算法的实际应用，王智楠说道，现在主要还是集中在 AliOS 系统互联网汽车的音乐推荐上。目前，上汽集团大概有 50 万辆互联网汽车上装载 AliOS 系统，这些用户能优先体验到推荐算法带来的便利。

阿里巴巴WSDM Cup 2018夺得第二名，获奖论文全解读

。