2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

36大数据 • 7年前扫码分享

今天想和大家分享，如何使用大规模机器学习解决真实的业务问题。我们今天会以机器学习中的一个典型场景为例来讲解，即基于大规模机器学习模型的推荐系统。

推荐系统的本质是什么？

比如说我们看到手机淘宝首页，往下一拉，就能看到各种各样推荐的商品；比如说百度，它会给我们推荐广告，在某种程度上他的工作方式也很像推荐系统；再比如说今日头条，今日头条从数十万的新闻中选出会被我们看到的数十个新闻，这也是推荐系统。

尽管我们在生活中会已经见过非常多的推荐系统，但是在用机器学习搭建推荐系统之前，我们还是应当先思考一下，推荐系统要解决的到底是个什么样的问题？

推荐系统在本质上是一个信息检索的系统。它和搜索最大的区别是，搜索是主动式的，根据关键词和引擎参数、搜索引擎召回、机器学习排序，决定给你看到的是哪些内容。而我们看到的推荐系统，在大多数情况下是没有主动输入的（有时会有一些简单的反馈动作），是被动出现的。

推荐系统是利用上下文，根据当前用户所处的环境，根据信息的特点来决定给你推荐什么内容和商品。而在我们进一步去想之前，我们要问自己一个问题，就像上节课田老师讲的一样，推荐系统的目标是什么，什么才是一个好的推荐系统，要优化的指标是什么。

推荐系统的指标是什么？

推荐系统是个产品，产品当然是想方设法让用户去喜欢的，或者至少是不讨厌的。因而，我们需要把喜欢和讨厌这两件事情定义出来。同时我们毕竟不是用户肚子里的蛔虫，我们只能用我们可以测量到的数据来描述喜欢和讨厌两件事情。并用这些数据来决定我们做什么和不做什么。

比如说：我是个电商，用户表达对一个推荐商品喜欢的方式是：点击、收藏、加购物车、甚至购买下单、分享到社交平台上等等。用户讨厌一个推荐商品的方式，就是会投诉、会提意见。因而我们要预防一些很可能会让用户讨厌的推荐结果：比如说推荐成人用品和内衣，尤其是在上班时间；比如推荐用户刚刚买过的商品，等等。

我们一定能为一个推荐系统去定义指标，我们可以给这些指标分轻重缓急，看能用什么顺序实现。现在我用的指标可能有点投机取巧，我用的是点击率。而真实的指标考虑的是很多的，仅仅考虑点击率的模型，可能会出现标题党，如果是电商就可能会出现一堆 9 块 9 包邮，这可能不是我们业务想要的。

另外即使只考虑点击率，我们也知道其实我们推荐的是一个列表，列表的质量不完全是由单一的商品决定的，而是整个列表的组合、顺序、多样性所决定的。所以真实的业务中，我们会考虑用更复杂的目标，比如 MAP 来评价一个推荐列表的质量。

但没关系，今天我们就用点击率作为试点，介绍如何用机器学习来搭建推荐系统的完整过程。

在先知上完成推荐系统的建模流程

我们会从一个真实的案例出发，虽然我们做了很多的推荐系统的案例，但毕竟不能把客户的数据给大家看，所以我们用了一份公开的数据，这份数据和我们之前讲的场景是相似的。这份数据来自于 Kaggle，叫做 Criteo 点击率预估比赛。

数据预览

首先我们看数据的样子，第 1 列 col_1 代表的是广告有没有被点击，1 代表被点击，0 代表没有被点击。然后我们看第 2 列到第 14 列，都是数值型的特征，因为这份数据已经被匿名化了，所以我们可能也不知道这些数值代表什么意思，也许是这个用户的 PV，或者标签的权重，不过我们也不需要知道。然后看第 15 列到 40 多列，这些都是离散的特征，这些特征都做了哈希化，都做了匿名处理。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

这个数据有 3000 万行 40 多列，按照我们传统的做法，进行特征工程以及 one-hot 编码后，会有 4000 多万个特征。真实的业务数据中，训练数据体积会更大，往往达到上亿，同时原始特征数量会达到上百，因为为了好的个性化效果，我们会使用诸如 GPS 坐标、手机型号、ip 地址、最近浏览内容等等精细化的特征，并进行非常极致的特征工程，这样的模型在特征工程之后的特征数会达到数亿甚至几百亿。这样规模的机器学习训练，挑战的不仅是算法，更是如何在成本可承受的计算资源上进行训练和实时预估。

开发这样一个规模的可以并行运行的系统的挑战更加大，即使 BAT 这样的大公司也会养一个百人的团队，只为了做好机器学习模型训练和预估的工程实现。下面我们会看到利用第四范式的先知平台去做这件事情，会大大降低我们开发和运维一个在线机器学习系统的成本，让我们更加聚焦在业务本身。下面我们会看到在先知平台上对这份数据的建模会非常简单。

数据拆分

首先我们把这份数据拆成了训练集和测试集，以 9：1 的方式。当然这可能是不太合适的拆分方法，因为真正训练一个机器学习模型，它的拆分是按照时间排序后再拆的，就是用前面的时间来训练模型，然后用这个模型来预测点击。这样训练和测试在时间上是正交的，那么模型如果在这种实验设计下有好的效果，这个效果就会有时间平移性，上线后就会有好的效果。当然，为什么我们在这里没有使用按照时间排序拆分的方式，是因为参考了一篇论文的做法（https://arxiv.org/abs/1703.04247），这样同样的做法结果可比。在真实的业务中，不建议大家按照这种方式来处理数据。

特征工程、模型选择和评估

然后就是做特征工程了，一般来说大家可能觉得很难，但只需要告诉电脑哪个是 Label，其他的直接默认配置就好了。但天下没有免费的午餐，特征简单处理，我们要有更强的模型，所以我们用了线性分型分类器。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

一般来说，推荐系统中会有离散特征和连续特征，当我们用逻辑回归这种宽的离散线性模型的时候，我就会遇到一个很大的问题，就是我需要对特征进行分段，这样才能学到连续特征的非线性结构。比如说用户年龄对点击率的影响，它并不是线性上升的，它可能会上升到 30 岁，然后就下降了，甚至有更复杂的模式，这些是非线性的特性。所以我们可以用机器对连续的特征做自动搜索分段，这样的预处理效率就大大提高了。线性分形分类器就是做的这样的事情，基本上我花了不到 5 分钟，就跑出了 0.796 的 AUC。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

AUC 代表了一个模型对样本的排序能力。如果这是一个完美的排序，点击率高的 100% 排到了点击率低的前面，那 AUC 就是 1。如果是随机瞎排，那 AUC 就是 0.5。所以 AUC 越接近于 1，就代表了整体的排序能力越强。现在的 AUC 是 0.796，比论文的 0.801 稍微差一点，我只做了这么点就到了这个成绩，我觉得还是可以的。

当然这里进一步说一下，评估上线的时候，不能只是看 AUC。例如说，我要看的是 User AUC，或者每一刷的 AUC，因为模型的排序能力，一部分来自于对每个用户个性化的识别能力，另一部分来自于对用户本身的识别能力。比如说有些用户就是什么都爱点，什么都点，而有些用户基本只看标题不点开。我们把这样的人分开，对个性化推荐是有帮助的。所以我最终应该看的是，在每一个用户身上的 AUC，甚至是每一次展现的 AUC，当然先知也提供了工具，就不多赘述了。特征组合

但我还是想让这个模型更好，怎么办呢？在做推荐系统的时候，特征工程最重要的处理方法是特征组合。比如说有两个特征，一个是性别，另一个是新闻的色情等级。我们可能会注意到，男同志比较喜欢火爆的新闻，女同志可能正好相反。我把色情等级作为一个特征，可能两边的喜好不同导致最终这个特征整体对点击率的影响和一个随机数一样，它就不是好的特征，没有预测能力。

但如果我把这些特征组合起来，我就对这些空间有更细致的分割能力，我就会做出很好的效果。性别、用户 ID 和新闻色情等级组合起来，是新闻推荐非常有用的特征。进一步说，假如我们有 100 个特征，那么特征两两组合的空间，就是一万个，这是个很大的工作量。

传统的手段是，通过业务经验和实验去筛选好的组合。但是工具可以帮我们做得更快更好，先知的 FeatureGo 功能，可以通过一系列的配置和优化目标设定，自动搜索出好的特征组合，大大节省我们的工作时间，让人的工作由机器来完成。然后我就跑了 FeatureGo，找到了 18 和 28，33 和 34 这些组合特征就不错。而如果计算资源足够，那你还可以搜索 3 阶的特征，这是由人来做非常难的事情。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

在用机器完成自动特征组合后，调参其实也可以自动化的。我们知道机器学习就像炼丹，炼丹就是调参，调参就是在参数空间里，根据我们的经验去搜索一下，看什么参数是好的。我们也有好的工具，可以自动搜索到好的参数。当把这些设定好之后，我就去睡觉了。第二天醒来后发现，这个模型的 AUC 达到了 0.802，已经超过了论文的效果。由于这篇论文还是今年比较有名的论文，我还是很满意的。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

模型上线

设计好模型后，一般是用 Restful API 的模式服务的。比方说根据这个 API，就可以给不同的内容进行打分，打分后根据倒排后的结果，响应推荐的内容。

2017年，你还在用用户画像和协同过滤做推荐系统吗？-36大数据

推荐系统相关组件

当然，一个完整的推荐系统，不仅仅需要机器学习排序，还需要相应的组件。比方说我要有物料库，把商品的特征维护起来，这需要一个高性能的缓存和数据库，能够增删查改，能够进行特征的初步生成。我还需要一个日志系统，日志系统通过唯一性的标识，把实时的请求和后续的反馈 Label 记录并拼接起来。我还需要一个自学习的系统，机器学习的模型每天都是要更新的，如果拿 7 天前学到的模型去推今天的商品，那岂不是用前朝的剑斩本朝的官，效果一定不好，所以我们还需要自学习，或者是增量的在线学习，来保证模型捕捉到最新的用户偏好和市场情况。

然后我们还需要后续的预测，比方说我的内容有好几十万，我并不是拿好几十万给机器学习去预估，我会用启发式的方法，比如说 CF、热度、Tag 匹配等召回策略先生成候选集，然后才进入到机器学习排序。召回策略同样使得我们有更大的能力去影响机器学习排序的结果，比如我们可以过滤掉一些我们明知道不好的内容或者增加我们认为好的内容的权重或出现比例。在机器学习排序后，我们也需要对结果进行去重、多样化和随机化，最后才做成一个好的推荐系统。

今天和大家介绍的是，我们如何利用机器学习去搭建一个推荐系统的排序环节。总结起来是这么几个点：第一个是如何使用机器学习来剖析一个问题，我们用了推荐系统的例子。第二个是我们如何构造一个推荐系统的样本、数据并进行建模，当我们有一个非常好的机器学习工具的时候，我们可以把精力聚焦在业务上，在怎么找到好的数据上，以及在怎么定义好的目标和规划上。第三我们描述了机器学习系统是如何和其他系统发挥作用的，机器学习就像发动机，汽车当然需要发动机，但只有发动机车是跑不起来的，你还需要周边的配件，这是系统化的工程。在这方面我们已经做了一些工作，我们既有发动机，也就是先知平台，大家可以在这里试用 https://prophet.4paradigm.com，我们也有整车，就是整个推荐系统的解决方案。我们很高兴和大家分享这样的技术和能力，谢谢大家。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据 » 2017年，你还在用用户画像和协同过滤做推荐系统吗？