谷歌发布机器学习规则 (Rules of Machine Learning)：关于机器学习工程的最佳实践（上）

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI 研习社按，本文来源于谷歌开发者博客，雷锋网获其授权转载。以下为上篇，包含术语、概览以及在进行机器学习之前的第 1-20 条规则。

作者：马丁·辛克维奇

本文档旨在帮助已掌握机器学习基础知识的人员从 Google 机器学习的最佳实践中受益。它介绍了一种机器学习样式，类似于 Google C++ 样式指南和其他常用的实用编程指南。如果您学习过机器学习方面的课程，或者拥有机器学习模型的构建或开发经验，则具备阅读本文档所必需的背景知识。

术语

在我们讨论有效的机器学习的过程中，会反复提到下列术语：

实例：要对其进行预测的事物。例如，实例可以是一个网页，您希望将其分类为“与猫相关”或“与猫无关”。

标签：预测任务的答案，它可以是由机器学习系统生成的答案，也可以是训练数据中提供的正确答案。例如，某个网页的标签可能是“与猫相关”。

特征：预测任务中使用的实例的属性。例如，某个网页可能具有“包含字词‘猫’”这一特征。

特征列：一组相关特征，例如用户可能居住的所有国家/地区的集合。样本的特征列中可能包含一个或多个特征。“特征列”是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 VM 系统中被称为“命名空间”或场。

样本：一个实例（及其特征）和一个标签。

模型：预测任务的统计表示法。您使用样本训练一个模型，然后使用该模型进行预测。

指标：您关心的一个数值。也许（但不一定）可以直接得到优化。

目标：算法尝试优化的一种指标。

管道：机器学习算法的基础架构。管道包括从前端收集数据、将数据放入训练数据文件、训练一个或多个模型以及将模型运用到生产环境。

点击率：点击广告中的链接的网页访问者所占的百分比。

概览

要打造优质的产品：

请把自己看成是一位出色的工程师，而不是一位机器学习专家。

实际上，您将面临的大部分问题都是工程问题。即使在使用出色的机器学习专家掌握的所有资源的情况下，大多数收获也是由合适的特征（而非精确的机器学习算法）带来的。所以，进行机器学习的基本方法是：

确保管道从头到尾都稳固可靠。
从制定合理的目标开始。
以简单的方式添加常识性特征。
确保管道始终稳固可靠。

上述方法将在长时间内取得很好的效果。只要您仍然可以通过某种简单的技巧取得进展，就不应该偏离上述方法。增加复杂性会减缓未来版本的发布。

当您充分利用了所有的简单技巧，或许就到了探索机器学习最前沿技术的时候了。请参阅第三阶段的“机器学习项目”部分。

本文档结构如下：

第一部分可帮助您了解构建机器学习系统的时机是否已经成熟。

第二部分介绍了如何部署第一个管道。

第三部分介绍了在向管道添加新特征时如何进行发布和迭代、如何评估模型，以及如何应对训练-应用偏差。

最后一部分介绍了当您达到稳定阶段时该怎么做。

之后是相关资源列表和附录，附录针对多次作为示例在本文档中提及的系统，提供了一些背景信息。

在进行机器学习之前

第 1 条规则：不要害怕发布未采用机器学习技术的产品。

机器学习技术很酷，但它需要数据。从理论上讲，您可以采用来自其他问题的数据，然后针对新产品调整模型，但其效果很可能不如基本的启发式算法。如果您认为机器学习技术能为您带来 100% 的提升，那么启发式算法可为您带来 50% 的提升。

例如，如果您要对应用市场中的应用进行排名，则可以将安装率或安装次数作为启发式算法指标。如果您要检测垃圾邮件，则可以滤除以前发送过垃圾邮件的发布商。此外，也不要害怕手动修改。如果您需要对联系人进行排名，可以按使用联系人的时间顺序由近及远对其排序（或按字母顺序排序）。如果您的产品并非必须使用机器学习技术，则在获得足够的数据之前，请勿使用该技术。

第 2 条规则：首先设计并实现指标。

在正式确定机器学习系统的功能之前，尽可能在当前系统中跟踪指标的值。这样做的原因如下：

提前行动有助于更轻松地从系统的用户获得授权。
如果您认为将来可能需要考虑某个方面，最好立即开始收集相关历史数据。
如果您在设计系统时考虑到指标测量，将来会省下很多力气。具体而言，您不希望自己以后在日志中苦苦查找字符串以测量指标！
您将发现哪些内容发生了变化以及哪些内容始终未变。例如，假设您希望直接优化单日活跃用户数。但是，在早期操纵系统的过程中，您可能会发现用户体验的显著改变并没有使该指标发生明显变化。

Google+ 团队会衡量每次阅读的展开次数、转发次数、+1 次数、评论次数，以及每位用户的评论次数、转发次数等，然后在应用模型时利用这些数据来衡量帖子的质量。 另请注意，实验框架非常重要，您必须在实验框架中将用户分组为多个分桶，并按实验汇总统计信息。 请参阅第 12 条规则。

通过以更加自由的方式收集指标，您可以更加全面地了解您的系统。发现问题了？添加指标对其进行跟踪！对上个版本中发生的一些量变激动不已？添加指标对其进行跟踪！

第 3 条规则：选择机器学习技术而非复杂的启发式算法。

简单的启发式算法有利于推出产品。但复杂的启发式算法难以维护。当您获得足够的数据并基本确定自己要尝试实现的目标后，请考虑使用机器学习技术。与大多数软件工程任务一样，您需要不断更新方法（无论是启发式算法还是机器学习模型），而且您会发现机器学习模型更易于更新和维护（请参阅第 16 条规则）。

机器学习第一阶段：您的第一个管道

重点关注第一个管道的系统基础架构。虽然展望您将要进行的创新性机器学习的方方面面是一件很有趣的事，但如果您不先确认管道的可靠性，则很难弄清楚所发生的情况。

第 4 条规则：确保第一个模型简单易用，并正确实施基础架构。

第一个模型可以最有效地提升您的产品质量，因此不需要花哨，简单易用即可。但是，您会遇到很多预料之外的基础架构问题。在公开推出您精心构建的新机器学习系统之前，您必须确定以下几点：

如何为您的学习算法获取样本。
初步确定对于您的系统来说，“好”和“坏”的定义是什么。
如何将模型整合到应用中。您可以在线应用模型，也可以离线使用样本对模型进行预计算，并将结果存储在表格中。例如，您可能需要对网页进行预分类并将结果存储在表格中，但也可能需要在线对聊天消息进行分类。

选择简单的特征可以更轻松地确保：

将这些特征正确应用于您的学习算法。
模型学习出合理的权重。
将这些特征正确应用于服务器端。

当您有了能可靠做到上述三点的系统时，则表示您已完成大部分工作。简单的模型可为您提供基准指标和基准行为，您可以利用这些指标和行为测试更复杂的模型。某些团队以“中性”作为首次发布的目标 - 在首次发布时明确淡化机器学习成果，以避免分心。

第 5 条规则：撇开机器学习，单独测试基础架构。

确保基础架构可测试，且对系统的学习部分进行封装，以便测试这些部分之外的方方面面。具体而言：

测试数据导入算法的效果。检查应填充的特征列是否已填充。在隐私权许可的情况下，手动检查输入到训练算法的数据。如果可能的话，查看管道中的统计信息，并与在其他地方处理的相同数据的统计信息进行比较。
测试从训练算法得出模型的效果。确保训练环境中的模型与应用环境中的模型给出的分数相同（请参阅第 37 条规则）。

机器学习具有不可预测性，因此要有用于训练环境和应用环境中创建样本的代码的测试；并确保您可以在应用期间加载和使用固定模型。此外，了解您的数据至关重要：请参阅分析大型复杂数据集的实用建议。

第 6 条规则：复制管道时注意丢弃的数据。

通常，我们通过复制现有管道来创建新管道（即货物崇拜编程），且旧管道会丢弃一些新管道需要的数据。例如，Google+ 热门信息的管道会丢弃时间较早的帖子（因为它会不断尝试对最新的帖子进行排名）。此管道被复制用于 Google+ 信息流，在信息流中，时间较早的帖子仍然有意义，但旧管道仍会丢弃它们。另一种常见模式是仅记录用户看到的数据。因此，如果我们想要对用户看不到特定帖子的原因进行建模，此类数据就毫无用处，因为管道已丢弃所有负分类样本。Play 中也曾出现过类似的问题。在处理 Play 应用首页时，创建了一个新管道，其中还包含来自 Play 游戏着陆页的样本，但无任何特征可区分各个样本的来源。

第 7 条规则：将启发式算法转变为特征或在外部处理它们。

通常，机器学习尝试解决的问题并不是全新的问题。有一个现有的系统，它可用于排名、分类，或解决您正尝试解决的任何问题。这意味着有多种规则和启发式算法。 使用机器学习进行调整后，此类启发式算法可为您提供便利。 您应该挖掘自己的启发式算法，了解它们所包含的任何信息，原因有以下两点。首先，向机器学习系统的过渡会更平稳。其次，这些规则通常包含大量您不愿意丢弃的关于系统的直觉信息。您可以通过以下四种方法使用现有启发式算法：

使用启发式算法进行预处理。如果特征非常好，则可以选择执行此操作。例如，在垃圾邮件过滤器中，如果发件人已被列入黑名单，则不要试图重新学习“已列入黑名单”的含义。屏蔽该邮件即可。这种方法最适合在二元分类任务中使用。
创建特征。直接通过启发式算法创建特征是一种很好的做法。例如，如果您使用启发式算法来计算查询结果的相关性分数，则可以将此分数纳为一个特征的值。您日后可能想要使用机器学习技术调整该值（例如，将该值转换为一个有限离散值组中的一个，或与其他特征相组合），但是首先请使用启发式算法生成的原始值。
挖掘启发式算法的原始输入。如果某个应用启发式算法结合了安装次数、文本中的字符数以及星期值，考虑将这些内容拆分开来，并作为输入单独提供给学习算法。部分适用于集成学习的技巧也适用于此（请参阅第 40 条规则）。
修改标签。当您感觉启发式算法会获取当前标签中未包含的信息时，可以选择进行此操作。例如，如果您正在尝试最大程度地增加下载次数，但同时也想要优质的内容，则可能的解决方案是用标签乘以应用获得的平均星数。您可以非常灵活地修改标签。请参阅“您的第一个目标”。

在机器学习系统中使用启发式算法时，请务必留意是否会带来额外的复杂性。在新的机器学习算法中使用旧启发式算法有助于实现平稳过渡，但思考下是否有可以达到相同效果的更简单的方法。

监控

在一般情况下，请实行良好的警报安全机制，例如设计解决警报的步骤以及提供“信息中心”页面。

第 8 条规则：了解您的系统对新鲜程度的要求。

如果您使用一天前的模型，效果会降低多少？一周前的模型呢？一个季度前的模型呢？此类消息有助于您了解需要优先监控哪些方面。如果一天不更新模型会对您的产品质量产生严重影响，则最好让工程师持续观察相关情况。大多数广告投放系统每天都有新广告要处理，并且必须每天更新。例如，如果不更新 Google Play 搜索的机器学习模型，则不到一个月便会产生负面影响。Google+ 热门信息的某些模型中没有帖子标识符，因此无需经常导出这些模型。其他具有帖子标识符的模型的更新频率要高得多。另请注意，新鲜程度会随着时间而改变，尤其是在向模型中添加特征列或从中移除特征列时。

第 9 条规则：先检测问题，然后再导出模型。

很多机器学习系统都会经历导出模型以应用模型的阶段。如果导出的模型存在问题，则是面向用户的问题。

在导出模型之前，请进行健全性检查。具体而言，确保模型在处理预留数据方面表现合理。或者说，如果您一直认为数据存在问题，请不要导出模型。很多经常部署模型的团队在导出模型之前，会先检查 ROC 曲线下面积（简称 AUC）。 尚未导出的模型存在问题时，需要发送电子邮件提醒；但面向用户的模型出现问题时，可能需要通过一个页面进行宣布。 因此，最好先等待检查完毕并确保万无一失后再导出模型，以免对用户造成影响。

第 10 条规则：注意隐藏的问题。

相比其他类型的系统，这种问题更常见于机器学习系统。假设关联的特定表格不再更新，那么，机器学习系统会进行相应调整，其行为仍然会相当好，但会逐渐变糟。有时，您会发现有些表格已有几个月未更新，只需刷新一下，就可以获得比相应季度做出的所有其他改进都更有效的效果提升！特征的覆盖率可能会因实现变化而发生改变：例如，某个特征列可能在 90% 的样本中得到填充，但该比率突然下降到 60%。Google Play 曾有一个过时 6 个月的表格，但仅刷新了一下该表格，安装率就提升了 2%。如果您对数据的统计信息进行跟踪，并不时地手动检查数据，就可以减少此类失败。

第 11 条规则：提供特征列的所有者及相关文档。

如果系统很大，且有很多特征列，则需要知道每个特征列的创建者或维护者。如果您发现了解某个特征列的人要离职，请确保有人知道相关信息。尽管很多特征列都有说明性名称，但针对特征的含义、来源以及预计提供帮助的方式提供更详细的说明，是一种不错的做法。

您的第一个目标

您会关注很多有关系统的指标或测量结果，但通常只能为您的机器学习算法指定一个目标，即您的算法“尝试”优化的数值。在这里，我介绍一下目标和指标有何区别：指标是指您的系统报告的任意数字，可能重要，也可能不重要。另请参阅第 2 条规则。

第 12 条规则：选择直接优化哪个目标时，不要想太多。

您想赚钱，想让用户满意，想让世界变得更美好。您关注的指标有很多，而且您应该对所有这些指标进行测量（请参阅第 2 条规则）。不过，在早期的机器学习过程中，您会发现这些指标都呈上升趋势，甚至那些您没有选择直接优化的指标也是如此。例如，假设您关注点击次数和用户在网站上停留的时间。如果您优化点击次数，则用户在网站上停留的时间很可能也会增加。

所以，当您仍然可以轻松增加所有指标时，保持简单，不要过多考虑如何在不同的指标间实现平衡。但不要过度使用此规则：不要将您的目标与系统最终的运行状况相混淆（请参阅第 39 条规则）。此外， 如果您发现自己增大了直接优化的指标，但决定不发布系统，则可能需要修改某些目标。

第 13 条规则：为您的第一个目标选择一个可观察且可归因的简单指标。

您往往并不知道真正的目标是什么。您以为自己知道，但当您盯着数据，对旧系统和新的机器学习系统进行对比分析时，您发现自己想调整目标。此外，团队的不同成员通常无法就什么是真正的目标达成一致意见。 机器学习目标应是满足以下条件的某种目标：易于测量且是“真正的”目标的代理。 实际上，通常没有“真正的”目标（请参阅第 39 条规则）。因此，请对简单的机器学习目标进行训练，并考虑在顶部添加一个“策略层”，以便您能够添加其他逻辑（最好是非常简单的逻辑）来进行最终排名。

要进行建模，最简单的指标是可直接观察到且可归因到系统操作的用户行为：

用户是否点击了此已排名链接？
用户是否下载了此已排名对象？
用户是否转发/回复/使用电子邮件发送了此已排名对象？
用户是否评价了此已排名对象？
用户是否将此显示的对象标记为了垃圾邮件/色情内容/攻击性内容？

避免一开始对间接影响进行建模：

用户第二天访问网站了吗？
用户在网站上停留了多长时间？
每日活跃用户数有多少？

其实，间接影响可成为出色的指标，可以在 A/B 测试和发布决策期间使用。

最后，不要试图让机器学习系统弄清楚以下问题：

用户在使用产品时是否感到满意？
用户是否对使用体验感到满意？
产品是否提升了用户的整体满意度？
这会对公司的整体运行状况产生什么样的影响？

所有这些都很重要，但也极难衡量。请改为使用代理指标：如果用户感到满意，他们会在网站上停留更长时间。如果用户感到满意，他们明天会再次访问网站。就满意度和公司运行状况而言，需要进行人为判断，以便将任意机器学习目标与您销售的产品的性质和业务计划关联起来。

第 14 条规则：从可解释的模型着手可更轻松地进行调试。

线性回归、逻辑回归和泊松回归均由概率模型直接推动。每个预测都可看作是一个概率或预期值。这样一来，相较于使用目标（0-1 损失、各种合页损失函数等）以尝试直接优化分类准确度或对效果进行排名的模型，这种模型更易于进行调试。例如，如果在训练中得出的概率与采用并排分析方式或通过检查生产系统的方式预测的概率之间存在偏差，则表明存在问题。

例如，在线性回归、逻辑回归或泊松回归中， 有一部分平均预测期望值等于平均标签值（一阶矩校准，或只是校准）的数据 。假设您没有正则化且算法已收敛，那么理论上即是如此，实际上也是差不多这种情形。如果您有一个特征，对于每个样本来说，其值要么是 0，要么是 1，则会校准 3 个特征值为 1 的样本集。此外，如果您有一个特征，对于每个样本来说，其值均为 1，则会校准所有样本集。

借助简单的模型，您可以更轻松地处理反馈环（请参阅第 36 条规则）。通常情况下，我们会根据这些概率预测来做出决策；例如，以期望值（点击概率/下载概率等）为标准，按降序对帖子进行排名。 但是，请注意，当选择要使用的模型时，您的决定比模型给出的数据概率更为重要 （请参阅第 27 条规则）。

第 15 条规则：在策略层中区分垃圾内容过滤和质量排名。

质量排名是一门艺术，但垃圾内容过滤就像一场战争。对于使用您系统的用户来说，您使用哪些信号来确定高质量帖子将变得显而易见，而且这些用户会调整自己的帖子，使其具有高质量帖子的属性。因此，您的质量排名应侧重于对诚实发布的内容进行排名。您不应该因为质量排名学习器将垃圾内容排在前列而对其应用折扣。 同样，“少儿不宜”的内容也不应该在质量排名中进行处理。 垃圾内容过滤则另当别论。您必须明白，需要生成的特征会不断变化。通常情况下，您会在系统中设置一些明显的规则（如果一个帖子收到三次以上的垃圾内容举报，请勿检索该帖子等等）。所有学习模型都必须至少每天更新。内容创作者的声誉会发挥很大作用。

在某个层级，必须将这两个系统的输出整合在一起。请注意，与过滤电子邮件中的垃圾邮件相比，在过滤搜索结果中的垃圾内容时，可能应该更加主动。这种说法的前提是您没有正则化且算法已收敛。一般来说大致是这样。此外，从质量分类器的训练数据中移除垃圾内容是一种标准做法。

机器学习第二阶段：特征工程

在机器学习系统生命周期的第一阶段，重要的问题涉及以下三个方面：将训练数据导入学习系统、对任何感兴趣的指标进行测量，以及构建应用基础架构。 当您构建了一个端到端的可稳定运行的系统，并且制定了系统测试和单元测试后，就可以进入第二阶段了。

第二阶段的很多目标很容易实现，且有很多明显的特征可导入系统。因此，机器学习的第二阶段涉及导入尽可能多的特征，并以直观的方式将它们组合起来。在这一阶段，所有的指标应该仍然呈上升趋势，您将会多次发布系统，并且非常适合安排多名工程师，以便整合创建真正出色的学习系统所需的所有数据。

第 16 条规则：制定发布和迭代模型计划。

不要指望您现在正在构建的模型会是您将要发布的最后一个模型，也不要指望您会停止发布模型。因此，请考虑此次发布中增加的复杂性是否会减缓未来版本的发布。很多团队多年来每季度都会发布一个或多个模型。发布新模型的三个基本原因如下所示：

您将要添加新特征。
您将要调整正则化并以新方式组合旧特征。
您将要调整目标。

无论如何，构建模型时多考虑考虑并没有什么坏处：查看提供到样本中的数据有助于发现新信号、旧信号以及损坏的信号。因此，在构建模型时，请考虑添加、移除或重新组合特征的难易程度。考虑创建管道的全新副本以及验证其正确性的难易程度。考虑是否可以同时运行两个或三个副本。最后，不必担心此版本的管道有没有纳入第 16 个特征（共 35 个），下个季度会将其纳入。

第 17 条规则：从可直接观察和报告的特征（而不是经过学习的特征）着手。

这一点可能存在争议，但可以避免许多问题。首先，我们来介绍一下什么是学习的特征。学习的特征是由外部系统（例如非监督式集群系统）或学习器本身（例如通过因子模型或深度学习）生成的特征。这两种方式生成的特征都非常有用，但会导致很多问题，因此不应在第一个模型中使用。

如果您使用外部系统创建特征，请注意，外部系统有其自己的目标。外部系统的目标与您当前的目标之间可能仅存在一点点关联。如果您获取外部系统的某个瞬间状态，它可能就会过期。如果您从外部系统更新特征，则特征的含义可能会发生变化。如果您使用外部系统提供特征，请注意，采用这种方法需要非常小心。

因子模型和深度模型的主要问题是，它们是非凸模型。因此，无法保证能够模拟或找到最优解决方案，且每次迭代时找到的局部最小值可能不同。这种变化导致难以判断系统发生的某次变化的影响是有意义的还是随机的。通过创建没有深度特征的模型，您可以获得出色的基准效果。达到此基准后，您可以尝试更深奥的方法。

第 18 条规则：探索可跨情境泛化的内容的特征。

机器学习系统通常只是更大系统中的一小部分。例如，想象热门信息中可能会使用的帖子，在其显示到热门信息之前，很多用户已经对其进行 +1、转发或评论了。如果您将这些统计信息提供给学习器，它就会对在正在优化的情景中没有数据的新帖子进行推广。 YouTube 的“接下来观看”可以使用来自 YouTube 搜索的观看次数或连看次数（观看完一个视频后观看另一个视频的次数）或明确的用户评分来推荐内容。最后，如果您将一个用户操作用作标签，在其他情境中看到用户对文档执行该操作可以是很好的特征。借助所有这些特征，您可以向该情境中引入新内容。请注意，这与个性化无关：先弄清楚是否有人喜欢此情境中的内容，然后再弄清楚喜欢程度。

第 19 条规则：尽可能使用非常具体的特征。

对于海量数据，学习数百万个简单的特征比学习几个复杂的特征更简单。正在被检索的文档的标识符以及规范化的查询不会提供很多泛化作用，但可以让您的排名与频率靠前的查询的标签保持一致。因此，请不要害怕具有以下特点的特征组：每个特征适用于您的一小部分数据但总体覆盖率在 90％以上。您可以使用正则化来消除适用样本过少的特征。

第 20 条规则：组合和修改现有特征，以便以简单易懂的方式创建新特征。

有多种方式可以组合和修改特征。借助 TensorFlow 等机器学习系统，您可以通过转换对数据进行预处理。最标准的两种方法是“离散化”和“组合”。

“离散化”是指提取一个连续特征，并从中创建许多离散特征。以年龄这一连续特征为例。您可以创建一个年龄不满 18 周岁时其值为 1 的特征，并创建年龄在 18-35 周岁之间时其值为 1 的另一个特征，等等。不要过多考虑这些直方图的边界：基本分位数给您带来的影响最大。

“组合”方法是指组合两个或更多特征列。在 TensorFlow 中，特征列指的是同类特征集（例如，{男性, 女性}、{美国, 加拿大, 墨西哥} 等等）。组合指的是其中包含特征的新特征列，例如，{男性, 女性} × {美国, 加拿大, 墨西哥}。此新特征列将包含特征（男性, 加拿大）。如果您使用的是 TensorFlow，并让 TensorFlow 为您创建此组合，则此（男性, 加拿大）特征将存在于表示加拿大男性的样本中。请注意，您需要拥有大量数据，才能使用具有三个、四个或更多基准特征列的组合学习模型。

生成非常大的特征列的组合可能会过拟合。例如，假设您正在执行某种搜索，您的某个特征列包含查询中的字词，另一个特征列包含文档中的字词。这时，您可以使用“组合”方法将这些特征列组合起来，但最终会得到很多特征（请参阅第 21 条规则）。

处理文本时，有两种备用方法。最严苛的方法是点积。点积方法采用最简单的形式时，仅会计算查询和文档间共有字词的数量。然后将此特征离散化。另一种方法是交集：如果使用交集方法，当且仅当文档和查询中都包含“pony”一词时，才会出现一个特征；当且仅当文档和查询中都包含“the”一词时，才会出现另一个特征。

下篇参见谷歌发布机器学习规则 (Rules of Machine Learning)：关于机器学习工程的最佳实践（下）

雷锋网版权文章，未经授权禁止转载。详情见。