从具有结构化缺失的数据中学习 - IT思维

IT思维 • 2年前扫码分享

公众号/ ScienceAI（ID：Philosophyai）

编辑 | 白菜叶

缺失数据是许多机器学习任务中不可避免的并发症。当数据「随机丢失」时，可以使用一系列工具和技术来处理该问题。然而，随着机器学习研究变得更加雄心勃勃，并寻求从越来越多的异构数据中学习，一个越来越多的问题出现了，即缺失值显示出一种关联或结构，无论是显式的还是隐式的。这种「结构化缺失」带来了一系列尚未系统解决的挑战，并对大规模机器学习构成了根本性障碍。

在这里，艾伦图灵研究所、伦敦大学、罗氏制药以及 Genentech 的研究人员，概述了该领域的研究进展，并提出了从具有结构化缺失的数据中学习的一系列重大挑战。

该文章以「Learning from data with structured missingness」为题，于 2023 年 1 月 25 日发布在《Nature Machine Intelligence》。

处理缺失数据是统计学和机器学习 (ML) 中长期存在的问题。根据公认的理论，有多种方法可以处理「随机缺失」的数据。然而，在许多 ML 问题中，数据可能不会随机丢失，而是可能会表现出某种多元结构或模式。这些问题在需要广泛的数据融合、多视图学习和/或从多个来源和研究中获取信息的数据链接的领域尤为严重。为了在这些领域取得进展，研究人员需要解决从具有高度「结构化缺失」（Structured Missingness，SM）的数据中吸收和学习的问题。

结构性缺失的发生可能有多种原因，因此是一个广泛遇到的问题。在这里，研究人员概述了一些通往 SM 的常见途径，这些途径反映了 SM 在现代 ML 和建模研究中自然出现的各种方式。也许与大规模 ML 最相关的是，当组合多模态数据集或当数据描述具有不同特征的异构个体组的属性时，SM 自然会出现。例如，在健康环境中，SM 出现在链接纵向临床、基因组和成像数据或处理具有广泛职权范围的任务时，例如开发泛癌预测模型，该模型包含对一系列不同癌症的诊断测量，因此仅提供给部分患者。

更一般地说，SM 通常在合并来自多项研究的信息时出现，每项研究的设计和测量集可能有所不同，因此仅包含来自测量模式联合的变量子集。在这些情况下，缺失值可能与用于收集数据或反映更广泛的感兴趣人群的特征的各种抽样方法有关，因此可能会提供有用的信息。尽管有这种可能性，SM 的存在通常会极大地抑制研究人员使用当前 ML 方法有效利用数据的能力，并且会严重阻碍分析管道的所有方面，包括构建推理模型、设计预测和分类算法以及生成信息丰富的可视化数据摘要。

图示：数据缺失生命周期。（来源：论文）

已建立的处理缺失数据的方法，例如（多重）插补，通常不考虑缺失数据的结构，因此可能无法适当或有效地处理 SM。随着越来越多的研究人员转向开发可以从大规模数据集中学习并执行大量下游任务（例如基础模型）或采用联合学习方法的 ML 模型，这些问题将变得更加尖锐。事实上，可以毫不夸张地说缺失问题是大规模有效学习的主要障碍。然而，尽管这个问题普遍存在，但 SM 尚未得到系统研究，当前既缺乏 SM 的理论，也缺乏从 SM 数据中有效学习的工具。

在确实存在的情况下，相关文献往往分散在不同学科中，并且通常侧重于重新利用现有方法来处理特定的 SM 问题。例如，有团队考虑了对 k 最近邻方法的调整，以估算在组合来自多个高通量「组学」实验的数据时出现的块缺失数据。在类似的生物医学背景下，研究人员利用多任务学习的工具来估算缺失基因型的块。从更理论的角度来看，也有人考虑了对多层次模型的适应，以在系统出现时乘以估算缺失值。相关地，也有团队提出了一种插补块缺失值的方法，该方法扩展了经典的多重插补方法。更一般地说，ML 方法（例如基于树的工具和深度学习）估算缺失值和/或理解缺失结构的能力开始受到重视，尽管这些文献仍处于萌芽状态。因此，尽管迄今为止的研究已经部分解决了特定环境下 SM 的问题，但所提出的方法通常是定制的，虽然它们在理解 SM 方面取得了重要进展，但它们的普遍性仍不清楚。

艾伦图灵研究所的研究人员认为，为了在不同的应用和部署领域大规模推进 ML，需要一种更通用的 SM 方法，使用来自计算科学的方法来更好地理解 SM，它如何影响后续学习，如何有效地处理它，甚至——因为 SM 的模式可以传达重要信息——它可能有用的条件。为此，艾伦图灵研究所举办了一系列研讨会，召集了多学科专家社区，以确定 SM 中的突出问题，并为他们的解决方案绘制路线图。

图示：SM的例子。（来源：论文）

近年来，随着 ML 方法的颠覆性进步，廉价数字存储和计算能力的可用性迅速增长，这些方法能够从大量数据中学习——包括收集、整理和越来越多地用于研究目的的数据——并执行许多下游任务。然而，这些进步也伴随着自身的挑战。虽然在自然语言处理和计算机视觉等特定的 ML 领域取得了非凡的进展，但值得注意的是，这些领域通常依赖于大量免费提供的训练数据资源。在其他重要领域，例如医疗保健和社会经济政策，培训数据并不那么容易获得，并且通常被编译为许多独立资源的合并，这些资源来自不同的现实世界实验，这些实验可能没有考虑到合并。在这种情况下，模型训练所需的合并数据通常充满缺失或不完整的数据，以及其他公认的问题。

在处理「活」数据集时，这些问题尤其严重，这些数据集会随着时间的推移积累新信息，将其与旧信息合并，并结合来自新测量模式的数据——例如基因测序的不断发展——当它们出现时。机器学习方法要从这种动态的、异构的数据中学习并稳健地泛化，就需要设计它们来应对不可避免的 SM。这些担忧超出了与标准数据清理过程相关的模型退化和偏差问题。出于这个原因，研究人员认为现在迫切需要将 SM 本身作为一个主题来处理，这对 ML 的未来至关重要。为此，他们提出了一组九个 SM 挑战（定义 SM；探索 SM 的几何结构；使用 SM 设计实验；SM预测；使用 SM 进行推理和估计；估算SM；SM 工具的基准测试和评估；与 SM 的因果关系；SM 的社会影响），如果这些挑战得到解决，将提高研究人员从大规模真实世界数据中有效学习的能力。为了应对这些挑战，两个首要问题是关键。

首先，对采用方法的学科或领域背景有很好的理解是至关重要的，对它们的局限性的认识和清晰阐述也是如此。例如，如果计算或数据资源不允许对 SM 在分析管道中的范围和影响进行全面调查，则明确传达这一事实，作为报告过程的一部分，应承认可能出现的潜在偏见及其实际影响，并明确地向利益攸关方提出。这样做需要在更广泛的背景下对 SM 采取整体方法，涉及多个学科，包括机器学习、数学、网络科学、伦理学和统计设计。因此，有责任举办社区主导的跨学科研讨会和平台开发，例如开源协作中心，以最好地利用广泛的专业知识来推动这一新兴领域的发展。

其次，SM 不应仅被视为事后问题，需要在分析阶段解决。为了最有效地处理 SM，重要的是在设计阶段考虑它，并且设计数据收集策略以尽可能和适当地最小化 SM 的数量和影响。然而，在某些情况下，SM 将不可避免，并且尽管尽了最大努力，它的存在可能不会被发现。需要创新的新方法，例如使用网络或拓扑模型或其他数据驱动方法（例如无监督聚类），以促进更好地检测和表征 SM。重要的是，此类事后分析工具并非独立于设计考虑因素：通过将良好的设计和良好的分析结合起来，作为集成分析管道的相互关联部分，SM 将得到最有效的解决。

论文中，研究人员针对解决提出的挑战的可能途径，提出了一些建议。虽然这些挑战的一般解决方案无疑需要开发新的数学和计算程序，但有一些现有的工具和技术可能有助于为未来的研究设定有前途的轨迹。

解决 SM 的一种可能方法是利用稀疏和协作表示的概念。协作表示模型借鉴了协作过滤器的原理，这些原理通常用于在线推荐系统。协作过滤器随着时间的推移跟踪许多用户的活动——每个用户都可能有复杂的、特定的缺失数据模式，这取决于他们的特定兴趣和个人资料特征——并通过将个人的活动与从整个社区学习的模式进行比较来提出个性化的建议。

协同表示分类器还利用了这样一个事实，即个人概况通常可以根据稀疏基集来紧凑地表示，这可以通过汇集来自更广泛人群的数据来学习。这些方法利用了两个可能有助于克服 SM 挑战的关键事实：（1）对于某些分析，可以通过在大型社区中以分布式方式收集和整理部分数据来减轻缺失数据的影响；（2）在很多情况下，明显的高维现象可以在低维中有效地表示，而不会丢失大量信息，并且这种压缩过程可以「去噪」（例如，人类初级视觉皮层使用这种稀疏编码来有效地表示复杂的自然场景）。

第二种途径可能是利用合成数据中的最新概念。直观地，生成合成数据的问题可以被认为是所有数据都缺失的插补的极端情况。因此，在适当的情况下，合成数据生成工具可能对估算 SM 有用。深度生成模型等方法，尤其是自注意力转换器和对抗网络，可能特别有用。同样，已经开发出基于这些技术的强大工具来估算具有理论保证的 MCAR 数据，并对稀疏的 MAR 和 MNAR 数据具有经验效力。虽然还不能处理所有形式的 SM，但这些都是非常有前途的发展。他们还暗示了 ML 和 SM 研究中存在良性循环的可能性，其中 ML 的进步帮助科学家更好地理解 SM，而 SM 的进步帮助研究人员充分利用可用数据资源并开发更强大的 ML 方法。

论文链接：https://www.nature.com/articles/s42256-022-00596-z