纽约大学团队开发用于基因组学的神经网络，并解释了它如何实现准确的预测 - IT思维

IT思维 • 1年前扫码分享

公众号/ ScienceAI（ID：Philosophyai）

编辑 | 萝卜皮

机器学习方法，特别是在大型数据集上训练的神经网络，正在改变科学家进行科学发现和实验设计的方式。然而，当前最先进的神经网络因其不可解释性而受到限制：尽管他们具有出色的准确性，但他们无法描述他们是如何得出预测的。

纽约大学的研究团队使用「可解释的设计」方法，提出了一种神经网络模型，它揭示了神经网络（驱动人工智能和机器学习的引擎）功能的原因。该模型可以深入了解 RNA 剪接，这是将基因组信息转移到功能性 RNA 和蛋白质产物的基本过程。

「许多神经网络都是黑匣子，这些算法无法解释它们的工作原理，引发人们对其可信度的担忧，并阻碍理解基因组编码的潜在生物过程的研究进展。」纽约大学库朗数学科学研究所计算机科学教授 Oded Regev 说。

该研究以「Deciphering RNA splicing logic with interpretable machine learning」为题，于 2023 年 10 月 5 日发布在《PNAS》。

纽约大学团队开发用于基因组学的神经网络，并解释了它如何实现准确的预测 - IT思维

机器学习算法，特别是神经网络，捕获输入和输出之间复杂的定量关系。然而，由于神经网络通常是黑匣子，因此很难提取事后洞察来了解它们是如何做到的。此外，它们很容易捕获训练数据中的伪影或偏差，通常无法推广到用于训练和测试的数据集之外，并且一般不会深入了解底层流程。

近年来，神经网络已被用来解决具有挑战性的生物学问题。基因组学中的一个突出问题是理解 RNA 剪接的调控逻辑，它在信息从 DNA 到功能性 RNA 和蛋白质产物的基本转移中发挥着关键作用。剪接去除内含子并将外显子连接在一起形成成熟的RNA转录本。虽然一些规范序列特征对于外显子定义是必要的（在内含子去除过程中使用的界定外显子和分支点的剪接位点），但外显子序列也有助于外显子定义。

尽管近期使用神经网络预测剪接结果取得了成功，但了解外显子序列如何决定包含或跳过仍然是一个开放的挑战。剪接逻辑的敏感性进一步凸显了这一挑战，其中沿着外显子的几乎所有单核苷酸变化都会导致剪接结果的巨大变化。

为了实现科学进步，机器学习模型不仅应该准确预测结果，还应该描述它们如何得出预测。在这里，纽约大学的研究人员证明了「可解释设计」模型在不牺牲可解释性的情况下实现了预测准确性，捕获了统一的决策逻辑，并揭示了以前未表征的剪接特征。

纽约大学团队开发用于基因组学的神经网络，并解释了它如何实现准确的预测 - IT思维

图示：数据生成和可解释的设计机器学习模型。（来源：论文）
「通过利用一种提高机器学习训练数据数量和质量的新方法，我们设计了一种可解释的神经网络，可以准确预测复杂的结果并解释它是如何得出预测的。」Regev 说。

模型的可解释性使人们能够系统地理解 RNA 剪接逻辑，包括识别两个候选外显子跳跃特征，并随后进行实验验证。该模型能够量化特定特征对单个外显子剪接结果的贡献，对于一系列医疗和生物技术应用具有巨大的潜力，包括对目标外显子进行基因组或 RNA 编辑以纠正剪接行为或指导基于 RNA 的疗法（如反义寡核苷酸）的合理设计。

此外，模型识别的特征暗示了值得进一步研究的新生化机制。例如，剪接决策通过附加量很好地建模，这一事实支持涉及 SR 和 hnRNP 蛋白核空间组织的生化机制。

Regev 指出：「我们的模型表明，RNA 中的一种小型发夹状结构可以减少剪接。」