纽约大学团队开发用于基因组学的神经网络,并解释了它如何实现准确的预测 - IT思维
公众号/ ScienceAI(ID:Philosophyai)
编辑 | 萝卜皮
机器学习方法,特别是在大型数据集上训练的神经网络,正在改变科学家进行科学发现和实验设计的方式。然而,当前最先进的神经网络因其不可解释性而受到限制:尽管他们具有出色的准确性,但他们无法描述他们是如何得出预测的。
纽约大学的研究团队使用「可解释的设计」方法,提出了一种神经网络 模型 ,它揭示了神经网络(驱动人工智能和 机器学习 的引擎)功能的原因。该模型可以深入了解 RNA 剪接,这是将基因组信息转移到功能性 RNA 和蛋白质产物的基本过程。
「许多神经网络都是黑匣子,这些算法无法解释它们的工作原理,引发人们对其可信度的担忧,并阻碍理解基因组编码的潜在生物过程的研究进展。」纽约大学库朗数学科学研究所计算机科学教授 Oded Regev 说。
该研究以「Deciphering RNA splicing logic with interpretable machine learning」为题,于 2023 年 10 月 5 日发布在《PNAS》。
机器学习算法,特别是神经网络,捕获输入和输出之间复杂的定量关系。然而,由于神经网络通常是黑匣子,因此很难提取事后洞察来了解它们是如何做到的。此外,它们很容易捕获训练 数据 中的伪影或偏差,通常无法推广到用于训练和测试的数据集之外,并且一般不会深入了解底层流程。
近年来,神经网络已被用来解决具有挑战性的生物学问题。基因组学中的一个突出问题是理解 RNA 剪接的调控逻辑,它在信息从 DNA 到功能性 RNA 和蛋白质产物的基本转移中发挥着关键作用。剪接去除内含子并将外显子连接在一起形成成熟的RNA转录本。虽然一些规范序列特征对于外显子定义是必要的(在内含子去除过程中使用的界定外显子和分支点的剪接位点),但外显子序列也有助于外显子定义。
尽管近期使用神经网络预测剪接结果取得了成功,但了解外显子序列如何决定包含或跳过仍然是一个开放的挑战。剪接逻辑的敏感性进一步凸显了这一挑战,其中沿着外显子的几乎所有单核苷酸变化都会导致剪接结果的巨大变化。
为了实现科学进步,机器学习模型不仅应该准确预测结果,还应该描述它们如何得出预测。在这里,纽约大学的研究人员证明了「可解释设计」模型在不牺牲可解释性的情况下实现了预测准确性,捕获了统一的决策逻辑,并揭示了以前未表征的剪接特征。
图示:数据生成和可解释的设计机器学习模型。(来源:论文)
「通过利用一种提高机器学习训练数据数量和质量的新方法,我们设计了一种可解释的神经网络,可以准确预测复杂的结果并解释它是如何得出预测的。」Regev 说。
模型的可解释性使人们能够系统地理解 RNA 剪接逻辑,包括识别两个候选外显子跳跃特征,并随后进行实验验证。该模型能够量化特定特征对单个外显子剪接结果的贡献,对于一系列医疗和生物技术应用具有巨大的潜力,包括对目标外显子进行基因组或 RNA 编辑以纠正剪接行为或指导基于 RNA 的疗法(如反义寡核苷酸)的合理设计。
此外,模型识别的特征暗示了值得进一步研究的新生化机制。例如,剪接决策通过附加量很好地建模,这一事实支持涉及 SR 和 hnRNP 蛋白核空间组织的生化机制。
Regev 指出:「我们的模型表明,RNA 中的一种小型发夹状结构可以减少剪接。」
图示:发卡结构的验证。(来源:论文)
另外,该模型还发现了两个不寻常的外显子跳跃特征。这些特征可能被未表征的 RNA 结合蛋白或复合物识别。或者,引入高度结构化或非结构化区域可能会改变剪接位点之间的物理距离,从而增强外显子跳跃。这些悬而未决的问题进一步强调了可解释设计模型如何通过帮助假设生成来推进科学发现。
该模型在来自永生化细胞系的合成数据集上表现良好,但需要进一步的工作来捕获发育调节剪接逻辑的动态。重要的是,剪接结果的变化取决于细胞类型特异性 RNA 结合蛋白的表达水平。这些问题可以通过在发育相关的细胞类型中生成额外的合成剪接数据集以及捕获细胞类型特异性调控特征的可解释设计模型来解决。
除了剪接的背景之外,可解释的设计框架还可用于破译决定生物分子加工的多个、复杂和重叠的代码。重要的是,许多丰富的合成数据集已经生成,涉及 RNA 非翻译 5′ 和 3′ 区域调控、甲基化和小 RNA 生物发生。研究人员认为,额外的数据生成工作与可解释的设计框架相结合将促进更广泛地理解生物密码的进步。
论文链接:https://www.pnas.org/doi/10.1073/pnas.2221165120
相关报道:https://techxplore.com/news/2023-10-neural-network-genomics-accurate.html