科学家开发出基于人工智能的方法来预测 RNA 修饰 - IT思维
公众号/ ScienceAI(ID:Philosophyai)
编辑 | 萝卜皮
RNA 分子上的甲基化修饰,关系到某些蛋白的表达,进而会影响到细胞的状态,对于疾病治疗药物开发具有潜在应用价值。
m6A 甲基化等 RNA 修饰会在转录组中形成了额外的复杂层。纳米孔直接 RNA 测序可以在每个 RNA 分子的原始电流信号中捕获此信息,从而能够使用有监督的 机器学习 来检测 RNA 修饰。然而,实验方法仅提供站点级别的训练数据,而缺少每个单个 RNA 分子的修饰状态。
在这里,新加坡 A*STAR 基因组研究所(GIS)和新加坡国立大学的研究人员介绍了 m6Anet,这是一种基于 神经网络 用于检测 RNA 修饰的新方法,它利用多实例学习框架专门处理站点级训练数据中缺失的读取级修改标签。m6Anet 优于现有的计算方法,显示出与实验方法相似的准确性,并且无需重新训练模型参数即可高精度地推广到不同的细胞系和物种。
此外,研究人员证明 m6Anet 捕获了底层的读取级化学计量,可用于估算修改率的差异。总的来说,m6Anet 提供了一种工具,可以从单次直接 RNA 测序中捕获转录组范围内的 m6A 识别和量化。
该研究以「Detection of m6A from direct RNA sequencing using a multiple instance learning framework」为题,于 2022 年 11 月 10 日发布在《Nature Methods》。
监督方法有望从直接 RNA-Seq 数据中准确检测 RNA 修饰。这些方法依赖于准确的训练数据,这些数据可以通过实验方案获得,从而识别 RNA 修饰,例如 m6ACE-Seq 或 miCLIP,使用包含特定相关修饰的合成 RNA,或通过直接 RNA-Seq 数据的比较分析。然而,这些方法仅提供位点级修饰标签,而纳米孔数据是针对未观察到修饰状态的单个 RNA 分子提供的。
在这里,研究人员通过开发基于神经网络的 MIL 模型 m6Anet 来解决这个问题。m6Anet 将学习单个读数的表示与分类 m6A 修饰位点相结合,优于现有的计算方法,并实现了与实验方法相当的准确性。
图示:m6Anet 示意图及对人细胞系中 m6A 检测的评估。(来源:论文)
「在传统的机器学习中,我们通常为每个要分类的示例都有一个标签。例如,每张图像要么是猫,要么不是猫,算法会根据标签学习将猫图像与其他图像区分开来。检测 m6A 的问题在于我们拥有大量标签不明确的数据。想象一下,有一个大相册,其中一张猫照片隐藏在数百万其他照片中,并试图在没有任何标签作为搜索基础的情况下识别那张特定照片。幸运的是,这之前已经在机器学习文献中进行过研究,被称为 MIL 问题。」该研究的第一作者 Christopher Hendra 解释说。
在这里,转录组范围内修饰率的量化是关键挑战之一。研究人员通过比较方法(例如用于 m6A 修饰的 xPore 和用于假尿苷的 nanoRMS),证明了从直接 RNA-Seq 数据量化修饰化学计量学的能力。另一方面,m6Anet 输出单个样本的单分子修饰概率。由于 MIL 框架,这是在没有单分子修饰标签的情况下实现的,与其他需要合成数据的单样本方法相比,可以使用更大的数据集。通过单分子预测,m6Anet 不仅可以在没有对照样本的情况下量化位点级修饰化学计量,但也有助于深入了解读取和转录水平特征(例如聚腺苷酸化、降解或选择性剪接与 RNA 修饰)之间的关系。
尽管 m6Anet 旨在处理缺失的 read-level 修改信息,但它仍然依赖于 site-level 训练数据的准确性。根据这些数据的生成方式,此类标签可能不完整,或包含多个不同的修改,从而在训练数据中引入噪声并降低模型性能。在这里,该团队发现即使使用不同的训练数据集,m6A 的预测精度似乎也很高。然而,关于不同修改和实验协议的额外训练数据可能会进一步提高 m6Anet 等监督方法的预测准确性。
虽然监督方法可以识别单个样本中的 RNA 修饰,但比较方法有助于跨条件分析。监督方法优于比较方法的主要优势之一是它们能够预测特定 RNA 修饰(如 m6A)的发生。通过预测比较方法识别的候选位点上的 m6A 修饰,m6Anet 可以克服它们无法分配特定修饰类型的问题,从而促进差异修饰的特定修饰分析。
与用于分析 RNA 修饰的基于短读长的实验方法相比,直接 RNA-Seq 是一种简单的检测方法,可以使 m6A 分析具有可扩展性。然而,与受抗体特异性等方面影响的实验方案类似,m6Anet 的准确性将受到测序化学、碱基调用算法或参考序列与信号比对准确性等方面的影响。
此外,孔隙化学的改进可能需要重新训练 m6Anet 以利用这些变化。从纳米孔信号中提取汇总数据的测序技术和方法的进一步改进可以进一步提高 m6Anet 的准确性。虽然研究人员观察到大量特定于技术的 m6A 预测,但这里的数据支持这些可能是有效的 m6A 位点。
在这里,研究人员应用 m6Anet 来识别 m6A 修饰;但是,它也旨在促进对其他感兴趣的 RNA 修饰的培训。虽然 m6Anet 可用于识别其他自然发生的 RNA 修饰,但它也可以被训练来预测人工修饰,这有助于在再训练后识别单分子 RNA 结构。此外,它还将通过提高置信度和分辨率来补充现有实验方法,从而能够准确预测位点级修饰,同时促进从单次直接 RNA-Seq 数据运行中进一步探索单分子修饰概率。
图示:比较两种不同细胞系的 m6Anet 模型。(来源:论文)
另外,在该研究中研究人员证明了 m6Anet 可以从跨物种的单个样本中以单分子分辨率高精度预测 m6A 的存在。
「我们的 AI 模型只看到了人类样本的数据,但即使在模型以前从未见过的物种样本中,它也能够准确识别 RNA 修饰。」该研究的通讯作者 A*STAR GIS 计算转录组学实验室组长 Jonathan Göke 说,「识别不同生物样本中 RNA 修饰的能力可用于了解它们在许多不同应用中的作用,例如癌症研究或植物基因组学。」
「很高兴看到如何利用 MIL 等具有理论基础和深入研究的机器学习技术,为这一具有挑战性的问题提供优雅的解决方案。见证该软件被科学界如此迅速地采用是对我们努力的回报!」共同领导这项研究的新加坡国立大学理学院统计与数据科学系副教授 Alexandre Thiery 说。
A*STAR 的 GIS 执行董事 Patrick Tan 教授说:「准确有效地识别 RNA 修饰一直是一项长期挑战,而 m6Anet 有助于解决这些限制。为了让更广泛的科学界受益,这种人工智能方法连同研究结果已经公开,供其他科学家加速他们的研究。」
论文链接:https://www.nature.com/articles/s41592-022-01666-1
相关报道:https://phys.org/news/2023-02-scientists-ai-based-method-rna-modifications.html