每小时分析百万细胞，中科院团队从单细胞数据中监督学习高置信度表型亚群 - IT思维

IT思维 • 1年前扫码分享

公众号/ ScienceAI（Philosophyai）

编辑 | 萝卜皮

从异质细胞群中准确识别与表型相关的细胞亚群对于描述驱动生物学或临床表型的潜在机制至关重要。

通过部署 Learning with Rejection 策略，中国科学院的研究人员开发了一种名为 PENCIL 的新型监督学习框架，用于从单细胞数据中识别与分类连续表型相关的亚群。

通过将特征选择功能嵌入到这个灵活的框架中，研究人员第一次能够同时选择信息特征和识别细胞亚群，从而能够准确识别表型亚群。此外，PENCIL 的回归模式提供了一种新的能力，可以从单细胞数据中学习亚群的监督表型轨迹。

PENCIL 分析速度快且可扩展，可在 1 小时内分析一百万个细胞。使用分类模式，PENCIL 检测到与黑色素瘤免疫治疗结果相关的 T 细胞亚群。并且，当应用于多时间点药物治疗的套细胞淋巴瘤患者的单细胞 RNA 测序时，PENCIL 的回归模式揭示了转录治疗反应轨迹。

该研究以「Supervised learning of high-confidence phenotypic subpopulations from single-cell data」为题，于 2023 年 5 月 8 日发布在《Nature Machine Intelligence》。

异质细胞系统根据发育、扰动、病理变化和临床干预改变细胞状态和组成，从而产生表型不同的细胞亚群。单细胞研究可以对来自不同实验或病理条件的样本进行分析，例如野生型与基因敲除条件、治疗耐药性与应答组以及根据分数分级的疾病进展。从异质细胞群中区分与目标表型相关的亚群，将改善表型特异性信号检测并促进可靠的下游分析。

对于分类表型，可以通过差异丰度分析来识别与表型相关的亚群。一种直接的方法是先将细胞聚类，然后比较每个聚类中条件的比率。此外，近期科学家提出了无聚类策略，例如 DAseq、Milo 和 MELD，原理是检查通过 k-nearest neighbour（KNN）图连接细胞的表型标签。

然而，KNN 图需要预先选择基因，这是以无监督的方式单独确定的，例如，最易变的基因（MVG）。这种无监督的基因选择方法，可能无法捕获隐藏在潜在基因空间中的表型相关细胞亚群。因此，为了准确检测感兴趣的细胞，基因选择必须嵌入到亚群识别过程中。然而，给定细胞间相似性矩阵作为输入，基于 KNN 的工具无法将基因选择纳入亚群识别。

另外，除了检测静态分类细胞子集之外，研究人员还需要沿着连续的表型轨迹对选定的细胞进行排序，从而揭示动态生物过程（例如组织发育和疾病进展）中的转变和关系，这是单细胞分析的一项关键任务。然而，虽然 Milo 可以输入连续的表型，但它只是定性地解释随表型变化的亚群，而没有以轨迹方式对细胞进行排序。因此，有必要进一步开发超越细胞间相似性的新框架的方法学。

在最新的研究中，中国科学院的研究团队提出了一种新工具，该工具使用 Learning with Rejection（LWR）策略从单细胞数据（PENCIL）中检测高置信度表型相关亚群。

LWR 包括 prediction function 和 rejection function，从而拒绝低置信度细胞。然后，通过将一个特征选择项嵌入到这个 LWR 框架中，PENCIL 可以在训练过程中进行基因选择，这允许学习适当的基因空间，以促进从单细胞数据中准确识别亚群。并且，PENCIL 的回归模式可以命令细胞显示在条件之间经历连续转换的亚群。

图示：PENCIL的工作流程及其主要功能。（来源：论文）

PENCIL的分类模式识别特定表型富集的亚群，与差异丰度测试算法具有相同的应用。然而，基于监督学习的 PENCIL 框架提供了一种更灵活的方式来同时选择基因和识别亚群。为了证明这一独特的特征，与其他方法进行比较的模拟被设计为需要基因选择。

图示：PENCIL 两种模式。（来源：论文）

该研究并不是为了开发一种新方法来逐步提高现有方法的性能，而是为了证明 PENCIL 可以进行基因选择以协助亚群鉴定。实际上，当禁用特征选择功能时，PENCIL 和其他方法的表现类似。此外，PENCIL 选择的基因可以作为其他方法的输入来构建适当的 KNN 图，这将与现有的基于 KNN 的方法相辅相成，以提高其性能并发挥其优势。

图示：使用 PENCIL 选择的基因作为输入来评估四种方法。（来源：论文）

PENCIL 对回归的扩展导致了单细胞分析中的新应用。在 LWR 框架中，损失函数的这种切换不仅会影响 predictor，还会影响 rejector 项，使其接受在条件之间转换的细胞，这与差异丰度测试有根本区别。

因此，PENCIL 的回归模式超出了检测静态分类细胞状态的范围，从而揭示动态生物过程中的转变。尽管 Milo 可以评估连续输入，但它倾向于选择表型丰度单调变化的亚群，这通常会错过时间进程中的表型亚群。

最重要的是，现有方法无法为所选细胞分配时间分数以反映表型的动态过程。因此，研究人员相信 PENCIL 的回归模式解决了亚种群表型轨迹监督学习的新应用。

图示：在模拟数据集上评估 PENCIL 的回归模型。（来源：论文）
PENCIL 为来自相同复制的细胞分配相同的组标签，因此不考虑样本之间的技术差异，这是机器学习框架中的遗传限制。相比之下，基于统计的 Milo 可以使用广义线性模型优雅地处理复制。由于 PENCIL 是对其他方法的补充，研究人员可以将 PENCIL 学习到的基因提供给 Milo，以利用广义线性模型的统计优势。此外，为了解决条件/样本不平衡的单元格数量，可以将条件/样本权重引入损失函数。

虽然这里只展示了 PENCIL 在 scRNA-seq 数据集中的应用，但它也可以处理其他类型的单细胞组学分析，例如使用测序对转座酶可及染色质进行单细胞分析等等。

论文链接：https://www.nature.com/articles/s42256-023-00656-y