Science 发文,高通量蛋白质组学和人工智能的革命 - IT思维
公众号/ ScienceAI(ID:)
编译 | 紫罗
最近,研究人员能够从少量血液样本中测量数千种血浆蛋白,这为广泛的数据提供了新的维度,可以增进我们对人类健康的了解。
例如,SomaLogic 公司已经开发出测量 10,000 多种蛋白质的方法,而赛默飞世尔的 Olink 检测方法可以从少至 2 μl 的样本中检测 5400 多种蛋白质。
当这些丰富的 数据 与来自大型患者群体的其他信息层(例如英国生物库从 50 万名参与者那里获得的基因、健康和生活方式信息)相结合时,我们就会对疾病的根源、衰老过程以及预测个人健康轨迹的潜在能力产生新的见解。
十多年来,科学家已经开发出预测疾病风险的多基因风险评分(polygenic risk scores,PRS)。PRS 已在不同血统的人群中得到验证,现在开始用于患者指导。这些风险评分通常基于数百种常见(存在于 5% 以上的人口中)单核苷酸多态性 (SNP) 的存在。
但我们知道,患病风险不仅仅反映在常见的 DNA 序列变异中。还有一些罕见和极罕见的基因组变异未被计入风险计算中,例如 DNA 中核苷酸的插入-缺失 (indel) 会产生突变,或者 DNA 排列的变化(而不仅仅是单核苷酸变化)会导致结构变异。此外,蛋白质组学、代谢组学和表观基因组学谱以及微生物组、免疫组和暴露组(环境暴露)也存在差异。
2000 年,中美英日德法6国宣布人类基因组工作草图绘制完成。已绘制出人体 97% 的基因组,其中 85 %的基因组序列得到了精确测定,包含了人体约 30 亿个碱基对的正确排序。
人类基因组中约有 20,000 个蛋白质编码基因,而人体中却有超过 100,000 种不同的蛋白质,并且由于可变剪接,人体中还存在数十万种蛋白质异构体(变体)。能够检测其中的大部分蛋白质是无假设研究的基础,即努力收集数据并盲目寻找模式,而不是假设存在某些模式然后寻找它们。这种方法与机器学习分析一起,引发了一场理解疾病基础的革命。
最近几项高通量蛋白质组学研究,在器官和全身层面都具有启发意义。三项研究探讨了器官特异性蛋白质动力学。
斯坦福大学研究团队将 5,676 名成年人分为五个独立队列(三组为健康参与者,两组为阿尔茨海默病患者)中筛选出数据,来评估近 5000 种血浆蛋白(并进行了 5 年的随访)。
使用机器学习模型,确定了 11 个器官特有的蛋白质,并通过比较生物年龄和实际年龄得出「器官年龄差距」。大约五分之一的人至少有一个器官是超龄者,因此,器官在生理和功能上都比人的实际年龄大得多,2% 的人有多个器官是超龄者。对于这 11 个器官中的每一个,年龄差距都与死亡风险增加有关。
论文链接:https://www.nature.com/articles/s41586-023-06802-1
随后的两项研究进一步证实了这一发现。
在哈佛医学院的预印论文中,他们对 53,000 名英国生物样本库(UK Biobank)参与者的约 3000 种血浆蛋白进行了评估。借助机器学习,他们定义了七个器官特异性衰老时钟。吸烟等生活方式因素与所有七个器官的衰老速度加快有关,饮酒也会导致肠道衰老。器官衰老还与许多其他因素有关,包括各种食物、药物和职业。
论文链接:https://www.medrxiv.org/content/10.1101/2024.04.08.24305469v1
第三项研究也是由斯坦福大学进行的,他们检测了 44,000 名 UK Biobank 参与者的 3000 种血浆蛋白,并进一步验证了 11 个器官特异性衰老时钟。与吸烟和饮酒相比,绝经后雌激素替代疗法与大多数器官的衰老速度减慢有关。一个值得注意的发现是,在长达 15 年的随访中,大脑或免疫系统衰老缓慢与生存率提高有关。
论文链接:https://www.biorxiv.org/content/10.1101/2024.06.07.597771v1
转向全身高通量蛋白质组学,牛津大学团队分析了 45,000 多名 UK Biobank 参与者的近 3000 种血浆蛋白,并在约 4000 名参与者的中国生物库和近 2000 人的芬兰生物库中进行了进一步的交叉验证,每个队列至少进行了 11 年的随访。
204 种蛋白质簇不仅可以准确预测实际年龄,而且还与 18 种慢性疾病有关,包括四种常见癌症、多重疾病和全因死亡率(任何原因导致的死亡)。蛋白质组时钟快速衰老者(蛋白质模式表明衰老速度异常快的个体)患阿尔茨海默病的风险更高,而在蛋白质组时钟缓慢衰老者中,不到 1% 的人患上阿尔茨海默病。
论文链接:https://www.nature.com/articles/s41591-024-03164-7
剑桥大学发表了两份关于使用人工智能 (AI) 模型进行全身蛋白质组学研究的报告,拓宽了疾病预测领域。
在超过 25,000 名参与者的 EPIC-Norfolk 队列中,大约 3000 种血浆蛋白被检测出来,并与 13 种疾病和全因死亡风险相关。更广泛地说,在英国生物库的 41,000 多名个体中,通过评估相同的血浆蛋白并将数据与电子健康记录相结合,发现 218 种常见和罕见疾病中的 52 种的风险可预测性程度各不相同。
论文链接:https://www.nature.com/articles/s41591-019-0673-2
关于衰老,蛋白质组学研究表明它不是一个线性过程。2019 年,斯坦福大学研究人员,在 4000 多名年龄在 18 至 95 岁之间的人群中,在近 3000 种蛋白质中,我们的生命周期中有三个蛋白质组学峰,分别在 35 岁、60 岁和 80 岁左右。最近,一项多组学研究评估了 300 多种蛋白质,但仅限于 75 岁(并进行了 1.7 年的短暂随访),发现蛋白质组学峰出现在 44 岁和 61 岁。
论文链接:https://www.nature.com/articles/s41591-019-0665-2
SomaLogic 公司研究了近 17,0000 名个体中约 5000 种蛋白质的预测潜力,发现蛋白质与心血管疾病、糖尿病和代谢相关脂肪肝疾病的风险密切相关。其他高通量蛋白质组学研究则集中于健康个体患痴呆症的风险和阿尔茨海默病,后者与人体表达的载脂蛋白 E (APOE) 基因变异有关。
总之,这些研究突出了检测和了解大量血浆蛋白的全新非凡能力。迄今为止的研究已经增强了我们对人类衰老过程的理解,确定了许多器官特异性变化及其可能如何得到有利调节,并提高了使用蛋白质组学评分评估各种疾病风险的潜力。
当然,这仅代表一层数据,通过使用多模态 AI 分析,可以与电子健康记录、基因组风险、表观遗传时钟、炎症生物标志物、肠道微生物组、免疫系统功能和环境暴露正交整合。
高通量蛋白质组学评估的一个限制是费用,每人费用从 500 美元到 1000 美元不等。但经过验证的蛋白质组子集可用于特定风险评估,因此成本可能会低得多。
此时不容错过的是,我们确实看到了蛋白质组学领域和人工智能的令人振奋的发展,它们将继续发展并最终在常规医疗保健中找到自己的位置。
参考内容:https://www.science.org/doi/10.1126/science.ads5749