机器学习+全基因组测序，准确预测人体特征

加速会 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

编者按：本文来自微信公众号 “新智元”（ID：AI_era），编译：赵以文

人类长寿公司的研究人员最近在PNAS发表了一篇论文，利用全基因组测序数据，使用机器学习方法，预测个体的性状。结果表明，研究人员能够比较准确地预测出一些简单的个体性状特征，尤其是眼睛颜色、肤色和性别。论文第一作者表示，机器学习在科学发现中起着至关重要的作用，能够让数据解释工作完全自动化完成。

科学家可以根据我们的DNA有效地预测我们身体的物理特征，也就是性状。

人类长寿公司的研究人员最近在PNAS发表了一篇论文，利用全基因组测序数据，使用机器学习方法，预测单个人的性状。论文第一作者Christoph Lippert表示，机器学习在科学发现中起着至关重要的作用，能够让数据解释工作完全自动化完成。

人类长寿公司（Human Longevity Inc）由美国基因组学家克雷格·文特（Craig Venter）与干细胞先驱罗伯特·哈里里和XPRIZE基金会创始人彼得·迪曼蒂斯组建，该公司试图利用基因组和干细胞疗法，寻找相应的治疗药物，最终实现延缓衰老，保持健康和身体机能的目标。

整个研究的目的旨在表明法医学如何能够在工作中利用新的技术。具体到这项研究，研究人员从1,061名18~82岁、不同种族的被试中抽取基因组测序样本信息。研究人员还采集了3D面部图像、语音样本、身高、体重等数据。

结果表明，使用机器学习方法，在全基因组数据的基础上，研究人员能够比较准确地预测出一些简单的个体性状特征。尤其是眼睛颜色、肤色和性别，预测结果的准确度非常高。但是，一些复杂的性状，预测精度还有待提高。

研究人员开发了一种名为最大熵的机器学习算法，并表示如果有更多的数据，模型能够得出更好的预测结果（也即将全基因组测序数据与表型和人口统计数据相匹配）。

实验中，机器学习算法发现了所有预测模型的组合。大约有8分之一的参与者被成功识别（reidentificated）。另一方面，非洲裔美国人和欧洲参与者的成功率“只有”50％。这不是研究人员希望的结果。

机器学习+全基因组测序，准确预测人体特征

作者认为，虽然这项研究为法医学提供了新的方法，但也对数据隐私、识别（deidentification）和充分知情同意具有严重的影响。研究人员表示，越来越多的基因组被生成并被放置在公共数据库中，这需要更多的公众审议。（这项研究本身已经获得了IRB批准）。

人类长寿公司的联合创始人克雷格·文特指出：“我们着手做这项研究，是为了证明你的基因组代码造就了你的一切。这显然是一个在数据有限的情况下进行的一次概念证明。但是我们相信，随着我们将本研究中的人数和HLI数据库中的人数增加到几十万，我们将能够准确地预测个体基因组可以预测的一切。”

他补充说：“我们也担心公众和整个研究界不能充分重视基因组学时代对个人隐私的更好的保障和政策的需要，并且正在敦促更多的分析，更好的技术解决方案和持续的讨论。”

成像技术与机器学习相结合确实可以产生一些意想不到的结果。在未来几年看到更多的这些发展还有待观察。

相关论文：

机器学习+全基因组测序，准确预测人体特征

摘要：

使用基因数据预测人体物理特征和人口信息，对个性化医疗中的隐私和数据识别构成了挑战。为了探索目前基于表型的基因组的鉴定能力，我们应用全基因组测序、详细表型分析和统计建模，预测了不同祖先的1,061名参与者的生物特征。单独看，对于大部分性状而言，使用基因测序预测精度超越以往方法是有限的。然而，我们开发了一个最大熵算法，集成了多个预测，能够确定哪些基因组样本和表型测量来源于同一个人。使用这个算法，我们在一个由多种族混合的实验群体中，平均估计出每10名被推举者中的8名，在每10名非裔美国人或每10名欧洲人中平均估计出5名。这项工作挑战了当前的个人隐私概念，并可能产生深远的伦理和法律影响。

论文公开发表，了解更多可访问：http://www.pnas.org/content/early/2017/08/29/1711125114.full