生物学领域内深度学习面临挑战，挖掘基因组数据成为关键

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

四年前，谷歌的科学家出现在加利福尼亚州旧金山格莱斯顿神经病研究所神经科学家Steve Finkbeiner的家门口。Finkbeiner和他的团队使用一种名为“ 机器人显微镜（robotic microscopy）”的高通量成像策略来产生大量的数据，这些策略是他们为研究脑细胞而开发的。但团队因无法快速分析数据而发愁。因此，Finkbeiner对合作的机会表示欢迎。

这几位谷歌的研究人员则在谷歌位于山景城的研究部门Google Accelerated Science（GAS）工作，这个部门旨在利用谷歌的技术加快科学发现的进展。GAS的科学家们很有兴趣将“深度学习”方法应用于由Finkbeiner团队生成的影像数据。

深度学习算法从极大的带注释的数据集(如图像或基因组的集合)中提取原始特征，并利用它们来创建一个基于隐藏在内部的模式的预测工具。一旦训练完成，算法就可以应用这种训练来分析其他数据。

Finkbeiner说，这种技术可以用来“解决真正困难、复杂的问题，并且能够看到数据中的结构——这些数据量太大，对人类大脑来说太复杂，无法理解”。他说:“当时我不能诚实地说，不清楚地了解深入学习可能会遇到的问题，但是我知道我们以大约两倍到三倍的速度生成数据，超出了我们的分析能力。”

如今，合作开始取得成效。Finkbeiner的团队与谷歌的科学家们训练了一套深度算法，其中包含两组细胞，一组人工标记以突出了科学家通常看不到的特征，另一组未标记。当他们后来用这套算法来识别未标记细胞的图像时，Finkbeiner说，“它非常善于预测这些图像的标签应该是什么样子。”

Finkbeiner的成功表明了人工智能 (AI)最有前途的应用分支之一——深度学习正在深入生物学领域。在生物学中，深度学习算法以人类无法做到的方式深入研究数据，发现人类可能无法捕捉到的特征。研究人员利用这些算法对细胞图像进行分类，建立基因组连接，加速药物发现周期，甚至可以找到不同数据类型的链接，从基因组学和成像到电子病历。

BioRxiv上有超过440篇文章讨论深度学习，PubMed网站在2017年列出了700多篇与深度学习有关的参考文献。这些工具正成为生物学家和临床研究人员广泛使用的工具。但是，研究人员在理解和使用这些算法方面仍面临着挑战。

1、训练智能算法

深度学习算法依赖于神经网络，这是20世纪40年代首次提出的一种计算模型，其中类神经元节点组成的网络层模拟人脑对信息进行分析。费城宾夕法尼亚大学的计算生物学家Casey Greene说，直到大约5年前，基于神经网络的机器学习算法依靠研究人员将原始信息加工成更有意义的形式，然后才将其输入到计算模型中。但是，数据集的爆炸式增长以及算法创新，已经使人类的工作减少。机器学习的这种进步——“深度”部分——迫使计算机，而不是人类程序员，去寻找深藏数据之下的有意义的关系。随着神经网络中的层对信息进行过滤和排序，它们还可以相互通信，从而允许每个层优化前一个层的输出。

生物学领域内深度学习面临挑战，挖掘基因组数据成为关键

来源：Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

最终，这个过程允许训练有素的算法分析一个新的图像，并正确地识别出它。但是，减少人类的参与，他们就无法控制分类过程，甚至无法精确地解释软件正在做什么。Finkbeiner说，虽然这些深度学习的网络能够惊人地准确预测，但“有时要弄清楚网络看到的是什么才做出如此好的预测，仍然是一个挑战。”

尽管如此，包括成像在内的许多生物学的分支学科，正在收获这些预测的回报。十年前，自动化生物图像分析软件专注于测量一组图像中的单个参数。例如，2005年，麻省理工学院布罗德研究所和哈佛剑桥哈佛大学的计算生物学家Anne Carpenter发布了一个名为CellProfiler的开源软件包，帮助生物学家定量测量各个特征：比如显微镜下荧光细胞的数量，或斑马鱼的长度。

但深度学习让她的团队走得更远。“我们已经转向测量生物学家们没有意识到他们想用在图像中来测量的东西，”Carpenter说。记录和结合视觉特征，如DNA染色、细胞器结构等可以产生数千个“特征”，其中任何一个都能揭示新的见解。当前版本的CellProfiler包含一些深入学习的元素，她的团队希望在明年添加更复杂的深度学习工具。

Carpenter说:“大多数人都很难弄明白这些问题，但是单细胞图像中的信息，实际上可能更多，就像细胞群的转录组分析一样。”

这种类型的处理使得Carpenter的团队采取一种更少监督的方法，将细胞图像转化为疾病相关的表型，并利用它进行分析。Carpenter是犹他州盐湖城Recursion Pharmaceuticals的科学顾问，该公司正利用其深度学习工具，瞄准罕见的单基因疾病药物开发。

2、挖掘基因组数据

当谈到深度学习时，也不是任何数据都可以的。深度学习通常需要大量的、标注良好的数据集。因此，成像数据就成了很自然的好选择，基因组数据也是如此。

Verily Life Sciences(前身是谷歌生命科学)也一直使用此类数据。Verily是Google母公司Alphabet的子公司，研究人员开发了一种深度学习工具，可以比传统工具更准确地识别常见的遗传变异类型，即单核苷酸多态性。这种名为DeepVariant的软件，将基因组信息转换成图像表示形式，然后将其作为图像进行分析。

Mark DePristo，他领导了Verily深入学习的基因组研究，他认为DeepVariant对于研究非主流生物的研究人员特别有用，尤其是那些低质量的参考基因组和高错误率鉴定基因变异。他的同事Ryan Poplin在植物领域中使用DeepVariant，误差率从20％降低到了接近2％。

加拿大Deep Genomics公司首席执行官Brendan Frey也专注于基因组数据，但其目标是预测和治疗疾病。Frey在多伦多大学的学术团队开发了关于健康细胞基因组和转录组数据的算法。

这些算法针对RNA事件构建预测模型，例如剪接、转录和聚腺苷酸化。Frey说，在应用于临床数据时，算法能够识别突变并将其标记为致病性，即使它们从未看过这些临床数据。在Deep Genomics公司，Frey的团队正在使用相同的工具来识别和针对软件发现的疾病机制，并开发由短的核酸序列衍生出来的治疗方法。

药物发现是另一个有大量数据集的学科。在这里，深度学习算法正在帮助解决分类挑战，通过诸如形状和氢键等分子特征的筛选，确定对这些潜在药物进行排序的标准。例如，位于旧金山的生物科技公司Atomwise开发了一种将分子转换成三维像素网格的算法。这可以使公司能够以原子精度解释蛋白质和小分子的三位结构，以及原子的精度，比如碳原子的几何形状。该公司的首席执行官Abraham Heifets表示，这些特征被转化为数学向量，算法可以用来预测哪些小分子可能与特定蛋白质相互作用。他说，“我们做的很多工作都是针对没有已知粘合剂的（蛋白质）靶标。”

Atomwise正在使用这一策略推动其新的AI驱动的分子筛选计划。这个计划扫描了一千万个化合物的库，为学术研究人员提供了多大72种潜在的小分子粘合剂，以获取他们感兴趣的蛋白质。

深度学习工具还可以帮助研究人员对疾病类型进行分层，了解疾病亚群，找到新的治疗方法，并将其与合适的患者相匹配以进行临床试验和治疗。例如，Finkbeiner所在的一个叫做Answer ALS的组织，致力于将一系列的数据——基因组学、转录组学、表观基因组学、蛋白质组学、成像，甚至是多功能干细胞生物学——从1000人的神经退行性疾病肌萎缩侧索硬化症(也称为运动神经元病)中结合起来。他说:“这是我们第一次有一个数据集，可以应用深度学习，并观察深度学习是否可以揭示我们细胞培养皿中和患者发生的事情之间的联系。”

3、挑战和警告

研究人员警告说，尽管深度学习带来了很多好处，但它也带来了巨大的挑战。与任何计算生物学技术一样，由算法产生的结果取决于输入的数据。模型过拟合也是一个问题。此外，对于深度学习，数据量和质量的标准往往比一些实验生物学家所期望的更为严格。

深度学习算法需要非常大的数据集，这些数据集都要有很好的注释，以便算法可以学习区分特征和对模式进行分类。Finkbeiner指出，在大约15000个样本之后，他的工作中的算法训练显着提高。Carpenter说，那些高质量的“ground truth”数据可能非常难以实现。

为了规避这一挑战，研究人员一直在努力研究如何用更少的数据进行更多的训练。基础算法的进步使得神经网络能够更有效地使用数据。Carpenter说，在一些应用程序中只对少量图像进行训练。科学家还可以利用转移学习，即神经网络从一种数据类型获得的分类能力应用到另一种类型的能力。例如，Finkbeiner的团队已经开发出一种算法，最初是根据形态学变化来预测细胞死亡。虽然研究人员训练它研究啮齿动物细胞的图像，但它首次接触到人类细胞图像时的准确率达到了90％，而且随着经验的增加，其准确率达到99％。

在一些生物图像识别工作中，GAS使用的算法最初是针对从互联网上挖掘的数亿个消费者图像进行训练的。研究人员随后对这种训练进行了改进，使用了几百种类似于他们希望研究的生物图像。

GAS的研究科学家Michelle Dimon指出，深度学习带来的另一个挑战是计算机既不聪明又懒惰。它缺乏辨别生物学相关差异和正常差异的判断力。她指出：“电脑很擅长查找批量变化。”因此，获取将被输入到深度学习算法中的数据，通常意味着对实验设计和控制应用的一个高门槛。GAS要求研究人员随机将对照放置在细胞培养板上，以考虑诸如孵化器温度等微妙的环境因素，并使用两倍于生物学家可能使用的对照组。Dimon打趣道：“我们很难控制。”

Dimon说，这种危害强调了生物学家和计算机科学家共同设计融合深度学习的实验的重要性。

尽管深度学习算法可以在没有人类先入之见和过滤器的情况下评估数据，但Greene警告说，这并不意味着它们没有偏见。训练数据可能会有偏差，例如，仅使用北欧人的基因组数据时。对这些数据进行训练的深度学习算法将获得嵌入的偏差，并在他们的预测中反映出来，从而导致不平等的病人护理。如果人类帮助验证这些预测，就会对问题进行潜在的检查。但如果仅靠电脑来做出关键决策，这就会令人不安。Greene说:“把这些方法看作是增强人类比把这些方法想象成替代人类更好。”

接下来的挑战就是，要准确理解这些算法是如何构建特征的。马里兰州巴尔的摩的Insilico医学研究所的科学家Polina Mamoshina说，计算机科学家正在通过改变或调整模型中的个体特征来攻击这个问题，然后研究这些微调如何改变预测的准确性。但Greene警告说，不同的神经网络在同一问题上的工作方式不会以同样的方式进行。研究人员越来越关注能够做出准确又能解释的预测算法。

Greene说:“我认为，2018年高深度学习模式不会出现，但我希望我是错的。”

生物学领域内深度学习面临挑战，挖掘基因组数据成为关键

2018年3月23日，亿欧将在广州举办 GIIS 2018第三届医药未来领袖峰会 ，就跨界玩家、创新药研发、产业基金、CRO、两票制、处方外流、医院和药店管理运营等热门话题，携手业界大咖进行交流分享，以期在认知层和方法论给行业带来新思考、新启发。

随意打赏

数据分析与挖掘关键挖掘