DNNs:人工智能史上的新转折点
【编者按】过去十年中,深度人工神经网络(DNN)已经成为 机器学习 (ML)、语音识别、计算机视觉、自然语言处理和许多其他领域的先进算法。这是通过 大数据 和 深度学习 (DL)的进步而实现的。本文主要提出了DNNs结构的概述,以及它们在药理学和生物信息学中的用途。主要应用于药物设计、虚拟筛选(VS)、定量结构--活性关系(QSAR)研究、蛋白质结构预测和基因组学(和其他组学)数据挖掘。
本文摘自BioMed数据坊,由程璠/张岩波编译;亿欧编辑整理,供行业人士参考。
机器学习(ML)是人工智能的子领域,其试图赋予计算机数据学习的能力,使得显式编程不再需要执行任务。ML算法支持计算机从记录数据中提取信息和推断模式,从而计算机可以学习先前示例以对新的示例做出良好的预测。ML算法已经成功地应用于许多领域中的各种计算任务。因为药理学和生物信息学任务的复杂性,从而使该领域成为机器学习技术的“热门话题”。
例如,在生物信息学中,ML算法可用于预测蛋白质结构和基因组学(和其他组学)中的数据挖掘。在药理学中,这些方法用于发现、设计和优化生物活性化合物,故其可能是新药的候选者。
此外,ML有助于分析这些化合物的临床研究,优化药物形式和评价药物质量。 药物的发展具有不同的阶段;第一步,选择一组分子表示或描述符。这些描述符表示感兴趣分子的相关性质。使用度量或记分方案对编码的分子之间进行彼此比较。下一步,数据集通常分为三个部分:训练集,验证集和测试集。最后一步,使用ML方法提取感兴趣的特征,这些特征可以帮助区分活性化合物和非活性化合物。
选择正确的描述符从输入数据中提取有价值的特征是非常重要的。这些数据的准确性以及所使用的统计工具在开发过程中也是相关的。过去几十年中,在制药和生物信息学领域中使用的ML技术尚浅,只有几层特征变换。一些最常用的算法包括: 主成分分析,k均值聚类,决策树,支持向量机(SVMs)和人工神经网络(ANNs)。
ANNs已应用于药理学和生物信息学二十多年。虽然ANNs很快被确定为药理学和生物信息学的有用工具,但SVM和随机森林取得巨大进步,直到最近一直占主导地位。因为数据的“稀缺性”,提取特征的难以理解,以及网络训练所需的计算成本,ANNs的应用越发有限。在过去十年中,由于大数据、深度学习以及芯片处理能力的指数增长,DNNs已经成为语音识别、计算机视觉、自然语言处理和许多其他领域中机器学习最先进的算法。
深度学习是机器学习的全新领域,其受到人脑和多阶段数据提取的启发而形成。深度学习算法支持高水平数据提取,并且有助于自动化特征提取和模型分析或分类。深度学习关键是非监督式学习方法,其充分利用大量未标记数据。
深前馈神经网络(DFNN)、深度信念网络(DBN)、深度自动编码器网络、深玻尔兹曼机(DBM)、深卷积神经网络(DCNN)以及深递归神经网络(DRNN)是人工神经网络与深度学习相结合的实例。 这些模型已被广泛用于各种领域,如计算机视觉、自动化语音识别和自然语言处理。构建深度神经网络存在一个历史性的难题--“消失梯度问题”。
当使用反向传播算法进行权重优化时,大型神经网络很难用几层实现训练。因为随着网络深度增加,反向传播梯度在程度上迅速减小,因此初始层的权重改变缓慢。
1、深度人工神经网络
深度学习--机器学习的分支,企图模仿大脑皮层神经元层中的信息处理。人工神经网络主要用于识别声音、图像和其他数据中的数字表达模式。通常,一项非监督式预训练处理有助于初始化权重。
深度神经网络结构多种多样,本文主要介绍代表性类型,如深度自动编码器网络(DeepAuto-Encoder Networks,DAENs)、深卷积神经网络(DeepConvolutional Neural Networks,DCNNs)以及深度递归神经网络(DeepRecurrent Neural Networks,DRNNs)。
其中,DAENs包括DFNNs、DBNs、DRBMs以及DAEN,这些结构彼此之间存在差异,与DCNNs、DRNNs之间差异更大。 结构差异的存在决定了其在不同领域的应用不同。 以下进行详述:
1.1深度自动编码器网络
DAENs是由多层神经元组成的模型,逐个训练,并且能够堆叠尽可能多的层。我们将不同的深度学习结构,如DFNN、DBN、DRBM和深度自动编码器网络结合在一起。虽然这些结构之间存在差异,但一般来说,DAENs是将不同层神经元堆叠起来,用每层训练下一层,进行逐层预训练。
第一层神经元学习识别低级特征。 在图像中,它们可以识别基本形式,如线,边等。中间层检测更多抽象特征,用于训练网络的数据集决定其检测到的特征类型。若使用脸部数据集,中间层可以识别部分脸部特征,如眼睛、嘴巴和耳朵。最终层用于检测最抽象特征,如图像中的人、汽车和动物。
通常,训练分为两个步骤:第一步是分层预训练,第二步是微调。 与传统的训练神经网络相比,第一步也可看作一种智能的初始化方式,而第二步可以像反向传播那样简单,这主要取决于要训练的模型。
1.1.1制药
来自Hinton集团的GeorgeDahl领导的一个团队赢得了Kaggle于2012年组织的默克分子活动挑战赛,这表明深度学习在药物设计中的潜力很大,引起了药理学界的关注。默克的数据集包括目标和ADME(吸收,分布,代谢和排泄)活动。每个分子由特征列表表示。 DAEN有三个隐藏层,每层有2000个神经元,因此网络具有超过2400万个可调参数值。 生成的无监督预训练和辍学程序用于避免过拟合。
然而,小规模默克数据集,包括11,000个描述符,164,000个化合物和15个药物靶标,不允许评估深度学习在药物靶标预测中的价值。在2014年,Unterthiner等人在大型数据集(类似于制药公司的内部数据)中分析了其性能。ChEMBL数据库有1300万个化合物描述符,130万个化合物和5000个药物靶标。
将DAEN模型与七种目标预测方法进行比较,包括两种商业预测因子,制药公司部署的三种预测因子,以及可以扩展到该数据集的机器学习方法。 结果证明DAEN模型优于其他所有方法,跨越了使VS成为可能的门槛。这表明深度学习有成为工业药物设计领域标准工具的可能。
1.1.2生物信息
颜俊琦等人根据蛋白质序列构建了DAEN模型用以预测蛋白质的局部性质。一些预测的性质是溶剂可及表面积、跨膜拓扑、DNA结合残基、信号肽和二级结构。DAEN使用氨基酸序列作为输入来预测类标签。该方法有三个水平的层: 第一层是从氨基酸中提取特征;第二层是用于序列特征提取;第三层是不同层的人工神经网络。
深度学习结构可用于预测蛋白质接触图。加利福尼亚大学的一个小组使用了三水平分辨率步骤法。第一步,使用二维递归神经网络预测二级结构元素间的大致接触和方向。随后,为了调整这些元素,使用基于能量的方法预测链或残基之间的接触概率。第三步,整合时间和空间信息改进预测结果。
深度学习方法只能达到30%的准确度,但相比其他方法已是重大进步。 Eickholt和Cheng使用DAEN模型预测蛋白质残基之间的接触。该方法通过蛋白质结构预测(CASP)官方批判性评价以及群集精度和群集计数度量进行评估。相比残基与残基间的接触,预测器能更好的预测远距离接触。
Nature上发表的一篇更完整的研究表明了深度学习对蛋白质二级结构,溶剂可及性和局部骨架角度的预测能力。使用包含1199个蛋白质的测试集评估深度学习方法。DAEN模型预测蛋白质的二级结构准确性达82%,而溶剂表面积的预测值和实际值间的相关性达76%,骨架角度在8和32度之间具有平均绝对误差。DAENs也可用于评估蛋白质模型的质量,相比基于能量和评分功能的方法,该法取得结果更好。
Tan等人应用DAENs进行无监督特征构建和知识提取,分析乳腺癌数据库中的基因表达数据。构建的特征提取临床和分子方面有价值的信息。 这个DAEN模型学会了区分肿瘤样本,雌激素受体状态和分子亚型。
加利福尼亚大学尔湾分校的一个小组对DAENs进行训练, 使用由16M观察变体和49M模拟变体组成的训练数据来解释遗传变体的致病性。 这些基因在所有生物过程中都非常重要,而且DNA微阵列技术也进一步推动了该研究。数千个基因表达可通过一次性测量,并且产生大量数据。Gupta等人提出了一种深度学习结构,用以学习基因表达的结构,并将这种结构应用于基因聚类。
1.2深度卷积神经网络
Hubel和Wiessel发现了卷积神经网络,其灵感来自于视觉平层的结构,并且是由对小子区域敏感的图案复杂的神经元形成,创建用作局部滤波器的接收场。自然图像和其他类型数据与附近的像素或输入数据点之间存在强相关,这些接收场可以利用此相关性提取有价值的特征图案。
卷积神经网络模仿这种架构并且形成卷积层,其中每个神经元与上一层的神经元的子集连接。 例如,m层的每个神经元连接来自m-1层的3个神经元,因此每个神经元只接收来自输入空间子区域的信息。
自然图像训练的CNNs已学会识别像素中的不同图案。每个神经元如同过滤器般在输入空间的子集上起作用。顶层神经元从更多的像素中整合信息,因此它们可以检测到更多的抽象图案。CNNs用来识别不充分预处理像素中的视觉图案,甚至是具有极端变异性的图案,这种特点表现出对失真和变换的鲁棒性。
层的类型有三种:卷积,最大池和完全连接。 CNNs不限于二维输入数,如图像,还可应用于1,3维甚至更多维数据,例如用于语音识别的一维音频,3或4维则用于功能性磁共振成像。
1.2.1制药
DCNNs已被用于预测原子和分子水平的药物毒性。 Hughes等人发表了一项研究,描述了一种新的系统,用于预测活性环氧化物代谢产物的形成。这种方法需要结合其他工具来预测药物毒性。比如,该模型可预测环氧化物的形成,但不能评估这些环氧化物的反应性。
1.2.2生物信息
DCNNs可用于预测microRNA的靶标,该靶标调控与各种疾病相关的基因。Cheng等人提出了一种优于现有目标预测算法的DCNNs算法,该算法取得的灵敏度、特异度和准确度分别为88.43%、96.44%和89.98%。 DCNNs也可用于预测DNA和RNA结合蛋白的序列特异性。 Alipanahi等人提出了一种称为DeepBind的深度学习方法,即使是对体内数据进行培训或测试时,其性能也优于其他最先进的方法。
1.3深度递归神经网络
RNNs是一种包含递归连接的人工神经网络,因此网络代表一种有向的循环。RNNs可以呈现动态时间特征,因此它们可以通过包含递归连接的内部存储器来处理输入序列。这使得它们非常适合于处理具有未分段字符的笔迹识别或语音识别等任务。在前馈神经网络中,深度被测量为输入和输出之间的层数。 不幸的是,由于时间结构,这个定义并不能适用于递归神经网络(RNN)。 一个深度递归神经网络(DeepRecurrent Neural Networks,DRNNs是一种每层都有递归连接的深度神经网络。当网络更新时,信息在两个方向上上下流动,从而可以学习顺序信息。更新的顺序支持网络将信息整合在不同的时间尺度上,创建时间层级。
1.3.1制药
Lusci等人简要概述了DRNNs的一些应用,旨在预测分子性质,如水溶性。通常使用定向循环图来描述分子,然而,RNN通常使用有向无环图。因此,需要开发一些方法,考虑一组DRNNs来解决差异,该DRNNs法与分子图所有可能的以顶点为中心的无环取向相关联。 结果证明,DRNNs的表现不逊于其他方法。
过去50年来,由于这个问题导致的药物戒断,药物诱发的肝损伤对制药公司造成了巨额的损失。 深度学习方法已成功应用于预测药物诱发的肝损伤。 Xu等人使用四个大型数据集,比较不同的深度学习结构来预测药物诱导的肝损伤,并通过新型DRNNs模型获得最佳结果。甘氨酸的结构转化为主要的典型SMILES结构。
随后,SMILES结构中的每个原子按顺序被定义为根节点。最后,所有其它原子的信息沿所有可能最短路径进行转移。最佳模型的准确度、灵敏度、特异度和AUC分别为86.9%、82.5%、92.9%和0.955。
1.3.2生物信息
DRNNs可用于分析生物学序列数据,如预测蛋白质的亚细胞位置。Snderby等人仅使用蛋白质序列构建了一个DRNN模型,并且在预测蛋白质位置方面准确性达到92%,优于当前最新算法。 通过引入卷积滤波器,性能得到改善, 并且作者试验了一个关注机制,让网络专注于蛋白质的特定部分。
2、结论
DNNs代表 人工智能 史上的一个转折点,在某些任务中,能够匹配,甚至是超越人类能力。这些结果激励了Google、Facebook、微软、苹果和IBM等大公司将研究重点放在了这一领域。 如今,人类每天都在不知不觉中使用DNNs,因为在智能手机中有大量基于深度学习的应用程序。 例如,一些摄像机使用DNNs来执行人脸识别,而其他摄像机则使用基于深度学习的语音识别软件。
药理学和生物信息学是深度学习应用非常有趣的领域,因为该领域中的数据呈指数增长。在药物的发现、设计和验证过程中DNNs的使用可以提高性能并大大降低成本,潜力巨大。 然而,最有希望的领域是基因组学和其他肿瘤, 如蛋白质组学,转录组学或代谢组学。这些类型的数据很复杂,人类几乎不可能提取宝贵的信息。 因此,使用DNNs以提取有用的信息是必要的,可以了解DNA、表观遗传学变异和不同疾病之间的关系。