阿尔法狗打败了人类棋手 “阿尔法折叠”们成了科学家助手
[ 摘要 ]与“阿尔法狗”不同,“阿尔法折叠”的特长是通过基因序列来预测蛋白质的3D结构。
人工智能不仅仅在改变人们的生活方式,也在改变科学家做研究的方式。
近日,北京大学人民医院在其官网宣布,该院研究团队利用人工智能方法协助确定中国及美国初步诊断糖尿病人群的糖尿病分型,为糖尿病的精准治疗提供了理论依据。
人工智能学会下围棋、冲咖啡、打乒乓球就已赚足人气,干嘛要做协助确定糖尿病分型这种深奥的事情呢?因为,科学家需要它们。
正在成为得力助手
人工智能感兴趣的深奥领域,不光是协助医学专家确定糖尿病分型。
DeepMind公司之前公布的“阿尔法折叠”人工智能系统,就引起不少关注。与“阿尔法狗”不同,“阿尔法折叠”的特长是通过基因序列来预测蛋白质的3D结构。
这可绝非易事。因为DNA信息只告诉科学家蛋白质的基础构成即氨基酸残基的序列。氨基酸残基会形成长长的链状结构,预测这些链状结构如何折叠成蛋白质成了生物学领域的大难题——蛋白质折叠问题。
偏偏预测蛋白质折叠对科学家而言非常有用:不但有助于理解蛋白质形状在人体中扮演的角色,还有助于诊疗与蛋白质错误折叠有关的疾病,如阿尔兹海默症、帕金森综合征等。
传统做法是靠大量实验来确定蛋白质结构。DeepMind公司的解决之道是,对深度神经网络进行训练,使“阿尔法折叠”能够根据基因序列数据来预测蛋白质的物理特征,包括蛋白质内部两个氨基酸之间的距离,以及连接氨基酸化学键的角度。最终实现精准预测蛋白质3D结构。
与北京大学人民医院的科研团队一样,不少科研人员开始把人工智能当做得力助手。
北科院北京市计算中心副研究员裴智勇告诉科技日报记者,他已经与一些医院合作,运用人工智能算法进行了几项医学领域的研究。
其中一项研究是判断肾病病人是糖尿病肾病还是非糖尿病肾病。因为二者虽然都是肾病,但致病机制不同,治疗方法也不同。传统的判断方法是做肾穿刺,但这种方法比较痛苦,成本也高。裴智勇介绍,他们希望通过凭借一些医学检查指标来直接判断。
“我们构建了一个机器学习模型,运用人工智能算法对病人的几十种检查指标进行大数据分析,来预测是糖尿病肾病还是非糖尿病肾病。” 裴智勇介绍,在此基础上,他们又筛选出关键指标,最后实现仅凭借8个检查指标就达到95%的预测准确率。
努力拥抱人工智能
其他领域的科研人员也在努力拥抱人工智能。
南京大学现代工程与应用科学学院教授李涛正尝试将深度学习算法应用在超构光子技术领域。
“超构光子技术是通过每一个纳米结构单元对光的调制来实现特定的光学功能。”李涛介绍,以往在设计纳米结构时,需要人工设计一系列复杂的参数。
李涛现在尝试,将已知的一套参数输入到深度学习网络中进行训练,使其学习参数的规律,然后不断调试,最终通过深度学习网络来设计更多的参数。
在李涛看来,当前基于纳米结构设计的超构材料光子学提供了调控光场的强大手段,它正逐渐从物理演示走向技术应用。而对于实用化的光学器件,需要满足诸如工作效率、工作带宽、成像分辨率、像差和色差等一系列性能参数要求,且不同使用场景对相关参数有不同要求。人工智能算法能大大提高设计效率,在多参数空间的优化上具有巨大的优势。
“人工智能算法的引入将对超构光子技术发展,乃至变革光学技术的开发,如无标记超分辨成像、无透镜成像等起到不可估量的推动作用。”李涛说。
南京大学化学化工学院副教授李承辉前不久看到一篇科研论文,介绍如何用人工智能算法来推荐分子的合成路线,这给了他不少启发。他正在考虑如何用人工智能帮助他做化学研究。
李承辉告诉科技日报记者,他最近发现一种新的分子内成环反应,希望了解这种反应是否在其他分子内也存在。“要检测这种化学反应是否具有普适性,需要用不同分子做大量实验才行。” 李承辉说,假如能利用人工智能缩小目标范围,将大大减少他的工作量。
在知道精确结果的前提下,可以通过输入关键字在化学数据库去搜索相关分子。问题在于,眼下并不知道精确结果。只知道满足这种化学反应的大致条件,比如分子具有某种特殊的功能团等。因此李承辉期待将人工智能算法引入化学数据库中:只告诉化学数据库这种分子的大致特征,让数据库去智能搜索、筛选匹配的分子,缩小目标范围。
帮助科学家在大数据中“采矿”
不过,目前来看,像“阿尔法折叠”这样针对特定科研领域的人工智能应用凤毛麟角。普通科学家要想得心应手地用上人工智能这个工具,还是有一定门槛。
人工智能开源算法,是李涛实现想法的途径。他和学生已经找到一种开源算法,但这种算法对超构光子技术研究而言并非最优,因此需要不断调试参数才行。
李承辉则打算找人工智能领域的专业人士聊一聊,学习一下怎么将人工智能算法应用到自己的研究当中。
裴智勇则幸运得多。他的研究领域是生物信息学,是将计算机技术应用于生物学领域的交叉学科,因此裴智勇对人工智能算法的关注比较早。在具体应用中,开源的人工智能算法如支持向量机(SVM)和随机森林等为他提供了不少帮助。
“这些算法本身是开源的,我们只需要根据自己的研究去修改其中的关键参数。也就是说,参数训练是我们团队自己来做。”裴智勇说。
至于人工智能在科研领域的应用前景,不少人非常看好。
寒武纪公司总裁陈天石在接受科技日报记者采访时说,人工智能的本质是提供求解问题的方法,比如在非常大的选择空间当中做出最优选择。这是科学研究经常会遇到的问题,而人工智能恰恰可以帮助科研人员更快更好地解决此类问题。
“未来的人工智能可能会替代科学家的部分思考过程。”李承辉说,比如在化学领域,人工智能可以基于大数据帮助科研人员分析化学材料的性质、特征,向科研人员提供多种合成路径作为参考,并推荐低廉合成某种化合物的最优路径等等。
裴智勇的判断是,人工智能算法在科研领域的应用会形成一个产业。以基因领域为例,未来的基因组数据积累和增长速度越来越快,靠人工去处理、计算海量数据是远远不够的。这就需要人工智能算法帮助科研人员在大数据中“采矿”,催生有价值的发现。
“人工智能技术迅速更新迭代,仅靠科研人员自己摸索开源算法是不够的。” 裴智勇认为,今后可能会出现不同科研领域的团队与人工智能领域的团队合作,前者实现业务层工作,后者实现技术层工作。同时,科研领域可能会涌现出更多“阿尔法折叠”这样的人工智能应用。