顶流华为云,为何也要加码AI新药研发
近日,权威机构IDC发布报告《IDC PeerScape: 中国新药研发中新兴信息化技术应用实践与案例》。
其中,华为云联合高校进行的计算机辅助药研案例,被该报告列为新药研发机构与专业的生物计算技术企业合作开展新药研发的最佳实践之一,成为了所有新药研发项目的参考范本。
至此,华为云的AI药物研发布局也逐渐展露雄心。
更早之前,其还就得到中科院上海药物研究所的青睐,将AI能力和计算药物、药物研发进行结合,推出了基于 ModelArts平台的药物联邦学习服务。
此外,在2020年4月,华为云还发布了迄今为止全球最大的免费公开新冠药物虚拟筛选数据库——“神农项目”。
云+AI技术出身的华为云业务,为何频频在传统的生物医药行业出招,在市场规模远超消费行业的制药产业,其又在筹划着多大的战略意图。
近日,雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题,邀请燧坤智能、英飞智药、宇道生物、西湖欧米、华为云,五家先锋企业,举办了一场线上论坛分享。
作为此次论坛的嘉宾,华为云医疗智能体产品总监孟鑫,以《华为云人工智能在生命科学领域的探索和实践》为题,进行了演讲。
孟鑫表示:药 物研发非常复杂,包含很多环节,从最开始药物发现到临床前,到后续药物流通,包含着很多复杂环节。
以AI新药研发为例,不只要关注药物分子设计和筛选,背后需要药物研究、基因临床和医学影像等等的支撑。
其中,华为云只聚焦在几个点:药物设计、药物大规模虚拟筛选、药物协同性、药物重定向维度,集合云计算的能力,在云上做智能分析和结构预测,能让这些准确度提升一个新水平。
目前,华为云和国内单细胞测序平台合作,提供数据算法和算力,协作做单细胞测序数据云上开发和边缘计算。在原来模型基础上,做了大量空间搜索和运算,大概能提高2~3倍分析速度。以前需要使用100个算力,现在只需要20个算力就可以实现单个样本分析,对10万个、100万个样本同样也能够提升效率。
以下是演讲全部内容,《医健AI掘金志》做了不改变原意的整理和编辑:
大家好,我是华为云医疗智能体产品总监孟鑫。今天给大家分享华为云人工智能在生命科学领域的探索和实践。
演讲主要从三个方面来进行:
第一个方面,华为云在人工智能方面的技术研究。
第二个方面,华为云在人工智能的发展趋势。
第三个方面,华为云在生命科学领域的一些探索和实践。
华为云长期扎根于AI基础研究,覆盖计算机视觉、语音语义和决策优化三大AI方向。
在华为云的未来规划中,AI的发展主要聚焦在模型高效、数据高效、知识高效、算力高效思维的重点。
此外,针对产业中的一些核心问题,我们又提出6大基础研究计划。
1. 面向大模型的模型摸高的计划;2. 面向小模型的模型瘦身的计划;3. 面向多模态学习的数据魔方计划;4. 面向小样本学习的数据冰山计划;5. 面向通用知识抽取的万物预示计划;6. 面向新学习范式的叙事合一计划。
这些计划产生许多研究成果,包括自动化学习与训练模型等,而将来这些成果也会采用即插即用的方式部署在华为云。
首先介绍一下这张图片,也就是目前华为云的AI能力,可以看到左边,国际大赛上的最佳论文上有很多提名,论文数量上已经进入世界第一梯队。
围绕刚才提到的几个创新和计划,我们在计算机视觉上的很多比赛都得到第一名,在语音、语义识别上和决策优化上拿到了很好的成绩。
整体来看,目前华为云的AI战略,主要围绕着感知、认知和决策三大方面进行,像感知图像分类、目标检测、预训练模型、实力分割都已经集成在ModelArts平台。
此外,华为云在去年还提出了知识计算,AI在认知之后,就需要做相应的决策,也就是运筹优化过程,中间的技术主要涵盖强化学习和智能控制。
这里首先介绍一下,华为云的ModelArts平台,该平台沉淀了华为云的顶尖AI技术,目前主要分为两层:
基础层是ModelArts平台,提供数据和数据处理,以及模型训练、管理、推理、部署等服务。
此外,我们还在ModelArts平台上,提供了很多的行业套件,帮助各个企业开发更适用自己的AI算法和模型,此外还有一些行业顶尖的算法,可以很方便开发相应模型,针对训练数据做相应部署。
ModelArts目前适用的芯片也是,华为自主的AI芯片,计算能力非常高,在很多大规模作业可以做到40096卡单任务并行。
介绍完ModelArts平台之后,我再分享一下近些年人工智能大概发展趋势。
第一,从小模型到大模型,过去10年内,AI算法对算力需求提升了40万倍左右;
第二,从全监督学习到自监督学习10年内,自监督学习全年度差距缩小了90%以上;
第三,人工智能与科学计算进行交汇,从模型、算法、软件和硬件,4个层面上都有一个交汇点。
而这些变化,也在生物医学、工业、气象、能源等众多领域制造深刻影响。在AI建模、AI求解、AI框架、AI视频、AI芯片适配上,也增加了许多的人工智能可解释性。
首先,分子动力学层面可以进行大规模分子模拟;物理学上,可以通过神经网络求解确定方程;在蛋白质三维结构预测中,AI可以预测蛋白质三维结构。
根据我们的总结,这些数据中心和生产力迭代过程主要分为几个阶段:
第一,技术应用做局部探索;
第二,技术发展与社会环境相互碰撞;
第三,技术发展与社会环境相互促进。
现在正处于人工智能进入核心生产系统的过程,目前,华为在人工智能行业大约落地超过600个项目,进入核心业务的系统也超过30%。
接下来重点介绍:华为云人工智能在生命科学领域的探索,其中主要包含三个方面:智能基因组分析、智能药物研发、智能医学影像研发。
首先介绍基因组分析,基因组分析数据量和计算量非常大,后期解读基因组数据也非常困难,里面包含基因/蛋白质组学等等,这都属于智能基因分析范畴。
因为一个基因组数据就有几百个G大小,而如果涉及到超过1万人,乃至10万人,数据量就会更大,这种情况就需要大数据能力。
所以我们希望结合华为云大数据能力,加上智能分析算法,帮助基因组领域做分析和研究。
第二点,新药研发。
大家知道药物研发非常复杂,包含很多环节,从最开始药物发现到临床前,到后续药物流通,包含着很多复杂环节。
其中,华为云只聚焦在几个点:药物设计、药物大规模虚拟筛选、药物协同性、药物重定向维度。
集合云计算的能力,在云上做智能分析和结构预测,能让这些准确度提升一个新水平。
最后医学影像,这是AI技术应用最早领域,今年审批了十几个AI医疗器械三类证。
这个领域之所以非常火爆,就在于数据的标准化,因为人工智能是80%数据+20%运算,数据量越大,AI准确度就会越好,如果能够提升智能医学影像研发平台和算法,降低人工操作复杂度,同样也可以提升医学影像的准确性。
接下来详细谈谈基因组领域。
我们目前开发了一套自动建模的工具,利用这套工具可以在很少的代码开发情况下,就能做多组学分析。
此外,像癌症亚型分类、靶基因预测、细胞发育预测等多种场景,我们的自动建模工具也都有做过相应的案例。
而在基因测序里,除了测序以外,更重要还要对数据分析,也就是解析mRNA,把电信号转成基因序列信号。
特别是三代测序,以前的工具速度和精准度都比较有限,而现在Fast-Bonito工具使检测精度有了大幅提升,但检测速度很慢,华为云也基于自己的研发力量,将这个速度提升到5倍以上。
还有新药研发方面。
从去年2月开始,我们做了一个新项目:全球最大的新冠药物筛选数据库及可视化平台。
此外,新冠肺炎也可以通过医学影像方式去检测这种病灶,推动决策,华为云可以做到三维病灶空间量化展示,在几十秒就会有结果,提升检测速度。
人工智能和云计算上,刚才已经做了大量的介绍,目前我们的AutoGenome工具,已经可以做到数据的自动增长、自动的套餐选择和神经网络架构搜索。
所以在新药研发可以提供很多的帮助,例如生信工作人员就不用再学习大量的底层技术,可以很方便用这个框架去做一些科研的发现。
针对单细胞组学的研究,研究配套组织和分子在结构和空间上的关系,通过我们的框架把数据整理标准的训练数据,然后再做各种训练。
这就像根据单细胞阳性分离的精度,按照细胞的发育周期进行分类,分类的精度相比于传统方法有一个比较大的提升,至少达到20%以上。
第二个案例是人工智能和单细胞测序,以及云计算的结合。现在单细胞也比较火,以前大家习惯所有的细胞一起去测序,现在随着越来越精准。
在国内就有一家单细胞测序平台,我们通过和他们一起合作,他们提供线下技术和服务,我们在线上也用华为云平台来提供数据算法和算力,一起协作,做单细胞测序数据在云上开发,和边缘计算。
刚才有介绍Fast-Bonito这个工具,那么为什么三代测序的结果要比人工智能方式比较好,因为它本身就是一个一个电信号波形图。
这样就可以用AI方式去学习他们之间的关系,例如AA、TT、ATP的波形就很不一样,波谷和波峰有很大差异。
那么通过对原来序列,做了很多标准的referenc之后,也就可以把模型训练的更精准。
同时,华为云还在原来模型的基础上,做了大量的空间搜索和运算,用华为云芯片,大概能提高2~3倍分析速度。
目前这个案例主要是一个样本的情况,以前是需要使用100个算力,现在只需要20个算力就可以实现一个样本的分析。
同样当我们面对10万个、100万个样本同样也能够提升效率,节省费用和时间。
然后是药物筛选方面。
从去年2月,国内疫情爆发没多久,我们就和国内几所高校一起进行新冠肺炎药物筛选工作。
当时我们在云上主要运用超过15000个GPU进行药物筛选,将原来需要两个月时间,21个新冠靶点,8500个上市药物的筛选工作缩短到两天,筛选工作效率提升了30倍。
当时我们在2月初找到了5个候选药物,有两个进入了临床实验过程,后来因为国内疫情得到了很好的控制,所以临床试验也就逐步放缓了一些,而我们的研究后来也得到了红点奖,发表在JCIM期刊。
我们主要给这个项目命名为神农计划,主要是寻找和筛选大量的已知药物分子,因为这些分子的物理和化学性质都已经比较稳定,相当于老药新用的过程。
下面再介绍一下,华为云在医学影像方面的工作。
这方面主要介绍一个脑部神经元链接的案例,也就是脑科学
这个研究过程非常复杂,小如斑马鱼这么大的生物,个体非常小,大脑尺度只有0.5毫米左右。
但它的神经元突触数目却非常多,达到108,如果把这些神经元都链接起来,就需要大量的数据标注工作。
大家知道人类基因组数据大概有109左右,两者做类比,就相当于要把人类的每一根细胞都要链接起来。这个过程中完成一个大脑的神经元重建,一般一个标注员大概需要125年的时间。
而利用我们的AI算法和ModelArts平台可以实现集群和大规模分布训练,将原来的需要125年的工作量,缩短到10天内完成,而且利用的资源也非常少。整个神经元重构费用减少为原来的1/77 ,准确度和召回率都在95%以上,是一个非常大的突破。
目前,我们还只是研究一个斑马鱼脑部神经元这样小范围的数据,以后如果要研究像老鼠,像人脑这样更复杂的数据,都会有一定的借鉴意义。
那回到我们为什么要研究这样的数据,未来的智能究竟是什么样子,就是来源于像人脑这样的研究,怎样实现控制,怎样实现反馈,我们的神经网络研究,其实也就是模仿脑部神经元的构建,回归生物学的本质。
这里列举一个和医疗器械公司合作的案例。
华为云和微清医疗的合作案例,微清本身就有眼底诊断系统,可以通过光学做青光眼识别,以及糖尿病疾病的诊断。
这其中,主要是利用华为云平台,做数据标注管理和病人应用,帮助医生更方便做诊断,以前可能需要用半小时,现在也就几分钟时间,就能完成青光眼疾病诊断。
总结与展望
总结与展望
首先,大算力将是AI成功的基石。
以前神经网络做到三层就很厉害,现在往往可以做到几十层或几百层,模型也变得很大,对于算力要求也非常大。
我们猜测AI系统发展程度是可以利用数据和消耗算力来衡量,与卡达尔肖夫指数类似,AI智能化程度对算力需求会呈指数级增长。
近些年,我们国家也在建设AI计算中心,AI算力作为一种基础资源需求,开始被社会所需要。
其次,软硬件一体化将是大势所趋。
软件发展一定程度会受限于技术的瓶颈,随后就需要依赖硬件进一步发展,而硬件达到一定水平后也需要更好软件架构。
之后,AI与科学计算会深度融合。
AlphaFold2将人类98.5%的蛋白质做了预测,大家越来越认识到人工智能跟科学研究密切相关。
最后,深度整合医疗资源,全面赋能行业创新。
以AI新药研发为例,不只是要关注药物分子设计和筛选,背后需要药物研究、基因临床和医学影像等等的支撑。
Deepmind就表示,如果一个临床试验能够得到基因组学支撑,它的成功率就会提升两倍。
受益于基因组学、药物靶点发现和基准研究,AI技术已经开始在基因、药物、临床等更多方面做分析工作。
这其中加速各方融合,促进数据资源的转化使用也非常重要,在国家管控越来越明确之后,大家能够更深入的合作,一同探讨数据方面的联合创新,加速应用落地。
问答环节
Q1:1.在AI制药浪潮中,华为更侧重怎样的角色,是算法提供方,还是算力提供方,具体深入到pcc和临床试验,又有哪些合作点?
孟鑫: 华为云作为基础设施的算力提供方,安全培训这块做的非常好,也拿到了2799认证,同时标志着我们在医疗领域有非常大的决心。
但华为云并不是所有的算法都做,我们希望把这个领域打开,做一些案例被大家看到,大家可以在我们的运营商开发自己的算法,或者也可以用我们的算力和算法。
华为云也只是提供了非常少量的算法,希望大家合作一起做一些算法,我们也愿意和大家一起去探索。
对于专门做医疗AI公司来说,华为云整个体量相对来说还是大一些,我们更希望去做一些大规模的事情或者基础方面的服务。
例如,有一些公司想做模型开发,但是没有很好的基底模型,大模型需要做1万亿级别参数的训练,训练需要几个月的时间,小公司肯定负担不起,华为云可以把基础部分做了。
华为云今年也发布了大模型,训练了几个月的时间之后做出来,大家可以去华为云运营的公众号可以搜到相关介绍。
有了大模型想要针对某一个积分领域去做出自己的优质、特点和数据,再做一些训练可能会更容易,可以用少量的几块算力,就得到好的结果,站在更高的级别。
我给到大家一个提前消息,华为云在今年9月份会有更多的基础服务发布,实验这一块就是收费者招募、培训、加速的AI研究,都可以通过这样方式去做。
华为云和国内一些顶尖的医院有合作,在临床试验的数据有很多的发现,而且有相应的文章发表,大家有兴趣可以去看看。
Q2:请问计算服务如何收费?目前的价格水平如何?下降趋势如何?
孟鑫: 大家可以用CPU的算力或者NGO算力,目前来看收费比较贵,只有大企业才有实力做出来,但是AI算力费用会逐渐降低,再加上国内芯片受到一些限制,国际上短缺,技术发展持续的迭代和更新,大部分会持续下降。
同时,意味着人工智能技术受益于成本的下降,会越来越普及被大家所接受,每一个人都能够用得起,都能做AI。
Q3:看到AI新药研发企业,也在卖药物筛选服务收费模式,这和咱们的计算服务有没有合作点,配合起来帮助药企加速新药研发?
孟鑫: 国内和国际上有很多AI药物研发企业和华为云都有比较深入的合作。
一方面是华为云基础的云资源,在本地区构建这种集群很难达到大规模的诉求,还需要花费很大的精力去运营资源,在云上可以很好的来解决这个问题,想用的时候就用,不想用的时候就关掉。
另外,云上有各种各样的AI模型,对AI新药研发企业来说有很多好处,因为可以帮助他们去做对外提供服务。
我们内部也在开会研讨,在华为云上有很多这样的案例,我们自己做或者有一些药企会找到我们想一起合作,我们愿意帮助他们把新药做出来。
华为云与其他药物研发企业不太一样,有些药物研发企业有自己的定位,只提供相应的研究服务。
华为云从现在定位来看更倾向于做平台,希望能够帮助大家更好的去服务企业,也可以配合大家去做一些创新。
Q4:请问系统架构中有哪些方面是为生物计算专门设计或优化的?
孟鑫: 刚才我举了一个例子,利用AI来加速三代测序过程,在模型空间搜索上做了相应的优化,让模型会更小一些,在计算时间上速度有提升。
另外提到过的一系列工具,也是专门针对经营组织和多组学的特点去研发,有基因调控的关系,并不会因为两个名字比较相近就导致基因功能一样,或者就能够发挥作用,看似没有关系的两个名字实际上是有一些意义的。同时,华为云在神经网络上也有自己的设计。
Q5:华为云AI在慢病早筛领域是否有相应的案例?
孟鑫: 有的,和北京技术所教授其实有一个合作,利用AI方式去研究食管癌案例,大家感兴趣可以去搜一下。
Q6:人工智能可以对早期诊断疾病、有效开出药物、监测患者对处方的依从性做出判断吗?
孟鑫: 可以的,临床辅助决策AI也发挥了很大的作用,国家卫健委也在临床辅助决策上面有一个全国性的试点项目正在开展中。
利用人工智能对电子病历做相应分析,进行学习和检查疾病诊断的病变,可以给出药物治疗的方案。
需要做很多诊断工作,包括现在医保上面提到病案首页,我们的合作伙伴也有一些联合方案。
Q7:人工智能生物学中有什么核心难点?
孟鑫: 用人工智能方式去解答生物学方面问题,就需要大量数据,如果数据量比较小,那学习出来的模型就不具有代表性,结果不会太好。
以前做统计模型或者记录模型重要的是保持准确,现在越多数据才能把问题表述的更加有特征。
把人类当成一个婴儿而言,从小就对他进行培养,如果只培养某一方面技能的话,他另外一方面肯定是失衡的,所以全面的数据是最核心的。
另外,智能模型和人工智能模型融合起来,就是计算和人工智能来到了一个历史性的交汇点。希望这种模型的机制,物理、化学或者数学方面,能更容易理解得到的结果,把两个技术联系起来。
知识图谱也有很多难点,特别是针对我们生命科学领域的知识本身,要用一个图去标记所有数据,同时还要把他们的依赖条件表述出来。
Q8:和药研所合作现在是什么情况?
孟鑫:上海药物所在这个领域算是国内的Number one,专门做药物研究的,所以我们和国内的院校是有合作的,同北大、深圳和上海的一些高校进行科研合作,非常欢迎院校的老师同我们进一步合作。
在华为云有专门针对高校扶持计划,能够让大家去做相应的研究和资源。
Q9:目前在AI新药研发上,看到咱们大多数进展都在新冠领域上,有没有其他案例介绍一下?
孟鑫:有的,现在还不太方便说,后续也会跟大家再分享我们的一些进展。后续也会跟大家再分享我们的一些进展。我就回答到这里,谢谢雷锋网 (公众号:雷锋网) 。 雷锋网
。