清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

雷锋网 • 3年前扫码分享

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题，邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技六家先锋企业，举办了一场线上云峰会。

作为此次活动的演讲嘉宾，星药科技创始人&CEO李成涛，以《人工智能在小分子药物研发中的应用》为题，对星药科技的AI新药平台做了介绍。

李成涛表示，总结来看，AI制药主要就包含两类问题，首先是分类与回归，知道一个新分子到底有怎样性质，其次是生成与设计，找出那些是好分子，那些是不好的分子。

目前人类已经探索出的化合物空间大概是10 ¹⁰ -10 ¹² ，但适合成药的成药化合物大概是10 ^60，这就像一个巨大的宇宙，我们知道的只有一个小太阳系，甚至是小地球。在这种情况下，人工智能这样的工具如何突破原有思维定式，找出比传统人类方法更好的分子，就成为了关键。

以神经网络的黑箱问题为例，人们往往认为人工智能不可解释，在AI制药研发当中，星药科技引入了信息瓶颈和剪枝技术，让黑箱问题变得更加可视化。

也就是，把分子丢进AI制药模型之后，不仅可以告诉我们毒性好不好，还可以找出是哪一个模块或哪一个基团导致。

把这个结果和图像信息拿给药物化学家判断，就可以知道分子是不是遵循思路，描述是不是契合科学原理，当分子不够理想的时候，也能知道是哪部分原因，从而可以有针对性的进行改结构。

像这样的路径和方法，在创新分子研发、找新可专利分子、分子衍生跃迁中都有极大的帮助。

以下是演讲全部内容，《医健AI掘金志》做了不改变原意的整理和编辑：

非常感谢大家留出时间参与这场活动，也非常感谢雷锋网的组织，能让我有机会和大家分享一下公司在人工智能以及小分子药物研发应用做的一些工作。

首先自我介绍一下，我是李成涛，2010年至2014年本科就读于清华姚班，2014年去麻省理工学院攻读博士学位。

自己的背景是计算机与人工智能的方向，但在波士顿接触了很多做药物研发科学家们，了解到很多与药物研发相关的应用，所以觉得人工智能在小分子药物研发上是有用武之地。

在获取博士学位后，我创办了“星药科技”，主要通过人工智能加速小分子药物研发。

在这里与大家简单介绍一下，具体如何去做的，以及这个领域有哪些痛点，同时人工智能是如何协助解决这些痛点。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

演讲分为如下几块：

1、简单讲讲新药研发的整个流程，以及面临的挑战；

2、人工智能是如何与新药研发结合，并加速整个新药研发流程；

3、小分子药物研发流程，即每一步该怎么做，如何通过人工智能算法提速整个流程；

4、技术总结与领域展望。

一、周期长、成本高，新药研发难题待解

首先讲讲新药研发面临的挑战。

众所周知，新药研发其实具有长周期的特点。我们简单把新药研发流程分为两大部分：

一是临床前阶段，包括早期化合物的发现、化合物的优化，所有的工作都是我们在人体外进行的，包括设计小分子之后，根据小分子在细胞、小鼠甚至猴子上做的一些验证实验，去观察这个小分子是否能够达到我们想要的效果。

临床实验之后，分子就可以进入临床实验阶段，在人体上进行一些实验。临床实验本身又分为一期、二期和三期，分别能够观察药物本身的毒性、有效性以及大规模人群中应用的具体效果，如果通过临床三期，药物就可以获批上市。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

但整个流程下来，过程非常漫长，总耗时达到了9-15年的时间，而临床前时间会花费4-7年，剩余就是临床实验时间。另外流程成本极高，平均一款新药从源头开始，到药物正式上市总成本是非常之高。

但这样一个成本极高、耗时极长的业务，回报率却相当低，这归因于每个步骤低成功率。

刚才提到临床和临床前阶段，成功率都低于10%，所以整体概率低于1%。

如果我们做了100个项目，可能最后只有1个项目成功，甚至没有一个结果，造成极低投资回报率。作为参考，在美股熔断之前我们进行投资的话，每年回报率大概是10%，但新药研发回报率大概为1.8%，可以想象这是一个不太优质的投资标的。

这也说明这个行业面临各种各样痛点，新药研发耗时长、成本高、回报率低特点，那星药科技能够提供什么样的解决方案呢？

二、 AI，能为新药研发带来什么？

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

首先是技术层面。每一个新药研发前期的模块上，例如虚拟筛选，我们的Hit Rate能比传统方法高出十数倍；包括一些小分子预测；还有可合成性筛选上，这在本质上解决了一些新药研发难点，同时极大缩短了从靶点开发，到临床前候选药物所用的时间。

4-7年或许能够将它压缩至1-2年，甚至一年以内。最终我们通过人工智能算法和算力，可以支持多条管线并行进行，也就是用同样的时间，同样成本，能够做到更多条管线。

其中一个药物研发的项目即是一个管线，如果我们可以支持多条管线同步进行，对药企而言，我们就可以布局更多管线，做更多尝试，这一点对整个产业界都是至关重要。

简单谈一下，人工智能和新药研发到底是如何结合？

人工智能近几年迎来一次爆发式增长，尤其是在2012年之后，即AlexNet之后各种各样模型、算力以及数据都获得长足进步。

以ImageNet为代表的整体数据规模提升，加上英伟达为代表基于GPU算力提升，还有模型复杂度质的提升，为模型本身能力带来新飞跃。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

这些提升让整个人工智能领域各式应用喷薄式增长，这边列举几个典型案例。

例如医疗影像，我们可以用AI辅助医生CT影像、X光影像诊断；例如无人车，Google Waymo、小马智行也都做得非常棒；

最后是Alpha Go，相信大家并不陌生，2016-2017年，大家都不看好Alpha Go可以打败李世石，但它做到了。

这些事情非常震撼，证明某些情况下人工智能比人类更好，即使是在一些人类已经钻研或者学习了上百年领域。

那AI在医药领域到底有什么样的应用呢？

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

刚才讲到，医药研发分为临床前研发和临床研发两部分，AI对两部分都可以提供对应作用，这里面分为不同Modality，即不同药物形式：有小分子，有大分子，有多肽，有PROTAC，有核酸类药物，包括最近Modena做的mRNA药物，也是一种Modality。

此外，临床实验设计上人工智能也能提供一系列帮助。

我们列举比较有代表性应用，包含活性预测，即小分子与蛋白质结合后，蛋白质活性是上调还是下调，这是非常重要的成药性参考指标；

还有ADME/T性质预测，即药进入人体之后，经过吸收、分布、代谢包括排泄对人体毒性有多强，所有这些性质预测，能够帮助很好判断小分子成药性质到底怎么样；

还有人工智能对药物晶型的预测，或者人工智能对药物制剂预测，解决了我们全行业的一个痛点。

所以整个小分子研发早期链条上，会发现很多不一样的应用，都可以用到人工智能。

今天简单讲讲人工智能怎么应用在小分子早期研发上，其中包含两个主要数据，一个是分子数据，一个是蛋白质数据。

为什么是这两个数据。首先因为小分子药物本身就属于小分子，所以分子数据非常重要；

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

对于蛋白质而言，因为小分子在体内发生作用机制大多会与特定蛋白质结合，调控蛋白质活性，以达到治疗疾病效果，所以小分子与蛋白质到底能不能结合，结合之后有没有生物活性，都是非常重要的指标。

其中对分子有很多种表达形式，例如一维描述符，或一维SMILES string，把它变成序列，又或者变成二维数学意义上的图，每个原子作为一个节点，每个化学键变成图中的边。

还有三维方式，小分子在三维环境中会有各种各样torsion，包括各种各样奇怪结构、构象变化，这也非常重要。

说完小分子，还有蛋白质。

蛋白质一维可以表征成一个氨基酸序列；也可以表示二维contact map，也就是距离图，代表三维结构中每一个氨基酸距离；再到三维，通过复杂折叠情况实现各种功能。

前一段时间大家关注到Deepmind工作，从整个蛋白质序列信息中直接预测三维结构信息，即用一维信息预测三维信息。

事实上，所有分子表征都可以用不同神经网络做编码，例如直接做全连接神经网络，直接适用于描述符；或者一个定长向量，可以直接预测；还有卷积神经网络适用于矩阵形式，例如蛋白质表征；再比如循环神经网络，做一维的序列信息表征；还有图神经网络，做图结构东西；再比如三维卷积神经网络，编码三维空间信息。

人工智能编码完成之后，就可以完成一些药物研发任务。

首先就是分类与回归， 知道一个新分子到底有怎样的性质，例如ADME/T性质，毒性、水溶性、代谢吸收性质。

给AI一个分子，预测出一个值，这个值代表水溶性是多少、毒性是多少，毒性本质上是分类问题，有没有毒性是0或1问题，水溶性是回归问题，一个连续值意思。

另外就是生成与设计， 在探索化学空间的时候，人工智能设计新分子不仅仅是去做分类与回归，判断哪些是好的，哪些是不好的。

目前，人类已经探索过的化合物空间大概是10 ¹⁰ -10 ¹² ，但成药化合物空间大概是10 ^60。

10 ⁶⁰ 与10 ¹⁰ 差了10 ⁵⁰ 倍，所以实际我们可以看到，整个药物研发未被探索的化合物空间，又或者成药的化合物分子空间是非常巨大的。

我们可以把它理解为一个巨大的宇宙，而我们探索过的仅仅是小太阳系，甚至是小地球。

在这种情况下，如何去探索系外的东西，无论是星系也好、小分子也好都可以利用人工智能，问题就是如何让人工智能设计比传统人类方法更好的分子。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

理解了分类与回归和生成与设计问题之后，就可以完成整个AI制药研发流程迭代。

三、填补蓝图，AI赋能研发流程

接下来简单讲一讲，人工智能结合小分子药物研发的流程。

首先是数据，我们有很多种数据，包括公开数据、商业数据，以及自己标注的数据，这些数据量级都非常大。

而且对应不用靶点特定项目，我们也有特定数据，即专项数据，处于不大不小量级，结合之后对整个模型可以起到很好微调效果。

这些数据丢到药物研发平台之后，能够看到经过训练以后，可以进一步精细调整，进入到整个AI制药主流程当中。

其中包含各种各样的项目类型，不管是First-in-class， Fast-follow， Best-in-class，Me-too还是Me-better，大家可以简单理解为药物研发一种项目，这些项目后边会走三条道路：

1、全新生成。 在疾病治疗时，存在一些已有分子，结构还不错、性质也不错，但因为专利原因需要避开原本专利限制，找新可专利分子。

此时我们会直接用模型库，几百个模型去生成一个虚拟、千万量级分子库，再进行下一步筛选；

2、衍生跃迁。 有些分子本身性质已经比较好，但可能需要进一步的优化；又或者有些分子已经成药，仍然希望看看他的IP空间是否还有其他道路，即衍生跃迁模型。

基于现有分子，进行部分改构，然后做一些新优化或生成，这样的生成同样是千万级别；

3、商业化合物库。 我们大概有几百万级化合物库，能够直接进行筛选，这些都是人类之前已经能够合成、能够买到的，能够很快获取需要的化合物。

其中很多化合物能够成药，只是之前没有发现，现在可以尝试在建立完整库之后，进入下一步虚拟筛选。

通过我刚才提到的很多方式，例如直接预测各种性质，又或者给一个小分子或蛋白质，预测小分子与蛋白质结合方式，就可能筛出几十个甚至上百个合适分子，最终合成完之后做出新实体分子。

接下来就是湿实验验证，即在实验室里进行试验，在细胞层面甚至动物层面看到底有没有效果，这些实验结果都会反馈到整个数据库当中，进一步帮助我们迭代模型。

也就是如果湿实验我们找到非常好的分子，就能进行各种各样验证；如果结果差强人意，甚至不太好，也能够返回到数据库，再进行进一步迭代。

在这方面，我们已经做出一些成绩，例如选一个中枢神经系统靶点，生成千万级别化合物库，筛选出百万级化合物库，并最终合成出五个分子。

经过湿实验检测，全部都是有很好的活性且有专利空间。其中五个分子中有两个分子来自于全新生成的De Novo模块，拥有全新骨架结构，因此具有足量专利空间；

另外三个来自于衍生物跃迁模块，根据现有阳性药进行改造，使得各种性质表现更好，也具有专利空间。

在商业化合物库中，我们从百万级别商业化合物中筛选出100个小分子，在后续湿实验验证中筛出了57个具有活性分子，即IC50小于10微摩尔。

作为对比，我们看看传统计算化学或传统筛选方式是什么样。

传统筛选方式概率或Hit Rate大概是2%-5%。这意味如果筛选出100个分子，大概只有两到三个或四五个有活性，而我们则能够筛选出57个有活性分子。

所以，相比于传统方法，我们能够把这一效率提高数倍甚至十数倍。并且在57个分子中，有34个是具有较高活性的分子，IC50小于一微摩尔，这些都可以用作下一步的检测。

总的来看，这一筛查过程被我们提速相当之多，因为传统方法找到个位数纳摩尔甚至皮摩尔级别分子需要一年甚至几年，而我们只需要短短几个月时间：甚至这次只用了两个月。

四、技术创新，如何让研发从量变到质变

接下来我给大家讲解一下简单的技术问题。

例如，我们是如何判断一个小分子能否与一个蛋白质结合的？

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

这是发表过论文的，当时我们使用蛋白质三维结构作为信息输入，这能够令我们在做小分子和蛋白质对接模型，考虑到小分子和蛋白质相互作用，尤其是三维结构上匹配程度，这个额外信息让我们指标有一个质的飞跃。

大家可以看两个图代表我们和主流算法的区别，绿色是bar，相对于其他主流算法要高出一截，所以小分子与蛋白质对接应用上，我们做得非常好。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

另外就是大家关心的神经网络黑箱问题。

谈到人工智能，大家往往会认为人工智能不可解释，即AI制药是不是也是黑箱问题，因为我们做预测的时候，向神经网络里丢一个分子，神经网络就会告诉分子式毒性好不好。

这样预测结果出来，我们也不清楚究竟是什么因素导致做出这样的结果，为了解决可解释性问题，我们引入了信息瓶颈和剪枝技术，进一步把信息可视化。

也就是把分子丢进去之后，系统会告诉我，如果毒性表现不好，是哪一个模块或哪一个基团导致，这个结果和图像我们也会拿给药化学家看，看看分子是不是遵循思路，整体描述是不是契合科学原理。

这个内容不仅仅让大家看，更重要的是，他能够给我们提供什么样 insights，最主要信息就是当我们发现分子不够好时，能够知道哪个地方的原因，以至于我们在改结构的时候，能够有针对性进行。

例如神经网络告诉我，因为某个基团存在毒性升高了，我们只需要改这个基团即可。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

再介绍逆合成问题，当系统给我一个分子之后，所有分子都在电脑中，如果我们需要检测，就把他合成出来，因为临床分子不可能在电脑分子中。

所以如何把分子合成出来，也是我们尝试通过人工智能去需要解决的问题。

尽管人类设计一百或者两百分子就达到上限用不到人工智能解决，人类专家就可以判断通量问题；

但现在是人工智能时代，人工智能设计每次都是上千万、上亿级别，人类专家是无法研究如此巨大通量的逐个可行性的。

所以寻找自动化，找合成路径或判别分子能否合成工具就显得十分关键，这一块我们也做了不少工作，刚才说的每一页都有自研论文支持。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

最后要一下展望。

人工智能和药物研发结合，只是最近几年的事情，所以我们希望人工智能够做更多的事情，包括模块效果提升、缩短靶点到开发PCC时间，在相同时间成本下尽可能多布局更多管线，这是目前能够做到的。

未来，我们希望人工智能为小分子研发研发，提供加速药物发现支持，这样能够大幅提高新药研发效率，使得管线更加多样化。

在整个医药产业里，我们希望促进人工智能与生物医药结合，以数据为中心进行药物发现，迸发出新力量。

这些工作最终都是为了患者。作为一个医药企业，首先的责任，就是让人们远离更多病痛，让新药触手可及，让人工智能找出更多治疗方案。

问答环节

Q1：小分子蛋白质结合一级人工标准清洗的数据库，是采购公开数据并进行清洗的吗？

李成涛： 分为这么几块：一个是公开数据，肯定是一大块，其实都是我们非常好的源头；同时还有一些商业的数据库，是我们可以购买到的；也有些渠道可以购买到一些更好数据；还有是自己人工挖掘。

这里面用数据挖掘方法来看，例如说专利文献里面数据点，或者是我们人工标注的数据，其实也占了相当一部分的。

再之后，例如一些合作数据集、私有数据集，因为现在自己也做很多实验，验证整个算法，所以在这边整个数据量也不断往上涨，这块其实有多种数据源，最后整合在一起。

这位同学提到清洗这点是很好的。清洗这件事情很关键，因为实际上大部分数据都噪音比较大，而且同一个小分子和蛋白质在这个数据里可能是这个结果，在另一个数据里可能是另一种结果。

这种误差的原因是不同实验室的环境导致的，就是不一样结果，又或者不同环境、不同人去操作，甚至不同protocol，做出来结果就是不一样。

这个时候怎样选取，甚至怎样舍弃需要一步一步尝试，最终我们希望结合、融合之后，能够让整个模型算法准确率得到比较好的提升。

Q2：分子表征方法是有开源的标准化方法，还是每家自行开发的？

李成涛： 每家肯定都会自己开发，我们自己也是开发了不同的各种各样的表征方法，因为里面提过，提取哪些特征这一点是非常重要的，直接决定了我们下游的任务，在有限的数据集中能不能达到非常好的效果。

所以这块我们自己开发了很多，也有一些标准化方法，比如说我刚才讲的把一个小分子变成一个SMILES string，就是一个序列的表征，这个东西其实用一些软件包就可以做到。

Q3：跨界做药的难点在哪？

李成涛： 我觉得这是一个挺好的问题，我经常会被问到。因为我自己是人工智能背景的，其实之前也是做纯计算机科学的。

高中当时也是化学和生物还都没学完就被保送，所以其实积累一开始是需要做很多的工作，包括跟很多人聊，读一些做药物研发的书，我有几本书就是我一直在18年的时候一整年在读的。

学习新领域，这个本质去理解新的领域在做什么，他们的痛点是什么，这需要很多工作。

当然，最快的方法肯定是跟人聊了。但是在一开始跟人聊会遇到很大的困难，大家会发现很难互相理解，

因为我们在说不同的语言。我在说人工智能或者计算机方面语言，但对于科学家可能在生物方面或者化学方面的语言，相互理解对方在说什么其实还是需要花一些时间的。这个时间花完了之后基本就能去做了，我觉得从背景来讲，其实是一个比较大的难点。

Q4：AI更适合用于De Novo还是改结构？

李成涛： 人工智能是可以做的，很难讲更适合于哪些场景，因为这两种场景我们都有成功案例。

刚才讲的CNS，叫中枢神经系统靶点，我们既有这种 De Novo分子，它能达到个位数纳摩活性；

也有改结构，根据阳性药稍做修改，拿到活性更好的分子，这都有成功案例，所以很难说哪个更适用，都可以用人工智能辅助合成。

Q5：目前业务的核心壁垒在哪里？

李成涛： 我核心壁垒挺多。首先是know-how，就是知道这件事情应该怎样去做，但实际会发现传统药物研发是一种流程，人工智能+药物研发+计算化学又完全是另外一种流程。

当不知道哪种流程才是最优化，就需要不断去尝试。尝试的过程，就是不断找新流程的过程，其实就会逐渐形成我们自己的壁垒。

算法也是壁垒，星药科技一直致力于推进整个算法前沿，我们同事在内很多人在这里面，不管是人工智能会议，还是科学期刊里面发表论文大概将近20篇。

我们在整个算法领域是引领全球的，所以如何在有限数据内把算法发挥到极致，这件事情也是我们自己的壁垒。

再其次，数据的壁垒，因为自己是做人工智能的，所以很早的时候就开始做数据清洗整合，怎么样融合才能让模型发挥最大效用的东西，

整合后的数据是我们另外一个核心壁垒，它能够让我们整个模型达到非常高的上限。作为对比，如果没有积累，直接把两边数据融合在一起，很难得到满意的结果。

Q6：NLP在我们的研发中，都在哪些场景发挥作用？

李成涛： 发挥作用还挺多的。任何有序列的地方，NLP都可以发挥作用。NLP本质上是什么？

本质上就是对于序列的编码和解码，对于序列的编码和解码，我刚才讲到的不管是分子也好，还有蛋白也好，他其实都可以表征成一个序列，只要这样，NLP就有用武之地，transformers也好，都可以在这个场景中发挥很大的作用。

还有比如说比较有意思的应用。这里延伸一下，刚才讲到的逆合成，给我一个分子，我怎么样预测，他可能是由哪些反应物反应生成的，这两个反应A+B能生成C，我given C之后我怎么样预测A+B？这个其实就是从一个序列预测另外一个序列的问题。

从一个序列预测另外一个序列本质上是什么？本质上就是一个机器翻译的问题。机器翻译其实按照现在已经有很多的工作，它可以做得很好。

Q7：AI发现药物最大的难点是在分子合成吗？

李成涛： 这个东西没有什么最大难点。我发现这个分子是新，但问题是分子还需要经过很多步骤，才能真正上临床。

里面包含怎么样去合成，各种各样活性，水溶性，ADME/T，在小鼠上面身上有没有药效，毒理是怎么样的，都需要去做检测。

这个东西本质跟传统药物研发没有任何区别，有点像游戏过关，几个关卡 Boss都已经确定，只不过人去打还是机器去打，本质上是一样的，所以没有什么最大难点。

Q8：除了用AI进行预测之外，也会用计算方法进行预测吗？

李成涛： 我觉得这个我们会用的，任何一个基于计算的方法我们都会去尝试。

AI的本质是什么？AI本质它就是一个工具，我们目的不是用这个工具解决问题，我们目的是解决问题，所以什么工具顺手就用什么。

有些地方AI能做得好，我们就用AI，有些地方FEP或者其他这种方式能做得更好，我们就用这种方式，其实选择很简单。我们在做药物研发的时候，最终的目的是要产生药，而不是用哪种方法去做，这个其实想跟大家去传递的。

Q9：商业合作模式是什么样的？

李成涛： 主要是做联合研发，我们会和药企这边进行联合的深度的合作研发，就是我们负责临床前这边，同时整个期间会跟药企进行深度的互动。在之后，由药企去把这个东西推上临床，大概是这样一个情况。

Q10. 有没有尝试AI+新靶点发现？

李成涛： 我们也有在做，切入点可以使用知识图谱做新靶点，这显然是可以做的。具体怎么做，每一家都不太一样。

我们找到新靶点之后，怎么样验证靶点是否正确，是否能够实现想象中的生物学通路或机制，我觉得这其实是一个科学问题，需要用科学，也就是用实验方式解决，不觉得可以用AI解决。

所以AI可以发现新靶点，但发现新靶点之后怎样验证靶点是否可以work，也是需要工作的。而且在这之后，基于新靶点再去设计筛选优化合成，最后检测，形成数据闭环仍然是AI可以完成的。

Q11：可不可以对中药用AI？

李成涛： 这个答案是肯定的，中药有自己的特点，例如活性比较多，合成比较难，但从理论上都是可以用的，而且我们现在也在看这个方面。

Q12：筛选通量能达到什么样的水平？

李成涛： 其实本质上我们计算的通量能有多少，只要投入时间和成本，通量多大并不是太大问题。首先， AI去做筛选的话，它整个计算需求量没有想象中那么大，其实就是我给一个输入，然后输出一个值。这种东西其实没有想象中那么难。

就是它的速度也非常快，这块无非取决于我们最终能有多少机器，多少云计算，所以我们直接去筛选的话，几百万上千万甚至上亿，这都不是太大问题。

Q13：筛选前生成的分子的质量是怎么把控的？

李成涛： 这其实有各种各样方法。例如可以用一些让化学家总结出的一些规则，这些东西可以帮我们筛选一些明显不正常的分子，这些会很难合成，最好直接放弃。

Q14. 人工智能在药物中的应用，目前市场行业前景怎么样？未来的市场发展趋势如何？

李成涛： 整个行业处于一个比较初期的状态，大家也在不断往前推各种新技术和新方法，在未来会有一个比较大的提升和飞跃。

首先整个行业里，国家非常鼓励创新药研发，同时创新药研发又面临刚时间长、成本高，投资回报率低等问题。

所以人工智能作为一个必要工具，以后会在药物研发中起非常重要的作用，像这种技术公司的整个市场行业前景也是比较看好的。

Q15 .用AI筛选药物的时候如何平衡活性和毒性？有时候有毒了，分子可能恰恰也是最有效的，修饰一下，就可能成为药物。

李成涛： 这个问题很专业，同时也非常在点子上，我们实际发现有的时候优质分子并不是毒性最低，然后活性最高，这只是一个理想状态。

实际我们往往会发现，要不然就是活性高，毒性也高，要不然就是活性低，但也没啥毒性。活性低毒性高的就不用看了，这就是毒药嘛。

整体来看我们需要做一些取舍，这和我们的适应症有关，例如癌症对毒性tolerance其实是比较高的，因为癌症本身是一个严重的疾病，致死率非常高，虽然稍微有毒一点，但能治病，就仍然是有意义的。

但如果是一个比较小的病，像感冒药吃了之后，发现对心脏有影响，就得不偿失了，这个东西跟我们适应症是有关的，确实不太一样。

Q16：新药研发过程是否需要专家经验参与，研发专家水平怎么样？

李成涛： 首先，肯定是需要专家参与的。需要专家给我们AI一些指导，给我们计算化学一些指导，尤其是他们的有些直觉其实是必要的。

我们专家团队同事之前是在美国跨国药企工作几十年，非常有经验，能够带着我们对AI有更好指导，同时能够对整个管线更好推进。

Q17：利用了 AI助力研发分子的成药性，如何知道这个药能治疗哪种疾病，或者针对哪个靶点？

李成涛： 这也可以预测和检测出来的。我们一开始就会确定，要针对哪一个靶点进行药物开发，然后根据靶点以及阳性药的三维结构信息，去做生成设计，包括合成筛工作，所以正常流程是先确定靶点，然后再设计药物。

Q18：新药研发周期长，如何获得稳定的收入？

李成涛： 不断地去做药物研发，因为我们能够在更短的时间内以更低的成本获得一些临床前候选，甚至往后推到临床，所以这个事情其实就是一个可以形成良性循环的商业模型了。

Q19：这个新药研发模式成熟大概得多久？

李成涛： 这个行业处于初期状态，但实际上发展速度也非常快的，在未来几年内应该会看到一些比较成熟的企业做得非常棒。

非常感谢大家今天的时间，也欢迎对药物研发以及人工智能在药物研发领域感兴趣的同学欢迎联系我们，加入星药科技各种各样全职和实习。雷锋网雷锋网 (公众号：雷锋网)

。

清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答

一、周期长、成本高，新药研发难题待解

二、 AI，能为新药研发带来什么？

三、 填补蓝图，AI赋能研发流程

四、 技术创新，如何让研发从量变到质变

问答环节

三、填补蓝图，AI赋能研发流程

四、技术创新，如何让研发从量变到质变