现在的你可能无法想象,未来合成生物学与人工智能会对世界产生哪些影响 - IT思维
公众号/ ScienceAI(ID:Philosophyai)
编译 | 白菜叶
劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory,LBNL 或LBL)、美国空军研究实验室(Air Force Research Laboratory 缩写AFRL)等机构的研究人员合作,对人工智能在合成生物学中的应用现状、影响、挑战以及潜力与前景进行了较为系统的阐述。
该综述以「Artificial Intelligence for Synthetic Biology」为题,于 2022 年 5 月发布在《Communications of the ACM》,以下为文章内容全译。
在过去的二十年里,生物学发生了巨大的变化,使生物系统的有效工程成为可能。基因组革命提供了对细胞遗传密码(DNA)进行测序的能力,是这一巨大变化的主要驱动力。这场基因组革命带来的最新发现和工具之一是能够使用基于 CRISPR 的工具在体内精确编辑 DNA。
遗传密码的更高层次的表现,例如蛋白质的产生,被称为表型(如图 1)。高通量表型数据与精确 DNA 编辑相结合,为将底层代码的变化与表型联系起来提供了独特的机会。
图 1:组学数据体现了细胞遗传密码(DNA)的高级表现。(来源:论文)
重要见解
合成生物学(Synbio)旨在设计符合规范的生物系统(例如,产生所需数量的生物燃料或以特定方式对外部刺激作出反应的细胞)。为此,合成生物学家利用工程设计原则利用工程的可预测性来控制复杂的生物系统。这些工程原理包括标准化的遗传部分和设计-构建-测试-学习(DBTL)循环,反复使用以实现预期结果。
Synbio DBTL 循环使预期的四个阶段适应该学科,如下所示:
1、设计:假设可以实现预期设计目标的 DNA 序列或一组细胞操作。
2、构建:在生物系统上实施设计步骤。这主要涉及 DNA 片段的合成及其成功转化为细胞。
3、测试:生成数据以检查测量的表型与预期目标的接近程度,并评估任何脱靶或不可预见的副作用的影响。
4、学习:利用测试数据来学习比随机搜索更有效地推动循环达到预期目标的原则。这通常包括对由不可预见的脱靶效应引起的故障的诊断。人工智能 (AI) 可用于为下一组设计提供信息,从而减少实现预期结果所需的 DBTL 迭代次数。
更具体地说,Synbio 通常涉及基因组水平的操作,以推动细胞产生特定产品或以某种方式表现。
我们是一群 AI 从业者,希望在各种应用中将 AI 原理应用到 Synbio 中。在本文中,我们试图为其他 AI 从业者提供该领域的潜力、一些初步成功以及将 AI 技术应用于 Synbio 领域时面临的主要挑战的概述。
我们的目标是激励人工智能从业者应对这些挑战,并促进对未来社会产生重大影响的学科的参与。当大型数据集和技术爱好者相遇时,人工智能出现了重大突破。图像和自然语言处理就是很好的例子。我们相信生物学,特别是 Synbio,为这两个领域的突破提供了无与伦比的机会。
Synbio 的潜力
Synbio 已准备好对世界上的每个活动部门产生变革性影响:食品、能源、气候、医药和材料(见图 2)。Synbio已经生产出胰岛素,而无需牺牲猪来换取它们的胰脏(在前一阶段,作为基因工程)、合成皮革、从未见过蜘蛛的蜘蛛丝制成的大衣、抗疟疾和抗癌药物、味道像肉的无肉汉堡包、可再生生物燃料、不含啤酒花的啤酒花味、灭绝花朵的气味,用于化妆品应用的合成人类胶原蛋白,以及消除携带登革热的蚊子的基因驱动。许多人认为这只是冰山一角,因为改造生物的能力提供了看似无限的可能性,而且该领域的公共和私人投资水平不断提高(见图 3)。
图 2:Synbio 可能会影响世界上的每个活动部门。(来源:论文)
此外,随着人工智能进入第三波浪潮,专注于将上下文整合到模型中,其影响 synbio 的潜力也在增加。众所周知,生物体的基因型与其说是表型的蓝图,不如说是一个复杂的、相互关联的动态系统中的初始条件。
生物学家花费了数十年的时间来构建和管理大量属性,例如调节、关联、变化率和功能,以表征这个复杂的动态系统。
其他资源,例如基因网络、已知功能关联、蛋白质-蛋白质相互作用、蛋白质-代谢物相互作用以及用于转录、翻译和相互作用的知识驱动的动态模型,提供了丰富的资源来丰富具有上下文的 AI 模型。模型可解释性对于发现新颖的设计原则也至关重要。
这些模型为生物学家提供了一个机会来回答有关生物系统的复杂得多的问题,并建立综合的、可解释的模型来加速发现。知识和资源的增加在 Synbio 出版物的数量以及 Synbio 的商业机会中显而易见(图 3)。
图 3:学术(a)和商业(b)领域的显著增长为人工智能在合成生物领域的应用提供了丰富的信息、数据和背景资源。(来源:论文)
人工智能及其对 Synbio 的当前影响
与影响合成生物领域的潜力相比,人工智能对合成生物的影响有限。我们已经看到了人工智能的成功应用,但它们仍然局限于特定的数据集和研究问题。挑战仍然是看看这些方法对更广泛的应用程序和其他数据集的推广程度。数据挖掘、统计和机械建模目前是该领域计算生物学和生物信息学的主要驱动力,它们与人工智能/机器学习(ML)之间的界限通常很模糊。
例如,聚类是一种数据挖掘技术,可识别基因表达数据中的模式和结构,这些模式可以表明工程改造是否会导致细胞毒性结果。这些聚类技术也可以用作在未标记数据集中找到结构的无监督学习模型。随着更大的数据集变得普遍可用,这些正在开发中的经典技术和新颖的 AI/ML 方法将在 Synbio 的未来发挥更大的作用和影响。
转录组学数据量每七个月翻一番,蛋白质组学和代谢组学的高通量工作流程变得越来越可用。此外,实验室工作通过微流体芯片逐步实现自动化和小型化,预示着未来数据处理和分析将成为合成生物的主要生产力倍增器。
DARPA 的协同发现与设计(SD2,2018-2021)计划专注于构建 AI 模型以解决这一差距。这在一些在该领域最先进的公司中也很明显(例如,Amyris、Zymergen 或 Ginkgo Bioworks)。
AI 和 Synbio 在几个方面相交:将现有 AI/ML 应用于现有数据集;生成新数据集(例如,即将推出的 NIH Bridge2AI);并创建新的 AI/ML 技术以应用于新的或现有的数据。尽管 SD2 在最后一个类别中做了一些工作,但仍有许多工作和潜力。
人工智能可以帮助克服的 Synbio 的一个基本挑战涉及预测生物工程方法对宿主和环境的影响。在没有预测生物工程结果的能力的情况下,Synbio 将细胞工程化为规范(即逆向设计)的目标只能通过艰苦的试错来实现。人工智能提供了一个机会,可以使用公开数据和实验数据来预测对宿主和环境的影响。
设计用于编程细胞的遗传结构。许多 Synbio 的努力都集中在工程基因构建体/电路上,这与设计电子电路提出了非常不同的挑战。基因构建体旨在引发细胞的特定反应,就像电子电路旨在提供对电子系统的控制一样。虽然我们可以合成 DNA 并将其转移到细胞中,但这种转移对动态活生物体的细胞机制的全球影响尚不完全清楚或目前无法预测。相比之下,电气工程师拥有「静态」设计电子电路板以执行各种功能的工具,并且不会以有害的方式影响电路板。活细胞的物理学和生物学背后的规则是复杂的、相互交织的,需要付出巨大的努力才能发现。总之:
电路板设计
用于实现所需电路输出的已知部件组。
印刷电路板对门/电路的影响可以忽略不计,反之亦然。
存在零件和电路板的定性和定量模型以稳健地预测电路性能。
活细胞设计
基因构建体旨在实现细胞的某些反应。
不能忽视活细胞对构建体的影响,反之亦然。
预测性能的模型必须同时考虑宿主和构造动态。
人工智能技术已被利用,结合已知的生物物理、机器学习和强化学习模型来有效地预测构造对主机的影响,反之亦然,但仍有很大的改进空间。例如,对于机器辅助的基因电路设计,已经应用了多种人工智能技术。
它们包括专家系统、多智能体系统、基于约束的推理、启发式搜索、优化和机器学习。基于序列的模型和图卷积网络在工程生物系统领域也获得了关注。因子图神经网络已被用于将生物学知识整合到深度学习模型中。图卷积网络已被用于从蛋白质-蛋白质相互作用网络预测蛋白质的功能。
基于序列的卷积和循环神经网络模型已被用于识别蛋白质的潜在结合位点、基因的表达以及新生物构建体的设计。人工智能的一些最有用的应用将是开发综合模型,这将减少需要进行(或测试)的实验(或设计)的数量。
代谢工程。在代谢工程中,人工智能已应用于生物工程过程的几乎所有阶段。例如,人工神经网络已被用于预测翻译起始位点、注释蛋白质功能、预测合成途径、优化多个异源基因的表达水平、预测调控元件的强度、预测质粒表达、优化营养浓度和发酵条件、预测 酶动力学参数,了解基因型-表型关联,并预测 CRISPR 指导功效。
聚类已被用于寻找次级代谢物生物合成基因簇并识别催化特定反应的酶。集成方法已被用于预测通路动力学、最佳生长温度,并在定向进化方法中找到赋予更高适应性的蛋白质。支持向量机已被用于优化核糖体结合位点序列并预测 CRISPR 指导 RNA 的活性。最有希望应用人工智能的代谢工程阶段是:工艺放大、下游加工(例如,从发酵液中系统地提取产生的分子)。
实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响已经远远超出了 DBTL 周期的「学习」阶段。自动化正逐渐成为一种关键实践,作为获取训练 AI 算法和实现可预测的生物工程所需的高质量、大容量、低偏差数据的最可靠方式。
自动化提供了将复杂协议快速传输和扩展至其他实验室的机会。例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。这些代工厂已经看到他们的能力被机器人技术和规划算法彻底改变,从而实现了 DBTL 周期的快速迭代。语义网络、本体和模式已经彻底改变了设计和协议的表示、通信和交换。
这些工具支持快速实验并以结构化、可查询的格式生成更多数据。在大多数上下文丢失或在实验室笔记本中手动捕获的领域中,人工智能的承诺迫使该领域发生重大变化,以减少生成数据的障碍。
微流体代表了宏观液体处理器的替代品,可提供更高的通量、更少的试剂消耗和更便宜的缩放。事实上,微流控技术可能是实现自动驾驶实验室的关键技术,它有望通过使用人工智能增强自动化实验平台来大幅加速发现过程。
自动驾驶实验室涉及全自动 DBTL 循环,其中 AI 算法通过基于先前实验假设其结果来主动搜索有希望的实验程序。因此,它们可能代表了合成生物领域人工智能研究人员的最大机会。虽然已经在液体处理机器人站中展示了自动化 DBTL 回路,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会提供最终的技术飞跃,使科学家 AI 成为现实。
挑战
人工智能已经开始进入各种合成生物应用,但主要的技术和社会学障碍继续将这两个领域分开。
技术挑战。将 AI 应用于 Synbio 的技术挑战(见图 4)是数据分散在不同的模式中,难以组合,非结构化,并且通常缺乏收集它们的上下文;模型需要的数据比通常在单个实验中收集的要多得多,并且缺乏可解释性和不确定性量化;并且没有指标或标准可以有效评估手头较大设计任务中的模型性能。此外,实验通常旨在仅探索积极的结果,从而使模型的评估复杂化或产生偏差。
图 4:将 AI 技术与 Synbio 应用程序集成的挑战。(来源:论文)
数据挑战。缺乏适当的数据集仍然是人工智能与合成生物学相结合的第一个主要障碍。将 AI 应用于合成生物学需要来自单个实验的大量标记、精选、高质量、上下文丰富的数据。尽管该社区在建立包含各种生物序列(甚至全基因组)和表型的数据库方面取得了进展,但标记数据的匮乏。「标记数据」是指映射到捕获其生物学功能或细胞反应的测量值的表型数据。正是这些测量和标签的存在将推动 AI/ML 和 Synbio 解决方案的成熟,以与人类能力相媲美,就像它在其他领域所做的那样。
缺乏对数据工程的投资是缺乏适当数据集的部分原因。人工智能技术的进步往往掩盖了支持和确保其成功的计算基础设施要求。
AI 社区将这种规范的基础设施称为需求金字塔(参见图 5),其中数据工程是一个重要组成部分。数据工程封装了实验计划、数据收集、结构化、访问和探索步骤。
成功的 AI 应用案例涉及标准化、一致且可重复的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,但这些数据通常并不适合机器学习。
在采用社区范围的标准来存储和共享测量、实验条件和其他元数据方面仍然存在许多障碍,这将使它们更适合人工智能技术。需要进行严格的形式化工作和达成共识,以使此类标准迅速采用并促进数据质量评估的通用指标。
简而言之,人工智能模型需要在所有实验中进行一致且可比较的测量,这会延长实验时间。对于已经遵循复杂协议进行科学发现的实验者来说,这一要求增加了巨大的开销。因此,通常会牺牲数据收集的长期需求来满足此类项目通常施加的紧迫期限。
图 5:规范的 AI/ML 基础设施可以支持 Synbio 研究。中间阶段往往是关注的焦点,但基础至关重要,需要大量资源投入。
这种情况通常会导致稀疏的数据集合,这些数据集合仅代表构成组学数据堆栈的多个层的一小部分(如图 1 所示)。在这些情况下,数据表示对集成这些孤立数据集以进行全面建模的能力有重大影响。如今,在执行数据清理、模式对齐以及提取、转换和加载操作 (ETL) 的各种垂直行业中花费了大量精力,以收集和准备不规则的数字数据,并将其转换为适合分析的形式。
这些任务占据了数据科学家近 50% 到 80% 的时间,限制了他们提取见解的能力。对合成生物学研究人员来说,处理各种各样的数据类型(数据多模态)是一个挑战,与数据量相比,数据多样性使预处理活动的复杂性急剧增加。
建模/算法挑战。在分析组学数据时,许多推动当前人工智能进步的流行算法(例如,在计算机视觉和自然语言处理领域)并不可靠。当应用于特定实验中收集的数据时,这些模型的传统应用通常会遭受「维度灾难」(参见图 6)。
例如,单个实验人员可以在特定条件下为生物体生成基因组学、转录组学和蛋白质组学数据,这些数据将提供超过 12,000 次测量(维度)。
此类实验的标记实例数(例如,成功或失败)通常最多在数十到数百个之间。对于这些高维数据类型,很少能捕捉到系统的动态(时间分辨率)。这些测量差距使得对复杂动态系统的推论成为一项重大挑战。
图 6:维度的诅咒。(来源:论文)
组学数据与其他数据模式(如序列数据、文本数据和基于网络的数据)有相似之处和不同之处,但经典方法并不总是适用。共享数据特征包括位置编码和依赖关系,以及复杂的交互模式。然而,存在一些根本差异,例如:它们的基本表示、有意义的分析所需的上下文以及跨模式的相关标准化以进行生物学有意义的比较。
因此,很难找到能够准确表征组学数据的稳健类别的生成模型(类似于高斯模型或随机块模型)。此外,生物序列和系统代表了生物功能的复杂编码,但很少有系统的方法可以像我们从书面文本中解释语义或上下文那样来解释这些编码。
这些不同的特征使得通过数据探索提取洞察力并生成和验证假设变得具有挑战性。工程生物学涉及学习黑盒系统的挑战,我们可以在其中观察输入和输出,但我们对系统内部运作的了解有限。考虑到这些生物系统在其中运行的组合、大参数空间,战略性和有效地设计实验以探测和询问生物系统以进行假设生成和验证的 AI 解决方案在该领域提出了巨大的需求和机会。
最后,许多流行的 AI 算法解决方案没有明确考虑不确定性,也没有显示出在输入扰动下控制错误的稳健机制。考虑到我们试图设计的生物系统中固有的随机性和噪声,这一基本差距在 Synbio 领域尤为重要。
指标/评估挑战。基于预测和准确性的标准 AI 评估指标对于 Synbio 应用来说是不够的。回归模型的 ℝ2 或基于分类的模型的准确性等指标并不能解释我们试图建模的底层生物系统的复杂性。量化模型阐明生物系统内部运作和捕获现有领域知识的程度的其他指标在该领域同样重要。为此,结合可解释性和透明度原则的人工智能解决方案是支持迭代和跨学科研究的关键。此外,正确量化不确定性的能力需要创造性地开发新的指标来衡量这些方法的有效性。
还需要适当的实验设计指标。Synbio 中模型的评估和验证有时需要额外的实验,需要额外的资源。少数错误分类或小错误会对研究目标产生巨大影响。这些成本应整合到目标函数或 AI 模型的评估中,以反映错误分类对现实世界的影响。
社会学挑战。在利用 AI 造福 Synbio 方面,社会学障碍可能比技术障碍更具挑战性(反之亦然)。我们的印象是,许多障碍源于所涉及的不同文化之间缺乏协调和理解。虽然有一些举措已经开始克服这些挑战,但有趣的是,持续存在的主题在学术界和工业界仍然存在问题。
社会学挑战的根源。这些挑战源于需要融合两个截然不同的群体的专业知识:计算科学家和实验科学家。
计算科学家和实验科学家的训练方式截然不同(见图 7)。通过培训,计算科学家倾向于专注于抽象,热衷于自动化和计算效率以及颠覆性方法。他们自然倾向于任务专业化,并寻找将重复任务交给自动化计算机系统的方法。替补科学家很实用,接受过具体观察方面的培训,并且更喜欢可解释的分析来准确描述实验的具体结果。
图 7:计算科学家和实验室科学家来自不同的研究文化,他们必须学会合作才能充分受益于 AI 和 Synbio 的结合。(来源:论文)
这两个世界拥有不同的文化,不仅体现在他们如何解决问题上,还体现在他们认为值得解决的问题上。例如,在致力于建设支持一般研究的基础设施的努力与旨在研究特定研究问题的努力之间存在持续的紧张关系。
计算科学家倾向于为各种项目提供可靠的基础设施(例如,用于菌株构建的自动化管道或收集所有相关数据的集中式数据库);而板凳科学家倾向于专注于最终目标(例如,以具有商业意义的数量生产所需的分子),即使这意味着依赖仅对特定情况有效的定制方法。
在这方面,计算科学家喜欢开发解释和预测生物系统行为的数学模型,而实验室科学家更喜欢尽快提出定性假设并通过实验对其进行测试(至少在使用微生物时,这些实验可以快速完成:3-5 天)。
此外,计算科学家通常只能对崇高的蓝天目标感到兴奋和精力充沛,例如生物工程生物以改造火星,编写能够创造 DNA 以满足所需规格的生命编译器,重新设计树木以采用所需的形状 ,现实生活中的生物工程巨龙,或者用人工智能代替科学家。
替补科学家将这些崇高目标视为「炒作」,因为以前的计算类型过度承诺和交付不足的例子而被烧毁,他们宁愿只考虑使用当前技术状态可以实现的目标。
应对社会学挑战。解决这些社会学障碍的方法是关注跨学科团队的需求。诚然,在一家公司(团队一起下沉或成功)实现这种包容性环境可能比在学术环境(研究生或博士后追求发表几篇第一作者论文以宣称成功,而不需要与其他学科整合)更容易。
这种整合的一个可能途径是创建交叉培训课程,在这些课程中,传统学科科学家接受编程和机器学习培训,计算科学家接受实验工作培训。
最后,两个社区都带来了一些有价值的、独特的和必要的东西。参与的每个人越早明白这一点,Synbio 就可以更快地推进。
从长远来看,我们需要将生物学和生物工程的教学与自动化和数学相结合的大学课程。虽然目前有几项举措正在进行中,但它们只是所需劳动力的杯水车薪。
前景和机会
人工智能可以通过在工程阶段空间中打开第三个轴:物理、化学和生物,从根本上增强合成生物并实现其全面影响。最明显的是,人工智能可以对生物工程结果产生准确的预测,从而实现有效的逆向设计。
此外,人工智能可以支持科学家设计实验并选择何时何地进行采样,这是目前需要训练有素的专家才能解决的问题。AI 还可以支持从包括历史实验数据、在线数据库、本体和其他技术材料在内的大数据源中自动搜索、高通量分析和假设生成。
人工智能可以通过允许更快地探索大型设计空间并通过推荐有趣的「开箱即用」假设来增强 Synbio 领域专家的知识。Synbio 为当前的 AI 解决方案提出了一些独特的挑战,如果这些挑战得到解决,将在 Synbio 和 AI 领域带来根本性的进步。
设计一个生物系统本质上依赖于控制系统的能力。这是理解支配系统的基本规律的终极考验。因此,能够实现合成生物研究的 AI 解决方案必须能够描述导致最佳预测的机制。
尽管最近基于深度学习架构的 AI 技术改变了我们对特征工程和模式发现方式的看法,但它们在推理和解释其学习机制的能力方面仍处于起步阶段。
为此,包含因果推理、可解释性、稳健性和不确定性估计要求的人工智能解决方案在这一跨学科领域具有巨大的潜在影响。生物系统的复杂性,使得纯粹基于蛮力相关性发现的 AI 解决方案,无法有效地表征系统的内在特征。
将物理和机械模型与数据驱动模型平滑结合的一类新算法,是一个令人兴奋的新研究方向。我们在气候科学和计算化学中看到了一些初步的积极成果,希望在生物系统研究中也能取得类似的进展。
Synbio 还可以激发新的 AI 方法,因为它提供了修改生物系统的工具。让我们不要忘记,生物学启发了诸如神经网络、遗传算法、强化学习、计算机视觉和群体机器人等人工智能的主要内容。如果生物学不能提供进一步的灵感,那将是令人惊讶的。
事实上,有许多生物现象需要以数字方式进行模拟。例如,基因调控涉及精心设计的相互作用网络,使细胞不仅可以感知环境并对环境做出反应,还可以保持细胞的活力和稳定。
保持内环境稳定(由生命系统维持的稳定的内部、物理和化学条件的状态)包括在适当的时间、以适当的量产生细胞的适当成分,感知内部梯度,并仔细调节细胞与其环境的交换。我们能否理解并利用这种能力来生产真正自我调节的人工智能或机器人?
另一个例子涉及涌现属性(即系统表现出的属性,而不是其组成部分表现出的属性)。例如,蚁群的行为和反应就像一个单一的有机体,比它的各个部分(蚂蚁)的总和要复杂得多。以类似的方式,意识(即对内部或外部存在的感知或意识)是一种源自物理基质(例如神经元)的定性特征。
自组织和集体建造结构的群体机器人已经存在。我们能否使用一般的涌现理论来创造机器人和生物系统的混合体?我们能否从一个非常不同的物理基质(例如,晶体管而不是神经元)创造意识?
最后一个可能的例子涉及自我修复和复制:即使是最不复杂的生命例子也表现出自我修复和复制的能力。我们能否理解这种现象的困境,以产生自我修复和复制的人工智能?
虽然之前已经考虑过这种生物模拟,但 Synbio 的美妙之处在于为我们提供了「修补」生物系统以测试仿生模型和基本原理的能力。
例如,我们现在可以在基因组规模上对细胞基因调控进行修补,以对其进行修改,并测试我们认为是其显著弹性和适应性的根本原因。或者我们可以对蚂蚁进行生物工程,并测试接下来会发生什么样的蚁群行为,以及它如何影响其存活率。或者我们可以改变细胞自我修复和自我复制机制,并测试其竞争能力的长期进化效应。
此外,在细胞建模中,我们非常接近对所涉及的生物学机制的良好理解。虽然了解神经网络如何检测眼睛形状并揭示大脑如何做同样的事情几乎没有希望,但在 Synbio 中并非如此。机械模型的预测并不完美,但会产生质量上可接受的结果。
将这些机械模型与 ML 的预测能力相结合可以帮助弥合两者之间的差距,并提供生物学见解,以了解为什么某些 ML 模型在预测生物行为方面比其他模型更有效。这种洞察力可以带来新的 ML 架构和方法。
AI 可以帮助 Synbio,Synbio 可以帮助 AI;但最终,这两个学科在持续反馈循环中的相互作用将创造我们现在甚至无法想象的可能性。同样,本杰明·富兰克林无法想象他对电的发现有一天会开启互联网时代。
论文链接:https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext