强化学习模拟自适应免疫系统，或能带来新的免疫学见解

IT思维 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

公众号/ScienceAI（ID：Philosophyai）

作者/文龙

东京大学工业科学研究所的两名科学家展示了自适应免疫系统如何使用类似于强化学习的方法来控制免疫反应以重复感染。这项工作将有助于我们对自适应免疫作为一种学习系统的理解，可以显著改善疫苗的研发工作和感染的治疗方案。

这项研究成果于3月9日以「将自适应免疫系统理解为强化学习」（Understanding Adaptive Immune System as Reinforcement Learning）为题发表在《物理评论研究》（Physical Review Research）杂志上。

人体的适应性免疫系统通过记住过去的感染来抵抗各种病原体，该系统通过编排不同免疫细胞的种群和反应不断适应入侵的病原体，进而在再次进入时可以快速响应，对病原体进行清除。

这个复杂的过程取决于许多细胞类型的合作，其中辅助T（Th）细胞在免疫过程中扮演中间：通过增生扩散来激活产生直接免疫反应的其它类型免疫细胞。尽管已经对免疫系统进行了数十年的研究，但Th细胞对不同信号响应的「算法」仍是未知。

现在，东京大学的研究人员将自适应免疫过程过程表述为使用马尔可夫决策过程（MDP）描述的强化学习（RL）问题，呈递的抗原是输入，反应性效应免疫细胞是输出，Th细胞则作为输入和输出之间的隐藏层。

图示：用基于网络的强化学习描述自适应免疫系统。（来源：论文）

论文的第一作者Takuya Kato表示：「就像可以在强化学习中训练神经网络一样，我们相信免疫网络可以反映抗原模式与对病原体的有效反应之间的关联。」

从他们的模型中，可以自然得出Th细胞的增生选择作为学习规则使系统不仅能够识别新的病原体，还能够通过适当的方式来偏向选择对病原体的反应。对模型进行仿真，结果显示可以在假定足够多的Th增生细胞类型的情况下在一定程度上成功地再现实验中增生细胞的分布。

该团队使用MDP对强化学习中的感染状态进行表示。通过对每种病原体分配几种不同的状态，可以代表感染的不同阶段，它们之间的过渡取决于免疫系统的作用，使模型可以有效地用于分析更复杂的慢性感染。

由于病原体的共同进化，也可以模拟对抗性感染，其中下一次感染取决于当前感染。通过设置奖励阀值发现，当接近最大奖励时，学习通常会被困在一种感染状态之中，这表明从感染中恢复的天生能力是适应性学习的必要条件。

图示：由MDP等式定义的感染和未感染状态的随机过渡态。（来源：论文）

的确，实际的免疫系统比该团队提出的数学模型更为复杂。

与强化学习每个层节点之间的连接权重不同，自适应免疫系统中每种类型的T辅助细胞的数量只能增加。

虽然推导的学习动力学在数量上与克隆选择理论相一致，但效应细胞与Th细胞之间的局部反馈相互作用应与实际细胞类型和相互作用的分子相关联。

同样，由于系统没有全局奖励信号就无法学习，应确定全局奖励信号的生物学对应物。

另外，效应细胞具有识别和响应病原体的先天能力。这种效应抽象地表示为模型中效应细胞的随机激活和失活，对于防止学习陷入某种感染状态非常重要。

研究人员表示，他们会继续对模型进行不断完善，使其能够囊括更多的效应细胞。「这种分层体系结构类似于用于优化的模因算法，关于它的研究可能会加强对先天免疫与适应性免疫之间的相互关系的理解。」

论文的合著者Tetsuya Kobayashi认为：「我们的理论框架可能会完全改变对自适应免疫作为一种真正的学习系统的理解。」这项研究可以揭示其他复杂的适应性系统，同时可以优化疫苗从而引发更强免疫反应的方法。

论文链接：https://doi.org/10.1103/PhysRevResearch.3.013222

参考内容：https://www.iis.u-tokyo.ac.jp/en/news/3503/