强化学习为氧化还原液流电池增压 - IT思维
编译 | 白菜叶
设计可行的分子候选物对于设计低成本和可持续的存储系统至关重要。已经开发了一种 强化学习 框架,可以在有机自由基的大搜索空间中识别氧化还原液流电池的稳定候选者。
人们越来越依赖太阳能和风能等可再生能源来可持续地解决人类活动不断增长的能源需求。它们的间歇性可用性进一步需要高效的能量存储系统,以确保能量始终可靠可用。
一种有前途的电网级储能解决方案是水系氧化还原液流电池(ARFB),它使用溶解在最安全和最便宜的液体介质(水)中的电解质来储存多余的电力。然后可以根据需要以最小的损失和易于扩展的容量释放这种能量。
有机分子电解质是目前用于 ARFB 的主要金属基材料的有吸引力的替代品。它们具有高度可定制性,并且可能比正在变得稀缺的金属资源具有更小的环境足迹。因此,人们强烈希望找到更好的、低成本、稳定且可在高压设备中使用的有机分子。然而,从几乎无限可能的原子组合中选择最佳候选者并非易事。
S. V. 等人在 Nature Machine Intelligence 的论文中,展示了生成和评估自由基有机物种作为水系液流电池中电解质候选物的工作流程。
论文链接:https://www.nature.com/articles/s42256-022-00506-3
理想的氧化还原液流电池有机分子有望以高密度存储能量,并在重复的充放电循环中表现出较长的寿命,这需要分子在所有相关的氧化态下保持稳定。对于经历质子耦合氧化和还原的分子,例如醌和吩嗪,这些状态相对容易理解。
由于自由基物种的潜在反应性,其他有前途的材料(如紫精和有机自由基)给设计问题带来了另一层复杂性。在这些化学空间中发现材料的主要障碍是缺乏水环境中自由基稳定性的定量指标。预测分子稳定性并非易事,因为它涉及详尽地识别关键故障机制并评估其合理性。同一组研究人员最近的工作试图通过构建计算的激进稳定性分数来弥合这一差距。该分数量化了自由基电子的定位程度以及如何保护它免受与其他物种的反应。
然而,这些电解质分子还应满足一长串其他要求,例如高电池电压的适当氧化还原电位、使能量密度最大化的高水溶性以及低合成成本。由于这些要求非常复杂且难以优化,因此这种多目标优化问题很难用传统的试错法来解决。
鉴于分子空间通常太大而无法通过手动方法搜索,因此需要更多可扩展的细化技术。机器学习模型,特别是生成模型,如变分自动编码器和遗传算法,已成为探索这些空间和设计具有特定属性的分子的有前途的工具。化学生成模型已被证明在发现候选药物方面是成功的,例如快速识别 DDR1 激酶抑制剂。我们还注意到将它们用于能源应用的兴趣日益增加。
S. V. 等人专注于电池材料的分子,使用生成模型来利用基于 AlphaZero 的强化学习算法,AlphaZero 是 DeepMind 开发的用于掌握包括国际象棋和围棋在内的棋盘游戏的著名程序。该算法通过执行包括添加更多原子和/或键的操作,一次一个,最多 12 个(不包括氢原子),从单个碳原子构建候选分子。使用蒙特卡洛树搜索(MCTS)算法搜索导致不同分子的可能动作空间,并使用经过数千次量子化学模拟训练的两个代理图神经网络模型进行评估。因为候选电池必须满足几个标准,所以研究人员设计了一个奖励函数,可以同时优化与高稳定性和氧化还原电位相关的几个特性。通过奖励导致具有有前途的电池特性的分子的行为,研究人员教算法连续构建更好的分子。
使用这种强化学习算法,研究人员寻找可以被一个电子还原和氧化的合适的有机自由基,用作氧化还原液流电池中的阴极液和阳极液。这个目标是雄心勃勃的,因为目前用于 ARFB 的唯一有机自由基不适合作为阴极液。研究人员展示了成功生成 32 个可临时合成和新颖的候选者,这些候选者最大化了与良好的氧化还原液流电池相对应的奖励函数。这项工作最令人印象深刻的方面是对定义氧化还原液流电池材料的几个潜在竞争目标的整体考虑。这项工作中概述的策略和工作流程也适用于寻找其他有前途的有机电解质,特别是那些在充电或放电过程中依赖自由基物质的有机电解质。
图示:强化学习产生的自由基电解质。(来源:论文)
下一步将是对顶级竞争者进行实验性测试。进一步研究提出的自由基的降解机制可能会揭示更好分子的额外设计考虑。然后可以使用实验结果来进一步校准预测模型并迭代地提高发现分子和工作流程本身的质量。新兴材料加速平台(MAP)通过将自动化实验与数据驱动的生成模型(例如 S. V. 等人提出的模型)相结合,为闭环材料发现提供了令人兴奋的机会。我们期待发现、实验验证并最终推向市场的用于水性储能的新分子。
相关报道:https://www.nature.com/articles/s42256-022-00523-2