公众号/ScienceAI(ID:Philosophyai)
作者/凯霞
化学元素几乎构成了物理世界中的一切。迄今为止,化学家们已经发现了 118 种元素,元素的氧化态是衡量一个元素化学性质的重要指标之一。尽管弄清楚单个元素的氧化态非常简单,但当涉及由多种元素组成的化合物时,事情就变得复杂了。
近日,来自洛桑联邦理工学院(EPFL)的研究人员训练了一组机器学习 (ML) 模型,自动将氧化态分配给金属有机框架(MOF)中的金属离子。该方法有很好的准确性。说明机器学习可捕获集体知识(collective knowledge )并将其转换为令人惊讶的强大工具。
该研究以「Using collective knowledge to assign oxidation states of metal cations in metal–organic frameworks」为题,于 7 月 5 日发表在《Nature Chemistry》期刊上。
元素周期表中每一种元素都有一个编号(例如:O 是 8),大小恰好等于该元素原子的核电荷数(质子数),这个编号称为原子序数。质子数基本上决定了元素的本质并赋予它化学性质。简而言之,原子序数是一种元素的「身份证」。
氧化态是理解材料特性和反应性的重要概念。表示一个化合物中某个原子的氧化程度。
氧化态对于平衡氧化还原反应,帮助化学家系统化和解释(氧化还原)反应性以及光谱特性等至关重要。例如,高锰酸盐 (Mn(vii))具有很强的氧化性,通常呈紫色,而 Mn(ii) 化合物的反应性较低,通常是无色的。
元素周期表应包括氧化态
剑桥结构数据库(Cambridge Structural Database,CSD)—— 一个晶体结构库,其中氧化态以材料的名称给出。「数据库非常混乱,有很多错误,混合了实验、专家猜测和键价理论的不同变体,用于指定氧化态,」领导这项研究的 Berend Smit 教授说。「我们假设化学是自我修正的,」他补充道。「因此,虽然个人账户存在很多错误,但整个社区都会改正。」
EPFL 基础科学学院的化学工程师研究了元素周期表中每个元素必须报告的另一个数字:元素的氧化态,也称为氧化数。简单地说,氧化态描述了一个原子必须获得或失去多少电子才能与另一个原子形成化学键。
「在化学中,氧化态总是以化合物的化学名称报告,」 Smit 说。「氧化态在化学基础中发挥着重要的作用,有些人认为它们应该被表示为元素周期表的第三维。」
复杂的材料使事情复杂化
但是,尽管弄清楚单个元素的氧化态非常简单,但当涉及由多种元素组成的化合物时,事情就变得复杂了。「对于复杂的材料,实际上不可能根据第一原理预测氧化态,」Smit 说。「事实上,大多数量子程序都需要金属的氧化态作为输入。」
目前预测氧化态的最新技术仍然基于 20 世纪初开发的一种称为「键价理论」的东西,该理论根据组成元素原子之间的距离来估计化合物的氧化态。但这并不总是有效的,尤其是在具有晶体结构的材料中。「众所周知,不仅距离很重要,金属配合物的几何形状也很重要,」Smit 说。「但考虑到这一点的尝试并不是很成功。」
机器学习解决方案
在这项研究中,研究人员解析了 CSD 中金属中心氧化态的化学名称,对局部化学环境进行了数字编码(特征化),并训练了一组机器学习 (ML) 模型,该模型基于四个基本模型之间的「投票」进行预测,对氧化态进行分配。
使用的特征向量结合了化学家认为氧化态关键的三个方面:金属类型、配位环境的几何形状和化学环境。重要的是,这种特征化基于化学见解,但提供了灵活性以适应经典规则失败的情况。
图示:特征化方法的示意图。(来源:论文)
为了评估 ML 方法和键价方法的性能,计算了方法预测的准确性以及敏感性的度量。对于铜(Cu),氧化态 I 和 II 在 CSD 的 MOF 子集中得到了很好的体现(CSD 中的频率:Cu(I),24.2%;Cu(II),75.8%)。假设 Cu 的所有氧化态都是 II,ML 方法已经有 75.8% 的成功机会。研究表明 ML 模型在所有指标上都优于基线和键价方法。
图示:MOFs 中 Cu 氧化态分配的性能指标。(来源:论文)
ML 方法适用于所有金属,但对于当前训练集中不太常见的金属和氧化态的准确度较低。对于元素周期表的 s 区元素(例如 Li、Na 和 Ca),所有氧化态都被正确分配。即使对于更具挑战性的 d 区(例如 Fe 和 Cu)、p 区(例如,Al、Pb 和 Bi)和 f 区元素(例如、Ce、Eu 和 Ho),也获得了至少 90% 的成功率。
ML 模型的另一个优点是它们可以提供对预测可靠性的估计。对 p 区和低价 d 区和 f 区金属实现了近乎完美的预测。
图示:整个周期表的预测性能。(来源:论文)
实例研究
该研究重点预测了 MOF 中金属中心的氧化态,特别是混合价 MOF 和柔性 MOF。
混合价 MOF Cu(I/II) 苯-1,3,5-三羧酸酯 (BTC):使用该模型来确定这些混合价 MOF 中每个金属位点的氧化态。分别确定了 Cu(I/II) BTC 晶胞中 16 个金属位点中每一个的氧化态,与实验数据一致。
图示:混合价 MOF Cu(I/II)–BTC 氧化态的预测。(来源:论文)
对柔性 MOF MIL-47 也取得了很好的预测。
图示:MIL-47 活化前(合成时)和活化后氧化态的预测。(来源:论文)
除此以外,ML 方法还可预测尚未在 CSD 中的新型 MOF 的合理氧化态。
该研究提供了一个应用程序,它使用我们的预训练模型将氧化态分配给材料云 (go.epfl.ch/oximachine) 上 MOF 中的金属中心。该应用需要晶体结构作为输入,并输出不同金属位点的氧化态以及置信度估计值。此外,该程序可以提供特征重要性的详细信息。
研究人员表示:「尽管我们在这项工作中的主要重点是预测 MOF 中金属中心的氧化态,但我们也证明了仅在 MOF 上训练的模型可以转移到其他类型的材料,例如二元离子固体或简单金属复合体。」
「我们基本上制作了一个机器学习模型,它捕捉了化学界的集体知识,」 Kevin Jablonka 博士说。「我们的机器学习无非是电视游戏《谁想成为百万富翁?》(Who Wants To Be A Millionaire?)。如果化学家不知道氧化态,其中一条生命线就是问化学观众,他们认为氧化态应该是什么。通过上传晶体结构和我们的机器学习模型,化学家的听众会告诉他们最可能的氧化态是什么。」
论文链接:https://www.nature.com/articles/s41557-021-00717-y
参考内容:https://phys.org/news/2021-07-machine-oxidation-states-crystal.html