当前位置: 模型材料 >> 模型材料市场 >> 机器学习为材料学家补充化学直觉,更好
编辑/大路
虽然计算建模也被用来估计材料的特性。但实验的成本与测量的精度之间通常会有一个取舍,这限制了可以用来严格测试的材料数量。近期,Chen等人在NatureComputationalScience上撰文,报告了一种机器学习方法,该方法结合了来自多个测量和模拟来源的数据,所有这些数据都具有不同的近似水平,以学习和预测材料的特性。
他们的方法允许构建一个比以前更具普遍意义,也更准确的「材料属性模型」,从而促进筛选有前途的「候选材料」。
现在,材料科学家通常用机器学习模型的预测来补充自己的「化学直觉」,以决定下一步要进行哪些实验。例如,人工智能已被用于识别在高温下充当超导体的候选化合物;利用锂离子传导电流的电解质材料;以及可承受大电场而不分解的电绝缘聚合物。此外人工智能也被用来研究合成材料的方法——即建议使用哪些试剂、催化剂和实验条件。
这些研究大多涉及监督学习(supervisedlearning),这其中,「算法模型」通过采集大量关于材料的化学成分或原子结构的历史数据,以及它们的相关特性,建立一个可以预测其他材料特性的模型。而几乎所有这些研究都使用「从单一的、一致的来源获得的数据」建立的模型。这种模型被称为单保真模型。
然而,对于大多数现实世界的应用,材料属性的测量具有不同程度的保真度,这取决于可用的资源。例如,对晶体材料特性的最精确(高保真)测量是使用单晶进行的,而单晶的制备是很费力的。因此,近似(低保真)的测量通常使用易于合成的多晶样品。同样的,一系列越来越精确,但逐渐昂贵的计算建模方案被用来计算材料的特性。因此,高保真建模往往受到其成本的限制。
总的来说,测量和建模技术的这种变化导致了数据结构的异质性——低保真测量数据丰富,而高保真数据则很稀少。值得注意的是,每种类型的保真度都有其自身的优势:低保真度数据覆盖了多种化合物,而高保真度数据则更为准确。因此,仅使用低保真度或高保真度数据训练的单一保真度模型会分别错失「高准确度」或「通用性」(图1)。
图1多保真数据可以改善使用机器学习
Chen等人现在提出了一种人工神经网络(一种受大脑启发的计算机系统)的改编,他们称之为多保真图网络。这种网络可以使用从不同的建模和实验技术中获得的数据来学习材料的特性。作为原理证明,实验人员训练了他们的图形网络学习带隙——一种控制固体材料的几种电学和光学特性的属性,如它们的导电性和颜色。其中,他们使用了五个来源的带隙数据:四个数据集是不同类型的量子力学计算结果,第五个来源是实验数据。保真度最低的数据集包含了大约5万个数据点,大约是其他数据集数量的倍;这是材料科学中现有数据异质性的典型表现。
多保真图网络该论文作者的「图网络」是以「材料图」(材料结构的数学表示,由代表原子的节点和代表键的边缘组成)作为输入。然后,执行一系列数学(卷积)操作,以交换其节点和边缘之间的信息。这就产生了一个被称为「潜伏表示」的输出向量,该向量被传递给另一个人工神经网络,并由其进一步操作,以预测实验人员感兴趣的属性(在这种情况下,就是带隙)。首先使用一个或多个历史数据集来同时训练「材料图」和第二个人工神经网络,使它们初步做出预测。
基于「图网络」的机器学习技术是材料特性单保真学习的最佳方法之一,并且不需要特征工程步骤(其中材料的组成和/或原子结构被转换为机器可读格式的数字字符串),而这往往是其他机器学习算法所必需的。
为了使他们的「图网络」适应多保真度学习,除了那些用于表示图节点和边缘的变量外,该论文作者还引入了一个新的变量,以说明数据点的保真度水平。因此,该论文的「图网络」在原子节点、键边和新变量所代表的数据保真度级别之间交换信息。这意味着他们的方法适用于任何数量的保真度级别。
预测误差也比较清楚地表明了多保真度方法的好处。例如,与单保真度模型相比,具有4个保真度级别的模型将带隙的预测误差降低了22-45%。同样,涉及两级、三级或五级保真度的多保真度模型也比单保真度模型表现更好。
这种改善可以归功于两个关键因素。首先,大量的低保真度数据比单一的高保真度数据集代表了更多的化学多样性的材料集合;「图网络」采用这种多样性的结果是一个更好,也更普遍的潜在表示。其次,低保真带隙数据和高保真带隙数据之间有很高的相关性——低保真数据集中的许多带隙与高保真数据集中的等效数据点的值很接近。这第二个因素也是显然的:在使用与低保真数据集相关性更强的高保真数据集时,实验结果获得了更高的预测精度。
Chen和同事的方法还克服了其他多保真方法的局限性,那些方法要么不容易扩展到大型数据集,要么不能处理异质数据或两个以上的保真度水平。因此,论文中的「多保真图网络」是一个强大的新系统,用于捕捉多保真数据集之间的复杂关系。但需要注意的是,Chen等人并没有探讨如果对低保真度和高保真度的数据点进行不同的加权会发生什么。当低保真点的数量非常大,以至于代表了全套多保真数据时,这种加权可能会变得必要。
这种新系统并不局限于材料科学,也是可以推广到任何可以使用「图结构」来描述的问题,比如社交网络和知识图(将知识表示为由关系连接的概念的数字框架)。此外,这种方法原则上也可以用来同时学习多个属性(多任务学习),而不是只学习一个属性,因为该属性的数据可以在多个保真度级别上获得。
然而,一些基本问题仍然存在。即使低保真度数据的质量极差,多保真度方法又是否能保证比单保真度模型表现更好呢?而当低保真和高保真数据点相关性很差时,又会发生什么呢?这些都需要更多的研究来了解多保真学习对哪些场景最有利,去平衡预测精度和获取数据的成本。当然,多保真方法的普及率肯定会增加,因为它们直接利用了材料和化学科学中潜在而广泛的数据异质性。