摘 要
由于快速发展以提高实验和计算研究方法的准确性和效率,产生的大量数据已使材料科学领域成为数据驱动科学研究的第四范式。这种转变需要为材料创新的数据驱动方法制定权威和最新的框架。对数据驱动材料发现的当前进展进行了批判性讨论,重点讨论了框架、机器学习算法、材料专用数据库、描述符和无机材料领域的目标应用。
本综述主要总结了合理化数据驱动材料创新的框架,并对重要的子学科进行了批判性审查,包括:i)先进的数据密集型策略和机器学习算法;ii)用于数据生成和管理的材料数据库及相关工具和平台;iii)数据驱动过程中常用的分子描述符。此外,还深入讨论了材料创新的广泛应用,如能量转换和存储、环境净化、柔性电子、光电子学、超导体、金属玻璃和磁性材料。最后,概述了这些子学科(深入了解材料科学、计算工具和数学的协同作用)如何支持数据驱动范式,并强调了数据驱动材料创新的机遇和挑战。
文章附图
本文作者阐述了材料科学数据驱动创新的最新进展,数据驱动的材料创新在效率、准确性和智能方面显示出合理设计和发现材料的巨大潜力。在数据驱动的材料创新过程中,数据是基础,ML算法是核心,描述符传递信息,框架集成了这些学科以实现创新应用。
文章里面系统的讨论了材料数据管理和相关的数字工具。此外,还介绍了在数据驱动过程中携带化学信息的分子描述符。最后,对如何将数据驱动方法应用于各种材料进行了批判性讨论。新的智能算法的发展、计算和实验材料数据库生成和存储数据的能力以及准确高效描述符的设计和验证都取得了许多成果。它们的协同集成对于创新材料的发现是有希望和有效的。尽管在过去几十年里取得了长足进展,但材料科学领域的研究方向正在转变为数据驱动科学的新范式。
图1.四种科学范式随着时间的推移而演变,包括经验科学、理论科学、计算科学和数据驱动科学。
图2.数据驱动创新材料发现过程中的ML工作流示意图。
图3.a)材料设计和发现的直接和反向方法。经许可复制。[27]版权所有2018,Springer Nature。b) 材料设计和发现中不同目标的直接设计和反向设计示意图。
图4.a、b)分类(a)和回归(b)的决策树示意图。
图5.a–f)ANN(a)、CNN(b)、RNN(c)、GAN(d)、VAE(e)和RBM(f)的基本模型示意图。
图6.a、b)增压(a)和装袋(b)的一般结构示意图。
图10.a)使用OQMD数据库生成新假设材料的Wasserstein生成对手网络(WGAN)模型。
图11.a)pymatgen的典型工作流概述。b) 将体心立方状阴离子框架映射到固态锂超离子导体。c) 大电位相图用于识别Li7La2.75Ca0.25Zr1.75Nb0.25O12系统中的畴相,其电位(µLi)分别为:i)0 eV,ii)-0.06 eV和iii)-1.23 eV。d) OQMD和1670实验测量的形成能之间的比较示意图:i)不拟合,ii)部分拟合,iii)拟合所有元素电位集。d) 根据CC-BY Creative Commons Attribution 4.0。
图12.a)通过原子/VASP计算的GaP带结构示例(左)和通过原子/FEFF计算的La0.7Sr0.3MnO3 ELNES光谱(右)。b) 使用Atomate的频带结构的基本工作流。
图14.a)使用AFLOWπ的热电块状云岩的带结构和b)声子色散。a、 b)经许可复制。
图16.a)matminer的一般工作流程和概述。b) 借助MP数据库和matminer库发现了低模量Ti–Nb–Zr合金。
图18.a)数据、描述符和模型之间的关系。它包括以下步骤:预处理、数据分析、指纹描述符、统计模型或线性/非线性模型构建和验证,以及主题专家的见解。b) DMSC选定特征之间皮尔逊相关系数矩阵的热图。c) 比较DFT计算的ΔGOH*值与GBR算法预测的值。d) 基于平均影响值(MIV)的特征重要性。
图19.a)由两个ML模型组成的组合ML方法流程图。b) 金属电极电催化活性的双参数描述符。c) 用于训练梯度增强模型的特性,其中计算了IP、EA和光学间隙,并通过实验测量了透射率。d) 实验观察到的析氢速率与使用梯度增强树ML模型预测的析氢率。该模型通过遗漏一项交叉验证进行评估,这意味着所示数据适用于培训期间未考虑的共聚物。
图23.a)OER催化性能的自动DFT分析方案。b) CNN模型对ΔG值的预测结果,用于覆盖计算。c) CNN模型对OER计算ΔG值的预测结果。d) OOH*的吸附能与OH*的吸附之间的关系。实线基于作者的DFT数据库,虚线表示理想的缩放关系。e) 作为O*吸附焓函数的过电位火山图。绿色点表示所选DFT计算结果,红色点表示对应的SISSO预测。
图30.a)用于吸附能预测的GBR ML模型的性能。ML预测和DFT计算了CoCuGaNiZn(i–iii)和AgAuCuPdPt(iv–vi)HEA上顶部CO(i,iv)、fcc空心H(ii,v)和hcp空心H(iii,vi)的吸附能。b) 用于预测吸附能的NN-ML模型的性能Cu单层合金。c) d波段描述符的名义化敏感系数。