随着高熵合金的发展,设计理念逐渐从第一代高熵合金发展到第二代高熵合金,越来越多的探索从寻找单相固溶体转移到对高熵合金微观结构的调控。毋庸置疑的是, 在多组分合金设计理念的指导下不仅诞生出了许多性能卓越的合金成分, 更进一步激发了人们对合金设计的全新思考。这种设计理念在扩展合金成分设计空间的同时也给我们带来了更大的挑战。传统的实验试错法在面对如此巨大的可探索空间时明显缺乏效率。因此, 合理的高熵合金探索策略便显得尤为重要。常见的一些模拟计算方法, 比如第一性原理和基于热力学数据库的方法可以提高科研工作者的探索效率, 但与传统合金相比, 高熵合金中元素的数量以及微观结构的多样性使计算的复杂性与密集程度大幅增加。近年来, 材料科学相关的计算活动已经由纯粹地对材料的计算研究转移到结合计算结果和大数据来指导新材料的设计上来。机器学习是以数据为中心的方法中最活跃的生产工具, 正在与高熵合金的探索设计相结合, 这种学科交叉展现出了巨大的潜力。在信息时代,数据极度丰富, 建立在大数据基础上的机器学习,必将迎来爆发式的发展。
材料科学中的机器学习简述
同高熵合金概念一样, 蓬勃发展的学科会不断扩展初始概念的含义, 因此历史上对机器学习定义的解释都有片面性。在这里将采用汤姆米切尔的观点来解释机器学习:机器学习的本质是对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善, 那么我们就称这个计算机程序在从经验E中学习。机器学习可以看成是对数据的挖掘过程, 通过分析数据彰显数据背后的价值, 在材料科学中常见的用途是分类、回归、聚类、密度估计、降维等。
如图1 所示, 构建机器学习系统分为3 个步骤: 样本构建、模型构建和模型评估。样本构建包括数据预处理和特征工程两个部分, 其中数据预处理是指将原始数据转换为样本以及进一步的数据清理。数据清理将识别不完整、不正确和不相关的数据, 然后替换、修改或删除这些数据。特征工程包括特征提取、特征选择、特征构建和特征学习, 是通过领域内的专家知识来创建特征的过程。特征工程是机器学习中至关重要的一环, 有种说法是, 特征工程决定机器学习的上限, 而算法则是不断逼近这一上限。在样本构建的过程中还可以采用探索性数据分析的方法, 获得对数据的初步了解, 提前对数据进行透视、分组、过滤。数据质量将对最终模型产生非常重要的影响, 通常来讲, 数据处理将花费整个建模过程的绝大部分时间。
图1 机器学习步骤
如图2所示,机器学习在材料发现和设计中的应用可以分为3大类:材料属性预测、新材料发现以及各种其他用途。在关于材料属性预测的研究中, 通常使用回归分析的方法预测宏观和微观特性。在新材料发现时使用概率模型来筛选结构和成分的各种组合, 还可以配合从头算等方法对材料进行预测。此外, 机器学习还可用于材料科学中的其他方面, 例如制造过程中参数的优化。机器学习已经广泛应用于材料学领域的各个方面 , 包括成分设计、材料制备工艺以及对机理研究等等。
图2 材料科学中的机器学习
机器学习属于一种以数据为中心的方法, 它可以从大量数据中挖掘价值。人们很早便注意到了这一方法的重要性,在材料相关学科中同样建立了大量的数据库。材料基因组计划便是一个很好的例子, 通过结合高通量实验,利用高通量计算开发大规模数据库,然后从众多的材料数据中提取价值,预测新材料的性质并指导下一步实验,这种方法将助力于新材料的发现。
高熵合金设计中的机器学习
随着高熵合金的发展,越来越多的成分被开发出来。高通量溅射沉积实验是目前常用的高通量的合金制备方案,如图4所示,这种方法可以将材料从作为源的“靶”喷射到基板上,控制工艺参数,可以在基板上形成所需的物质。控制工艺参数可以对薄膜的生长结果和微观组织进行精确调控。这种方法很适合高熵合金薄膜的制备,通过工艺参数的调控可以对薄膜选定区域的元素分布实现梯度变化。通过不同元素分布的梯度变化可以实现合金成分的连续变化,实现材料的高通量制备,研究成分变化对合金性能的影响。
这些新兴的方法可以很大程度上提高新合金成分的开发速度。随着合金成分探索加快和合金数据库的不断增大,材料科研人员需要一种能够帮助他们快速评估、分析这些大数据的方法。而机器学习无疑可以与高熵合金探索策略相辅相成。
1、机器学习同传统方法相比较
高熵合金概念自提出以来便伴随着对相形成规律的讨论,相在高熵合金设计中一直起着关键作用。在高熵合金的设计策略中, 对未知合金成分相的组成以及相稳定程度的预测是一个很重要的设计角度。很多高通量的探索策略取得了不错的效果:
一种是基于第一性原理方法, 比如Yoav等利用第一性原理的方法, 通过判断固溶体的形成能力来预测合金成分的有序无序转变。Troparevsky等利用从头算计算二元合金子系统的形成焓,并通过这些焓来估计多组分系统的稳定程度。
另一种是基于相图计算(CALculation
of PHAse Diagram,CALPHAD)方法,比如Senkov等利用高通量的CALPHD方法预测合金可能存在的相, 快速评估了130000余组合金成分。Abu-Odeh等利用约束满足算法缩小遍历空间, 再利用CALPHAD 对所得的结果加以验证。
上述两种通过计算机对新材料进行评估和筛选的方法无疑可以将材料科研人员从繁琐的实验中解放出来,但这两种方法有很大的局限性: 准确性极度依赖于数据库以及模拟的精确程度, 并且无法与实验结果建立直接关系。每次计算与模拟都是单独的, 无法从前面的计算中获得经验。这与以数据为中心的方法不同, 以数据为中心的方法并不是独立的, 它可以与面向材料的计算相结合。Curtarolo等使用主成分分析与从头算相结合, 根据晶体结构的能量与化学系统之间的相关性预测材料的结构并取得了很好的效果。Kim等结合原位中子衍射、第一性原理计算和机器学习研究了Al0. 3CoCrFeNi高熵合金的弹性性质、弹性模量和各向异性, 使用梯度提升树在数据库中6826个有序无机化合物上进行训练,预测了体积模量和剪切模量的平均值。他们构建的梯度提升树模型使用了结构特征和组合特征: 每种化合物的性质, 如密度和原子的结合能被表示为结构特征; 对与元素有关但与化合物无关的属性进行加权组合(如原子半径和基团数)生成组合特征;对每种化合物均生成67 个特征。并使用多目标优化遗传算法生成优化模型对特征进行筛选。与传统的第一性原理计算相比, 机器学习的速度要快很多。
2、统计学方法
高熵合金领域很早便开始从数据的角度出发解决问题, 比如利用启发式方法提出一些简单的物化判据来预测高熵合金或非晶中的相形成规律。奥卡姆剃刀原理并非放之四海皆准, 传统的简单线性组合方法已经无法满足预测需求。早在2013年, Nong 等利用固溶体物理参数: 原子尺寸差、混合焓、电负性差和价电子浓度, 研究了铸态高熵合金立方相的稳定性并作出预测。但该研究中采用的数据集太小, 缺乏统计学意义。以数据为中心的方法中, 数据库的大小与质量是相当重要的。Tancret等采用统计学方法, 提出了一个基于热力学与高斯过程的统计模型, 该模型使用9 个参数识别单一固溶体相, 文章还评价了不同的热力学数据库。然而高熵合金的热力学数据库很大程度上继承于镍基合金的数据库, 多组元的数据库仍需进一步完善。
3、人工神经元神经元网络
Islam 等使用机器学习对高熵合金数据集做出了相应的分类。该研究选取了5 个特征, 数据提高到了118个。对原始数据集进行了过拟合训练, 准确度达到99%。不经评价的预测模型缺乏意义, 算法会学习大量的噪声,缺乏泛化能力。随后的多折训练中准确率只有86%。多折训练是一种常用的方法, 可以减少小数据集中训练集的选取对最终结果造成的误差。举例来说, 将一个数据集分为4 份, 其中一份为测试集, 其它3 份为训练集; 这样重复4 次, 让每个数据集都成为一次测试集,
最后对4 次的评价结果求均值。在选取特征时, 文章计算了5个特征之间的皮尔森系数。皮尔森系数是用来描述两个特征之间相关性的变量, 当两个特征的皮尔森系数的绝对值越接近1 时, 他们的线性相关程度也就越高。需要注意的是, 皮尔森系数对高维中变量的描述效果比较差,不能描述3 个特征之间的关系, 只能用于特征的初步筛选。
图3为利用皮尔森系数分析5 个不同特征的结果,右上角的数字为皮尔森系数的大小, 皮尔森系数的绝对值作为线性相关系数描述了不同特征值的线性相关程度。皮尔森系数分析法可以作为数据预处理和数据探索性分析的一种方法。当不同特征值相关性过大时说明两个特征蕴含的信息相似, 在预处理中需要对这一特征做处理或者删除这一特征。从图中看出最高的皮尔森系数为0.73,
说明晶格畸变与电负性差是特征值中最相似的两个特征值。不必要的数据关联会增加模型的复杂程度,引入噪音, 造成过拟合, 这时候减少相似的特征可以降低过拟合程度。当然, 也可以在算法中采取不同方法降低过拟合, 比如正则项、惩罚函数、神经元网络中的Dropout方法等。
图3 采用皮尔森系数分析特征的结果
Huang使用机器学习算法对一个包含401个合金成分的数据库进行聚类和预测。文章中采用了3 种不同的机器学习算法:K近邻、支持向量机和人工神经元网络。他们采用的数据库基于Miracle 的一篇综述,数据库的质和量提高了很多。该数据库将合金分为3 类:固溶体、金属间化合物以及二者的混合。相较于对晶格结构的分类, 这种关于高熵合金微观结构的长程有序程度的分类难度更大。文章三分类的最高准确率只有74%。他们还评估了5 个输入特征在影响测试精度方面的相对重要性。采用人工神经元网络中的自聚类算法对特征进行评价, 自聚类算法可以看成是非线性的主成分分析,对高维变量的描述效果更好, 而且易于可视化。自聚类是无监督机器学习的一种, 聚类会将数据集划分成几个不同的子集, 分类之前算法本身并不了解分类样本的标记信息。这种算法能用于寻找数据内在的分布结构。比较常见的自聚类算法还有K 均值聚类、均值漂移聚类、基于密度的聚类、高斯模型的最大期望聚类、凝聚层次聚类等。文章对人工神经元网络的超参数做了详细的调试, 与支持向量机和K 近邻算法相比准确度更高。
图4为人工神经元网络中的自组织算法原理, 可以通过分析输入空间中的数据来生成一个低维、离散的映射网络。应用竞争性学习(具有梯度下降的反向传播)而非纠错,并且通过创建类似于多维缩放的高维数据的低维视图的方法, 用邻域函数来保留输入空间原有的拓扑属性。受启发于生物神经元特性, 自组织学习通过使网络不同部分对不同输入模式做出相应的响应来模拟生物的大脑皮层, 比如香味会引起大脑皮层特定区域的兴奋。首先将训练数据输入到网络, 然后计算它们所有权重向量的欧几里得距离。通过竞争得出最佳匹配单元, 然后将所有权重进行迭代产生新的权重。在迭代过程中, 相似的神经元会沿相同的方向移动, 并激活相邻的神经元。
图4 人工神经元网络中的自组织算法原理
结语
目前高熵合金中的机器学习主要集中在对相的预测方面, 一方面是因为相可以很大程度上决定高熵合金的性能, 另一方面是先前已经有很多工作在物理判据或者说特征工程上做出了很大贡献。机器学习不仅可以挖掘原有数据的价值, 更能指导实验, 缩短实验周期。高通量的实验与计算将会是未来发展的重要方向。机器学习不同于传统方法对方程求精确解, 对设备与软件的需求大大降低, 可以将训练好的模型搭建在网站上。此外,这种以数据为驱动的方法还可以从失败的案例中挖掘价值。随着数据量的增多, 机器学习的精确性可以大幅提高。目前应用于高熵合金领域的算法仍很基础, 不应该为了追求噱头, 盲目引入不合适的算法; 也不能只关注相关性而不去关注因果性, 片面地追求高的预测准确率。就目前的高熵合金数据库而言, 大部分的数据都取自文献, 使数据被幸存者偏差影响。同时, 高熵合金成分开发很多都围绕着仅限几种成分展开, 同样会对数据有锚定效应。