关键词:
人工智能
高通量实验
高通量数据处理
X射线衍射谱
电化学阻抗谱
摘要:
材料基因组技术中的高通量实验通过组合材料芯片技术、自动化实验平台和同步辐射光源等先进技术,可将原有的样品制备和实验表征效率提升成百上千倍,但随之产生的高通量表征数据多数仍处于人工逐条分析的状态,数据分析的智能化和自动化程度较低。面对这一现状,为构建材料基因组中的成分-显微结构-性能间的相关性,本论文利用机器学习、优化算法、信号处理和统计分析等人工智能相关方法,以材料显微结构及材料电化学性能中的电化学交流阻抗为落脚点,分析这两类数据的具体特征,开发高通量数据处理技术,实现材料显微结构和电化学性能高通量表征数据的高效自动化处理与分析。
材料相图的传统实验构建方法由于耗时的冶炼和低效的材料显微结构分析导致其制作周期漫长。本论文采用组合材料芯片技术和层次聚类分析分别从高通量实验和数据分析两个层面来加速实验相图的构建效率。利用物理气相沉积结合移动掩膜法制备出Fe-Cr-Ni组合材料芯片前驱体,再对前驱体进行退火处理从而完成材料库的制备。通过先进光子源的高能微束X射线衍射(X-ray diffraction,XRD)和电子探针显微分析分别对材料库的结构和成分进行高通量表征。本论文提出XRD图谱的三步自动化预处理流程,该流程成功地为1200余条XRD图谱移除偏移基线、去除噪声并校准基线。人工对高通量XRD图谱(约1200条)逐条进行物相分析,再结合成分信息构建Fe-Cr-Ni相图以作为后续自动化构建相图的参考。通过在层次聚类分析中融合专业经验,可提高其XRD图谱物相识别精度,可将自动化构建相图的准确率从50%提升至91%以上。最终验证高通量数据处理技术能从高通量显微结构数据中自动获取成分和结构信息,从而提升组合材料芯片技术产生的大量表征数据的分析效率,进而把三元相图的构建周期从数月缩短到几天,并且可将此技术推广到其他三元、多元合金相图的快速构建。
电化学阻抗谱(Electrochemical impedance spectroscopy,EIS)作为一种二次信号测试技术,通常面临难以评估数据质量、难以选择合适的等效电路模型(Equivalentcircuitmodel,ECM),以及较难精确拟合ECM元件参数等数据处理问题。
为消除EIS异常点对数据质量的影响,本论文首次提出基于系统线性、残差敏感性和数据质量提升三个定性条件构成的EIS异常点定义。基于该定义,通过改进的线性Kramers-Kronig验证方法、Savitzky-Golay平滑算法、四分位数和各种残差组合,设计出EIS自动验证与改进(EIS validation and improvement,EIS-AVI)系统,该系统通过自动检测和删除异常点以改进EIS数据质量。通过在人为添加扰动的模拟EIS上验证EIS-AVI结合不同的运行参数时的异常点检测性能,得以确定EIS-AVI最佳的运行参数,进而实现更小的计算量和最高的检测率(85.1%)。同时还获得多种残差指标对于异常点的敏感度排序,并发现EIS-AVI更容易找到数据分布稀疏区域上的异常点。
本论文使用能从海量数据中学习的机器学习(Machine learning,ML)算法来解决难以为EIS选择合理的ECM的问题。通过从已发表文献中摘录的锂离子电池测试数据和微区电化学高通量实验数据,我们构建出包含七种类别、629条数据的EIS机器学习数据集。使用网格搜索为多种ML算法选择最佳的超参数组合,结合最佳的超参数及更多的训练数据可训练并筛选出在机器学习测试数据集上ECM预测性能最佳的AdaBoost和随机森林两种模型。相较于前人在五种ECM预测任务中46%的正确率,本论文最佳的ECM预测模型在更为困难的七种ECM预测任务中将正确率提升至57%。通过将EIS分成高频段阻抗、中频段阻抗和低频段阻抗三个输入来分析三者对预测结果的重要性程度,并和AdaBoost和随机森林的权重分析结果进行比较,可知改进的模糊曲面分析、人工经验分析和AdaBoost权重分析均认为:低频段阻抗的重要性>中频段阻抗的重要性>高频段阻抗的重要性,从而认为AdaBoost的ECM预测依据更为可信。通过进一步为AdaBoost提供数据背景信息,可帮助AdaBoost缩小预测目标范围,使其为微区电化学高通量实验EIS预测ECM时,达到83%的预测准确率。
为解决ECM元件参数自动拟合的问题,我们研究了基于进化、人类活动、物理规律和动物群体活动启发的四大类、二十种不同的全局优化算法(Global optimization algorithm,GOA)以代替广泛使用、但容易陷入局部最优的复数非线性最小二乘法。通过在九条模拟的EIS上测试二十种GOA的ECM元件参数拟合性能(拟合精度、拟合结果稳定性和运行时间),为每种ECM挑选出综合性能最佳的五种GOA并应用于后