关键词:
恒星光谱
低质量光谱
大数据
数据挖掘
机器学习
摘要:
由于天文望远镜各方面性能的提高,天文学的研究和发现有了飞速的发展,人类对宇宙的认识也随之有了很大的提高。随着数据的不断积累,天文学已经到了一个“数据雪崩”的时代。我国的郭守敬望远镜项目(The Large Sky Area Multi-Object Fiber Spectroscopic Telescope,LAMOST)和国外的斯隆数字巡天(Sloan Digital Sky Survey,SDSS)等大规模巡天项目都可以从宇宙中观测到海量的恒星光谱。然而,在这些恒星光谱中依然存在着大量难于处理的低质量数据。恒星低质量光谱的主要特征是噪声大、流量缺失、连续谱异常以及谱线特征不明显等。这些恒星低质量光谱当中存在着很多稀有恒星、未知天体等有价值的数据,并且它们的获取同样投入了大量的人力、时间和设备等资源。因此,对观测到的恒星低质量光谱数据进行处理和分析具有非常重要的意义。数据挖掘可以从大量的数据中发现符合条件的规则和模式,而机器学习则可以利用数据对已有的模式进行优化,因此数据挖掘和机器学习等相关技术在处理大数据方面有着天然的优势,越来越多的数据挖掘和机器学习方法被应用到巡天数据的处理及分析当中。但是恒星低质量光谱中存在着噪声等大量无用的信息,直接利用之前的方法进行处理所得到的结果往往存在很大的偏差,而且由于恒星低质量光谱处理起来比较困难,专门针对它们的算法比较少,相关的研究文献也比较缺乏。因此如何利用新的方法对这些恒星低质量光谱进行有效的处理和分析是当前面临的一个重要问题。为了解决这个问题,提高恒星光谱的利用效率,在仔细研究相关处理方法的基础上,本文重点研究了恒星低质量光谱的数据处理和分析的问题,其中包括恒星低质量光谱的降噪、流量缺失及拼接异常光谱的修复、恒星低质量光谱连续谱拟合、恒星低质量光谱中稀有恒星的搜寻以及恒星低质量光谱的大气参数测量等。本文的创新点及贡献主要包含以下几个方面:(1)在改进生成对抗网络算法Cycle-GANs的基础上,提出了基于生成对抗网络的深度学习算法Spectra-GANs。该算法对同源恒星的高质量光谱和低质量光谱同时进行训练,能够有效提取出复杂的噪声模型,通过此噪声模型能够找出对应的高质量光谱与低质量光谱之间的映射关系。实验结果表明了该方法对恒星低质量光谱处理的有效性,同时训练得到的模型可以直接对其它的恒星低质量光谱进行处理,提高了恒星光谱利用率。(2)针对恒星低质量光谱的特性,引入了蒙特卡罗方法对恒星低质量光谱的连续谱进行拟合。目前的连续谱拟合方法大都针对恒星高质量光谱,在恒星低质量光谱中不能准确提取拟合点。针对此问题,本文在统计窗拟合的基础上,对缺失的流量点利用蒙特卡罗方法进行提取,提高了恒星低质量光谱连续谱拟合的准确性和稳定性。(3)提出了用于恒星低质量光谱中稀有恒星光谱搜寻的PCA+CFSFDP方法。受噪声等因素的影响,恒星低质量光谱中的稀有恒星通常难以搜寻。针对此问题,本文提出了利用主成分分析(Principal Component Analysis,PC A)构建通用特征光谱库的方法对恒星低质量光谱进行处理,然后,利用基于密度峰值的快速聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)在处理后的光谱中进行快速搜寻。实验表明该方法能够快速而有效地确定稀有恒星光谱的候选体,缩小了搜索范围,大大提高了搜索效率。(4)改进了一维卷积神经网络的参数测量方法StarNet,对恒星低质量光谱的大气参数进行了分析。目前很多算法已经成功应用于恒星大气参数测量的任务,而在恒星低质量光谱中很难准确地预测出大气参数。针对此问题,本文对一维StarNet算法进行了改进,通过实验选择出最优的卷积层与全连接层的个数并且扩大了卷积核的尺寸,增强了对低质量数据的处理能力。然后,利用改进的算法对恒星低质量光谱进行了有效的高阶非线性特征提取,提高了恒星低质量光谱大气参数的测量精确度。综上所述,本文提出了以数据挖掘、机器学习等相关技术为基础的方法,为海量巡天光谱数据中恒星低质量光谱的处理及分析提供了一些新的思路及新的方法,从而为后续巡天项目如LSST、WEAVES、MOONS等的低质量光谱数据的利用提供了有效的算法工具,对提高这些巡天项目中光谱利用率和信息获取效率具有非常大的意义。