关键词:
色谱
代谢组学
数据挖掘
数据融合
时间序列
摘要:
色谱分离检测技术是常用的代谢组学分析技术。通过对样本进行色谱分离检测,可以获取样本的代谢物色谱指纹轮廓,以进行后续的代谢组学分析。由色谱技术可以得到几百甚至上千个代谢物,而所检测的样本通常只有几十个。即代谢组学色谱指纹数据具有高维小样本的特点。如此高的代谢物维度及相对过少的样本,加大了代谢组学色谱指纹数据的分析难度。因此,研究人员引入数据挖掘技术用于处理代谢组学色谱指纹数据。 对初烤烟叶色谱数据进行分析是植物代谢组学中的一个重要应用。为满足对烟草色谱数据存储和分析的需求,本文开发了一个烟草色谱指纹图谱数据分析系统,并已投入实际应用。同时,数据融合方法常应用于对多个年份中所采集的不同烟草样本的香型品质进行分析。然而,不同年份的生态气候差异会对香型差异造成干扰。为有效融合不同年份的色谱数据,本文提出了一种基于统计假设检验与局部尺度化相结合的数据融合方法。该方法只对受到年份影响的特征进行尺度化处理,去除年份差异的影响。在将该方法应用于对贵州两年的烤烟样本融合处理时,同现有的数据偏移修正融合方法相比,有效地去除了不同年份生态气候导致的差异,使得随机森林和支持向量机对烤烟香型的分类性能均得到了提高。 本文的另一内容是对代谢组学时间序列色谱数据及时间序列随机森林分类算法进行研究,给出了一种与时间序列规律性变化度量相结合的时间序列随机森林算法。该算法和普通的时间序列随机森林相比,在选择决策树结点分划特征时,同时考虑了特征的区分能力及特征的时间序列变化规律特点。在将该算法应用在家蚕的时间序列分类问题的实验中,验证了该算法比普通时间序列随机森林的优越性。