关键词:
非比对方法
前缀标识符
线粒体DNA
进化树
信息熵
摘要:
生物序列相似性比较是生物信息学的研究领域之一。DNA序列相似性比较是其中的重要课题。序列相似性比较方法分为比对方法和非比对方法。比对方法是一种十分有效的序列比较方法,一般能够较准确的重构出生物之间的进化关系。但是当前生物数据的规模大,比对方法面临巨大的计算挑战。较比对方法而言,非比对方法的时间和空间的复杂度较低,计算较简单,更适合对大规模的生物序列进行比较,非比对方法的研究具有十分重要的意义。本文旨在提出一个适用于较大数据集且有效的、新的非比对方法。本文以哺乳动物线粒体DNA基因组序列为研究对象,从生物学角度出发,给出环形序列前缀标识符的定义,及其查找方法;基于前缀标识符,提出了一个新的非比对模型。该模型把序列间的共同前缀标识符作为序列特征,首先提取共同前缀标识符在序列中的位置,计算它们在序列间的位置差,并对这些位置差分类,统计各类位置差出现的次数和频率;其次在各类位置差与前缀标识符之间建立一对多的对应关系,计算每类位置差对应的前缀标识符长度总和,将该长度总和的倒数与位置差的乘积作为该类位置差的权重;最后基于各类位置差的频率和权重,用位置差的加权信息熵定义新的DNA序列相似性度量。在2020年12月3日,Gen Bank数据库中测序正确的哺乳动物线粒体DNA基因组序列共有1050条。将这1050条哺乳动物线粒体DNA基因组序列作为实验数据集。该数据集中序列来自于27个目、129个科和491个属。应用本文提出的非比对模型,对该数据集中的生物重构进化树。依据生物学分类,本文方法能够较准确的将生物聚类。在科层级上,达到了93.75%的聚类正确率;在目层级和属层级上,分别达到了81.81%和75.00%聚类正确率。其中在序列数量较大且科数目较多的目中,在科层级有100%的聚类正确率,如鲸偶蹄目、食肉目、翼手目和劳亚食虫目。目前,已发表的文献有只对哺乳动物中某一个目的线粒体DNA基因组序列进行相似性比较,也有文献对哺乳动物线粒体DNA基因组序列进行相似性比较,但是其测试的数据量较少。没有发现已发表的文献对本数据集测试。所以本文将重构出的进化树逐个目与已发表的文献进行比较,发现本文结果与文献结果基本一致。