关键词:
非比对方法
基因突变
扩展共同前缀集
信息熵
摘要:
随着生物信息学的兴起,序列比较作为生物信息学的一个分支,不少学者开始对其产生了浓厚的兴趣,并在此领域颇有造诣。目前针对于序列比较的方法主要包括两类:比对方法和非比对方法。比对方法的优点在于此类方法较为成熟,一般适用于解决进化关系较近、生物序列长度较短以及生物序列数目较少的问题,并且存在着复杂度较高、内存消耗较大以及耗时较久等缺点。随着生物序列数量增多,为了弥补比对方法的缺点,非比对方法被广泛使用,非比对方法优点在于方法易懂便于实现、计算过程简单、耗时较短等。即使面对大量的生物序列也能快速分析得到进化关系,不足的就是进化关系缺少理论依据,有时不够准确。本文在提出基于共同前缀所在位置模型的两篇文献的基础上,将他们方法改进后,构建了一个新的非比对模型。首先使用环形前缀树模型,提取序列的环形前缀集,然后成对处理环形前缀集来提取特征信息。本模型的创新点体现在提取特征信息上,考虑到DNA序列中的基因突变情况,在利用准确匹配方法获取共同前缀集一的基础上允许错配,然后提取序列对的共同前缀集二,将共同前缀集一、二合在一起称为扩展共同前缀集,再对扩展共同前缀集在序列对中的位置差进行处理。利用模型中提出的基于信息熵的计算公式计算出序列间的距离,最后利用邻接法对距离向量进行建树。本模型所应用的数据集是2021年9月在网站NCBI(National Center for Biotechnology Information)的Gen Bank数据库中下载并且挑选后得到的只含有字符A、C、G、T的1106条哺乳动物线粒体DNA基因组序列,此数据集中包括了哺乳动物的27个目,133科,523个属。本文通过重构数据集中生物的进化关系,并对结果从整体到局部进行了分析,其中关于目的聚类准确率为82.60%,关于科的聚类准确率为90.24%,关于属的聚类准确率为82.32%。本模型参考的文献中有两篇都是针对1050条哺乳动物线粒体DNA基因组序列进行实验的。通过结果比较可知本模型关于目和属的聚类准确率是高于它们的,尤其是对于非洲兽总目的聚类,本模型将其完全聚在一个分支下,而参考的两篇文献都有一条生物序列与啮齿目的一条生物序列聚类在一起。本模型结果与生物学分类标准以及其他文献的结果也进行了比对,本论文模型的结果与其基本一致。