关键词:
篮状菌
二代测序
三代测序
系统发育基因组
比较基因组
同宗
异宗
交配型位点
物种界定
摘要:
篮状菌属(Talaromyces)作为一类广泛分布的丝状真菌,与植物、动物和人类关系密切。一方面,篮状菌的某些种是人类和动物的条件致病菌,有些是食品、工业生产中的常见污染菌。另一方面,篮状菌能够产生丰富的代谢产物,这些代谢产物广泛的应用于化工业和医药领域。目前,篮状菌属已知物种超过200种,但仅有20多种进行了基因组测序,限制了对其基因组学的深入研究。本研究以篮状菌为研究对象,通过二代和三代基因组测序,利用系统基因组学和比较基因组学的方法,探讨了基于基因组的分类方法在篮状菌组(section)和物种界定的适用性,系统解析了篮状菌交配型(mating-type,MAT)位点的演化方向和途径。主要研究结果如下:
1.通过对139株篮状菌(66种)进行二代测序和组装,获得了完整度较高的全基因组数据,并与公共数据库的82株(27种)结合,对全部221株篮状菌(80种)进行结构和功能注释。结果表明,篮状菌的平均基因组大小为34.49 Mb,平均含有12568个蛋白质编码基因,重复序列的长度在0.98-11.78 Mb之间,占基因组的3.44-28.11%。碳水化合物活性酶的数量在660到1786之间,占基因总数的3.21%至10.94%。与致病相关的基因数量在2457到5611之间,占基因总数的11.40%至29.79%。预测到的分泌蛋白数量在394到1181之间,占基因总数的1.97%至6.65%。本研究将篮状菌基因组数据库中原有的27个物种扩充到了80种,覆盖了篮状菌八个section和三分之一以上的物种,为其功能和进化研究提供了宝贵的数据资源。
2.采用Nanopore(纳米孔)测序技术对25株篮状菌(13种)进行基因组测序,随后对五款组装软件(Next Denovo、Flye、Canu、Wtdbg2和Miniasm)以及三种矫正软件(Racon、Pilon和Ratatosk)进行了多维度评估。研究结果表明,不同样本的最优组装软件存在差异,单一软件可能无法满足所有样本的组装需求。针对不同的数据与资源配置,本研究提出了一套针对纳米孔测序的组装流程:(1)如果没有二代数据进行矫正,优先考虑Next Denovo+Racon的组装方案,其次是Flye+Racon,在计算资源充足的情况下,可考虑加入Canu+Racon的组装方案。(2)如果有二代测序数据用于校正,推荐同时采用Next Denovo+Racon+Pilon、Flye+Ratatosk和Next Denovo+Ratatosk三种不同的组装策略进行组装,这三种方案在不同样本的组装效果上各有优势,并行组装的方案有助于降低样本偏差。通过对每个样本的不同组装策略结果进行评估,获得了25个篮状菌的最佳组装基因组,平均包含23条contig,基因组大小为36.22 Mb,GC含量为44.8%,N50为4.09 Mb,完整性为96.5%,与二代数据一致性的平均值为98.3%。
3.以221株篮状菌的基因组数据为研究材料,本研究探讨了基于基因组分类方法在篮状菌section和物种划分的适用性。研究结果表明,平均核苷酸一致性(Average Nucleotide Identity,ANI)、平均氨基酸一致性(Average Amino Acid Identity,AAI)和保守蛋白百分比(Percentage of Conserved Proteins,POCP)三种方法对篮状菌section和物种的划分具有很高的准确性。针对三种不同的方法,分别提出了在最高准确率时的阈值选择方案。ANI阈值为76.4%时,能够对99.82%的菌株进行准确的section归类;ANI为97%时,能够对99.98%的菌株进行准确的物种界定。AAI阈值为76.7%时,对section的划分具有最高的准确性,达到99.9%;AAI为96%时,对物种界定的准确性为99.94%。POCP阈值为77.6%时,能够对93.98%的菌株进行正确的section划分;POCP为93.2%时,能够对99.73%的菌株进行准确的物种划分。基于基因组的分类方法,本研究发现公共数据库中存在对物种的命名错误,并明确Talaromyces cellulolyticus是Talaromyces pinophilus异名。
4.篮状菌包含大多数与有性生殖和无性生殖相关的基因,从基因水平上证实了篮状菌具有有性生殖和无性生殖的能力。221株篮状菌中有198株是异宗类型,其中102株菌只包含MAT1-1位点,96株菌只包含MAT1-2位点;23株菌是同宗类型,同时包含MAT1-1和MAT1-2位点。MAT1-1位点包含MAT1-1-1和MAT1-1-9两个基因,这两个基因紧密相连且方向相反,其中MAT1-1-9是本研究中新鉴定到的MAT基因