关键词:
棉花
可变剪切
遗传变异
纤维发育
摘要:
棉花是一种重要的经济作物,其中棉纤维为全球的纺织工业提供了大量原材料。在棉属的众多棉种中,二倍体中仅有两个棉种能产生纺织所需纤维,亚洲棉就是其中之一。与四倍体相比,亚洲棉对各种生物和非生物胁迫耐受性较强,其纤维相对较短,可以与四倍体栽培棉针对纤维发育进行比较基因组研究。可变剪切是真核生物体内一种重要的转录调控机制,有助于增加转录本和蛋白质的复杂性。然而在不同材料的纤维发育过程中,可变剪切相关的遗传变异基础尚不清楚。因此本研究结合Nanopore全长转录组测序和群体转录组测序技术,对216份亚洲棉组成的群体的五个不同的纤维发育时期数据,分别从转录水平和转录后调控水平进行分析,这五个时期分别为开花后4天(4DPA)、开花后8天(8DPA)、开花后12天(12DPA)、开花后16天(16DPA)、开花后20天(20DPA)。最终我们构建了亚洲棉纤维发育的可变剪切图谱,分析了可变剪切事件与基因表达水平之间的关系,比较了剪切数量性状位点(Splicing quantitative trait loci,sQTL)和表达数量性状位点(Expression quantitative trait locus,eQTL)的调控差异。主要研究结果如下:
(1)我们构建了亚洲棉A2的转录本图谱和可变剪切图谱。本研究中,我们一共注释到了20985个基因结构并组装了46792个高质量的全长转录本,其中有8121个转录本是从未被注释过的,大约占总数的17.3%。在纤维发育过程中,8DPA表达的基因数量最多,之后随着时间的推移,表达基因数量逐渐减少,其中有15442个基因同时在五个发育时期表达。值得注意的是,在纤维发育后期(16DPA、20DPA)同时表达的基因数目最多,达到了706个。进一步对可变剪切事件进行分析,在5个时期分别鉴定到了3850、4055、3489、3270、3046个剪切事件,其中内含子保留事件发生频率最高(53.9%-55.5%)。另外,我们发现表达水平较高的基因往往具有更多的转录本数量,更容易发生可变剪切。
(2)结合多种关联分析方法,本研究在纤维发育五个时期中一共鉴定到了457个与纤维品质性状相关的候选基因。我们利用表型数据与基因组变异进行全基因组关联分析(Genome-wide association study,GWAS),一共鉴定到了20个与纤维品质性状显著关联的QTL,其中16个QTL与纤维长度显著相关。为了研究这些QTL对基因表达水平的调控作用,我们进行了eQTL分析,发现平均每个时期有3371个cis-eGene。我们利用全转录组关联分析(Transcriptome-wide association study,TWAS)缩小候选基因范围,在纤维发育的五个时期中一共获得了360个与纤维品质显著关联的候选基因。为了研究基因组变异对剪切事件的调控作用,我们进行了sQTL分析,发现平均每个时期鉴定到3616个cis-sGene,进一步通过转录本水平的TWAS即Iso-TWAS进行候选基因鉴定,最终获得了104个纤维品质相关的基因,与TWAS相比,Iso-TWAS特异鉴定到了97个基因。
(3)纤维发育不同时期可变剪切与基因表达水平之间的调控是相互独立的。纤维发育过程中eQTL与sQTL在基因附近的分布位置不同,sQTL在基因区域更高富集。在同一时期中,eGene的表达量明显高于sGene,而sGene的转录本数量显著高于eGene,说明eQTL对基因表达的影响更为显著,sQTL在转录后水平上的调控发挥重要作用。我们鉴定了任意两个连续时间点间的差异剪切事件,发现在16DPA与20DPA之间差异最小,而8DPA与12DPA之间差异可变剪切事件数量最多,达到823个,并且这些基因主要富集在糖基转移酶活性、微管相关、蛋白丝氨酸/苏氨酸磷酸酶活性等功能上。在不同时期间差异表达基因的分析中发现,8DPA与12DPA之间显著差异表达基因同样是数目最多的,但主要富集在水解酶活性、碳水化合物代谢、氧化还原酶活性、跨膜运输等功能上。
总体来讲,我们对亚洲棉群体纤维发育的不同阶段进行分析,研究了基因组变异位点与纤维品质性状之间的关联性,鉴定了457个候选基因,揭示了基因表达水平与可变剪切之间的相互独立的调控关系,为棉花基因组育种提供了理论依据。