关键词:
高通量测序
基因组学
群体遗传学
多核苷酸变异
全基因组关联研究
性状与疾病
摘要:
大量研究表明遗传变异在生长发育和疾病中扮演着重要的角色。目前已发现了许多单核苷酸变异(Single nucleotide variant,SNV)与遗传疾病、治疗药效和疾病预后等有重要关系。然而这些SNV仅能解释许多疾病和性状中的一部分遗传力,仍有大量“缺失的遗传力”有待挖掘,这表明其他类型的遗传变异也有可能在疾病中发挥着重要作用。多核苷酸变异(Multi-nucleotide variants,MNVs)是指基因组中位于同一单倍型上的距离相近的多个SNVs所组成的遗传变异。与传统的SNV相比,MNVs对基因的影响通常表现出更严重的致害性。然而,目前人类基因组内的MNVs鉴定并不充分,存在着大量MNVs未被发现;同时,尚未有基于MNVs开展的全基因组关联研究(Genome-Wide Association Studies,GWAS),疾病或性状相关的MNVs未被深度挖掘。因此,本研究对人类MNVs展开了以下两部分研究:
(1)利用大型队列进行MNVs系统鉴定、注释及数据库构建。既往研究表明,不同群体遗传变异的分布和功能存在显著差异。目前人类MNVs鉴定主要以欧美人群为主,对其他人群关注较少,有可能存在大量的MNVs未被发现。因此,我们希望通过对不同人群MNVs展开系统性鉴定和注释,建立一个最全的人类MNVs数据平台。首先,通过对人类MNVs进行系统鉴定,从千人基因组、gnom AD(WES)、gnom AD(WGS)、GTEx、TCGA、UK Biobank(WES)和UK Biobank(Array)七个大型人类队列中共获得8,209,126个非冗余的MNVs。基因组位置注释显示这些MNVs绝大部分位于非编码区域,仅有0.9%的MNVs位于基因组外显子区域。其次,通过分析不同人群中的MNVs,我们发现不同人群之间的MNVs的差异较大,千人基因组各个人群中独有的MNVs占总数量的56.9%,并且还发现MNVs有助于揭示各个人群之间的群体相关性。在低连体MNVs中,由SNV累计突变所产生的MNVs占据主要部分,并且在2连体MNVs中,发生两碱基转换的MNVs数量要远多于其它两种碱基突变类型,发生两碱基颠换的MNVs数量最少。最后,利用所有鉴定到的MNVs构建了人类MNVs数据库,该数据库提供了人类MNVs在线查询、鉴定以及下载等功能。
(2)利用UK Biobank大型人群队列系统开展GWAS研究。GWAS作为目前最常用且高效的基因-性状关联方法,已经成功地应用SNV挖掘了大量性状及表型关联位点。然而,目前尚未有基于MNVs开展的GWAS研究。因此,本研究利用UK Biobank队列数据,分别从全基因组分析了人类MNVs与数量性状(身高)和质量性状(癌症)之间的关联。首先,以MNVs为基因型,人类身高为表型,纳入性别等混杂因素,利用GCTA fast GWA混合型线性模型开展了MNVs GWAS分析,共发现了70个与身高显著关联的MNVs,其中10个为本研究新发现的身高易感遗传变异。通过基因注释发现这些MNVs共落在20个蛋白质编码基因上,其中LCORL、SLC38A9、C6orf106、KCNQ1、ADAMTSL3和ACAN被报道与人类生长发育有关。进一步分析发现人类身高显著关联的基因被显著富集在生长发育等重要信号通路。随后,通过分别对UK Biobank中11种样本量最大的癌症进行了MNVs GWAS分析,一共发现了267个显著关联的MNVs位点,共落在72个蛋白质编码基因上,其中有14个基因尚未被报道与癌症易感相关。进一步整合癌症患者MNVs基因型和预后信息,发现癌症易感MNVs中有38个和患者预后显著相关。
综上,本研究系统鉴定了不同人群MNVs图谱,构建了H-MNVsdb数据库,这项工作为人类遗传研究提供了一个重要的数据资源;其次,不同人群MNVs及其突变特征的分析为探究人群的分化提供了新的视角;最后,基于MNVs的GWAS研究发现了新的性状和疾病候选位点,这将为遗传变异解析个体表型提供一条新的思路。