关键词:
水族
群体遗传学
壮侗语系
祖先信息位点
单核苷酸多态性
摘要:
目的:
基于全基因组芯片分型技术解析贵州四个水族群体的遗传结构和混合历史,在此基础上整合贵州壮侗、苗瑶和阿尔泰语系群体数据,进行祖先信息位点筛选,以期为贵州不同民族刑事案件侦破提供调查线索。
方法:
收集贵州四个地区共89例水族无关个体的唾液样本,提取DNA,进行基因芯片分型、质控,去除三代以内亲缘个体,与人类起源数据集(Human Origin,HO)、1240K数据集和已经发表的参考群体数据集合并。主成分分析(Principal Component Analysis,PCA)和ADMIXTURE分析探讨贵州四个水族与东亚古今参考群体之间的遗传关系和祖先成分;成对Fst分析探讨水族与东亚参考群体之间的亲缘关系;f3/f4统计探讨研究群体与参考群体之间的共享遗传漂变、混合历史、亲缘关系以及群体内部遗传亚结构;Tree Mix分析探讨四个水族与邻近参考群体之间的拓扑关系;成对qpWave检验进一步分析研究群体内部遗传亚结构,qpAdm分析研究群体祖先混合比例;最后,基于等位基因频率和共享单倍群,分别用ALDER和GLOBETROTTER估计四个水族遗传混合时间,fine STRUCTURE解析其精细遗传结构。
整合壮侗语系、苗瑶语系和阿尔泰语系群体共454个个体进行祖先信息SNP(Ancestry Information SNP,AISNPs)位点筛选。基于罗森博格的In统计值,筛选不同位点集合的祖先信息SNP标记,用smart PCA对不同位点集合进行主成分分析,Snipper软件确定最佳AISNPs,ADMIXTURE软件进行祖先成分分析。最后,用随机森林验证最佳AISNPs位点集合的准确性;基于Snipper软件,用5个测试群体中的122个个体再次验证最佳位点集合的祖先分辨能力。
结果:
PCA、成对Fst、TreeMix分析显示,贵州四个水族群体与地理位置邻近的壮侗语群体、苗瑶语群体和南岛语群体聚类。此外,也与部分古代参考群体,如台湾铁器时期汉本、公馆遗址个体,广西历史时期巴板琴岑和高华化遗址个体等具有较近的遗传亲缘关系。ADMIXTURE分析显示,贵州四个水族群体主要有四种祖先成分,邻近的壮侗语群体与该研究群体共享相似的祖先成分。同质性f4分析和成对qpWave检验表明,贵州四个水族群体不存在遗传亚结构。在祖先混合模拟中,贵州四个水族群体主要由33.5%~37.9%黄河流域粟黍农业人群和62.1%~66.5%华南地区相关祖先人群混合而成。ALDER的混合时间估计表明,贵州四个水族群体在300~2200年前受到了汉藏语群体的遗传影响;在GLOBETROTTER分析中,检测到了壮侗语群体和苗瑶语群体相关祖先人群的混合信号,混合事件发生的时间可追溯到8~16代之前。基于共享单倍群的fine STRUCTURE结果显示,研究群体与邻近壮侗语群体,特别是先前发表的贵州三都水族具有较近的遗传亲缘关系。
成功筛选出62个AISNPs位点,PCA和ADMIXTURE分析表明,62 AISNPs能将贵州壮侗、苗瑶和阿尔泰语系群体分为三类。随机森林效能验证结果显示,62AISNPs的祖先推断准确性超90%;用5个群体的122个个体作为测试集对其进行效能验证,结果显示测试集中大多数个体(75%~100%)都能被准确分配到其相应的源群体,仅有一小部分个体(0~25%)被错误地分配到了另外两个语系群体。
结论:
(1)贵州四个水族群体具有遗传同质性,其与东亚南方的壮侗语群体遗传关系最近;四个水族群体可以被模拟为黄河流域粟黍农业人群(33.5%~37.9%)和华南相关祖先人群(62.1%~66.5%)的混合。
(2)成功筛选出62个AISNPs位点集合,能有效区分贵州壮侗、苗瑶和阿尔泰语系群体,且祖先推断准确性达90%以上。