vcfpop:基于测序数据对同源多倍体进行群体遗传学分析
多倍体一直以来被认为是植物多样性和适应性的重要驱动力,因此常常是进化学、分子生态学和农业研究的模型系统。近年来,多倍体越来越成为理论工作和实验工作的重点。多倍体是指含有2套以上完整染色体组的生物体,在动物和植物群体中很常见。多倍体可以简单的分为异源多倍体(allopolyploid)和同源多倍体(autopolyploid)。异源多倍体的染色体组来自不同物种;而同源多倍体染色体组都来自同一物种。
同源多倍体主要体现为多体遗传(polysomic inheritance),两条以上的同源染色体在减数分裂前期配对,形成多价体(multivalents)。多体遗传的一个典型特征是配子可能继承一个基因副本两次,称为双减数(double-reduction)。例如,同源四倍体基因型ABCD,可以产生AA型配子。双减数会改变基因型的频率,提高纯合度和近交系数。
双减数示意图,左中右的圆圈分别为初级性母细胞、次级性母细胞以及配子,灰色背景的配子发生双减数,来源 (Huang et al. 2019 G3)
由于二倍体与同源多倍体在数据格式和遗传方式上的差异,为二倍体生物设计的种群遗传学软件genepop、arlequin等无法用于多倍体物种。部分软件已经可以用于分析多倍体基因型数据,如polyat、spagedi、polyrelatedness、genodive和structure等。但这些软件没有对双减数进行建模,而是采用了二体遗传或RCS(random chromosome segregation)模型,忽略了双减数的影响。黄康副教授在前期研究中已经推导了各种多体遗传减数分裂模型的基因型频率 (Huang et al. 2019 G3),所开发的polygene软件可以整合这些双减数模型,通过等位基因表型或基因型数据进行群体遗传学分析。然而,polygene是针对中小型等位基因表型和基因型数据集(<100 MiB)设计的,运行速度较慢且需要较大的内存,无法用于分析高通量测序所产生的大型数据集。
为了解决这一问题,yl23455永利官网黄康副教授带领团队成员开发了vcfpop软件。研究以 “vcfpop: performing population genetics analyses for autopolyploids and aneuploids based on next-generation sequencing datasets”为题在线发表在生态学领域顶级期刊《Molecular Ecology Resources》上,影响因子8.678。西北大学黄康副教授为文章第一作者,李保国教授为文章通讯作者。研究得到中国科学院战略先导专项B计划XDB31020302、国家自然科学基金项目31730104、32170515、31770411、32070453及陕西省青年科技新星项目2021KJXX-026资助。
文章首页(图片:杂志)
vcfpop使用C++开发,通过命令行模式调用,可以在Windows、Linux和Mac OS X以及AMD64和ARM64的CPU上运行。vcfpop在GNU通用公共许可证(GPL V3)下发布,源代码、编译后的可执行文件、示例数据以及说明书可在https://www.github.com/huangkang1987/vcfpop免费获取。
目前,高通量测序技术已经被广泛运用到动植物的研究中,vcfpop可以通过基因型数据(VCF和BCF格式)对同源多倍体进行各种群体遗传分析,如遗传多样性分析、基因型分布检验、分化系数估计、亲缘系数估计、共祖系数估计、遗传距离估计、分子方差分析、主坐标分析、种群分配、等级聚类分析和贝叶斯聚类分析。除多倍体外,vcfpop还可用于分析单倍体、二倍体、非整数倍体和混合倍体群体数据,最大支持的倍性为10。此外,vcfpop还支持筛选(根据位点质量、基因型质量、个体倍性、个体或位点分型率、位点遗传多样性等信息筛选)、格式转换、单倍型提取(将相邻若干个位点合并为一个高多态位点,需要定相基因型)以及多层级的种群结构。
部分分析结果可以通过-func_plot=yes参数进行可视化(需要安装R和若干R包),其中热图用于遗传分化、遗传距离、亲缘关系和亲缘关系系数的可视化;树状图用于等级聚类的可视化;条形图用于贝叶斯聚类的可视化;散点图用于主坐标分析的可视化,如下图所示。
柳兰(Chamerion angustifolium)数据集的可视化结果(图片:文章)
此外,研究人员对vcfpop软件中所提供的分析方法的内存占用和计算速度进行了深入优化,以最大限度地发挥计算机的运算能力。为了评估vcfpop分析大型数据集的能力,研究团队使用三个基因型数据集在一台普通台式机上进行基准测试,记录完成各种群体遗传学分析所需时间,配置如下CPU:AMD Zen3 5600X 6核CPU,主板:微星 B550M 迫击炮,内存:威刚XPG Z1 DDR4 3200 MHz 16 GiBx2,固态硬盘:三星980 Pro 1TB。其中柳兰(C. angustifolium)数据由研究团队测序获得,红薯(Ipomoea batatas)数据来自OutcrossSeq,人类(Homo sapiens)数据来自千人基因组计划。通过选择染色体,让每个数据集的原始大小达到100 GiB级别,同时对每个数据集提取一个1 GiB的子集。柳兰是一种典型的混合倍性物种,具有三种细胞型:二倍体、四倍体和六倍体,广泛分布于北极、北美、欧洲和亚洲。红薯是一种高产而适应性强的经济型农作物,属于六倍体,原产于南美洲,在中国大部分地区都有种植。
基准测试的结果见下图,大部分分析所需时间较少,分子方差分析、遗传距离估计、主坐标分析需要计算个体间或单倍型间的遗传距离矩阵,在人类数据集中需要较长时间;贝叶斯聚类需要上万次迭代,每次迭代需要更新所有位点的等位基因频率以及每个个体(或每个等位基因拷贝)的祖源,需要1025小时。且基准测试中使用了100 GiB数据集中的所有位点,实际使用可通过去除低多态位点、选取滑窗内最高多态位点、单倍型提取等方法降低数据量,减少分析所需时间。最新版本的vcfpop对贝叶斯聚类进行了进一步优化,可以使用CUDA、SIMD指令集、多线程并行化、FP32等功能加快计算速度,不用显卡可以减少到400小时,使用英伟达3090显卡可以减少到150小时左右。
该研究将二倍体的群体遗传学分析方法拓展到多倍体上,为多倍体的科学研究工作提供便利,对探索多倍体的进化具有重要的应用价值。研究团队开发的vcfpop软件将有助于珍稀濒危动植物的种群遗传学分析,更好的助力濒危动植物繁育及保护研究工作。
vcfpop基准测试结果(图片:文章)
文章链接:https://doi.org/10.1111/1755-0998.13744
西北大学 黄康 副教授
主要围绕动物学、生态学相关领域开展研究工作,以秦岭川金丝猴为模型,研究物种隔离分化的成因机制、动物亲选择行为的影响因素、复杂社会体系的形成机制等问题;将数学、统计学和计算机同生态学问题相结合,开发生态学模型和分析方法。曾获中国动物学会长隆奖-启航奖、陕西省优秀博士学位论文、陕西省自然科学优秀学术论文一等奖等奖励,在Genetics、Heredity、Molecular Ecology Resources、Methods in Ecology and Evolution、Conservation Biology等期刊发表40余篇文章,承担国家自然科学基金项目3项。
参考文献:
Huang K, Wang TC, Dunn DW, Zhang P, Cao XX, Liu RC, Li BG* (2019) Genotypic frequencies at equilibrium for polysomic inheritance under double-reduction. G3: Genes, Genomes, Genetics, 9, 1693-1706.