要全面解析表型多样性的遗传基础,不能仅停留于单核苷酸多态性(SNP),还应纳入结构变异(SV)——包括插入、缺失与重排等更广泛的遗传变异类型。尽管结构变异对复杂性状可能具有关键作用,但目前其相关研究仍有待深入。长读长测序与泛基因组学方法虽已提升了在群体层面高分辨率识别SV的能力,但对大规模样本进行完整基因组组装依然面临挑战。天然酿酒酵母(S. cerevisiae)是开展此类研究的理想模型,然而该物种目前仍缺乏群体规模的结构变异图谱,制约着对不同类型遗传变异如何塑造表型的深入研究。
法国斯特拉斯堡大学Joseph Schacherer及其研究团队于2025年10月15日在著名期刊Nature上发表了一篇题为“From genotype to phenotype with 1,086 near telomere-to-telomere yeast genomes”的研究论文,对1086株酵母进行T2T级别的组装,在物种层面上实现结构变异和基因内容多样性的全面汇编。

一、1482个基因组的near-T2T组装
作者对989个天然酿酒酵母分离株进行了ONT高深度测序,平均测序深度为95×,N50达到19.1kb,并结合来自啤酒分离株和台湾分离株的数据,总共生成了1482个高质量的基因组组装。研究表明,这些分离株大多为二倍体,且55.2%为杂合型。通过混合组装流程,最终获得了染色体级别的组装,其中97.2%的染色体组装为单一contig,达到了near-T2T的状态。组装的大小在11.17 Mb至12.95 Mb之间,基因组完整性达到99.1%。

图1:1086株分离株的总体结构和基因组组装
二、物种范围的结构变异谱系
通过对1086个分离株的比对,识别出6587个独特SV,主要包括插入-缺失变异(PAV)、拷贝数变异(CNV)、倒位和易位,覆盖序列约27.3Mb。转座元件特别是Ty元件,是SV的主要驱动因素。研究估算酵母的总SV数约为7237个,捕获率超过90%,冗余回收率达99.5%,表明数据集几乎完整地代表了该物种的SV多样性。SV等位基因频率总体偏低,69%为罕见变异(MAF<1%),且倒位与易位稀有度高、具潜在有害效应。杂合性分析显示,SV的杂合比例与SNP杂合性显著相关,位于亚端粒区的 SV 显示出更高的杂合性,与这些区域已知的结构可变性一致。

图2:酿酒酵母结构变异景观
三、结构变异的基因组分布
进一步研究发现,酿酒酵母结构变异在基因组中的分布极不均匀,在亚端粒区显著富集,且富集程度远高于SNP和小片段变异。通过全基因组结构多样性分析,共识别出46个SV集中区域,其中21个为易位集中区域,几乎全部位于亚端粒区。除染色体8与16之间的相互易位外,大多数热点与转座元件(Ty元件)或重复序列密切相关。PAV、CNV和倒位集中区域富含TE或易发生变异的基因,如FLO、CUP1、HPF1、SPA2和NUM1。研究发现,这些集中区域的形成机制包括基因组不稳定性与适应性选择压力。其中23个集中区域在不同谱系间分布均匀,定位于基因组不稳定区;另23个则表现出谱系特异性富集,反映了种群瓶颈效应或局部适应,例如与亚硫酸盐和铜抗性相关的SV在葡萄酒酵母中显著富集。
四、酵母的完整基因泛基因组
本研究通过高质量基因组组装,构建了酒酿酵母的完整基于基因的泛基因组,共鉴定出8541个基因家族,其中2199个为参考基因组中缺失的新基因。泛基因组共包含5047个核心基因和3494个非核心基因,后者进一步分为软核心(超90%样本中含有)、可有可无(少部分样本中含有)以及私有(仅存在于一个样本中)基因三类。核心与软核心基因比例达73.9%,显示出中等程度的基因含量变异,表明酵母具有封闭型泛基因组特征。非核心基因在亚端粒区显著富集,表达量普遍低于核心基因,反映了这些区域的高度可变性。在2199个新基因中,约56%来源于近缘酵母的基因渗入,16%来自水平基因转移(HGT),23%为快速进化基因,其余4%可能为新生基因。这些非核心基因大多定位于亚端粒区且表达量低。群体结构分析显示,基因变异呈显著群体分化,不同生态来源的谱系中存在广泛渗入和杂交迹象。部分渗入基因赋予了新的性状,例如7个MEL基因编码的α-半乳糖苷酶,使细胞能利用蜜二糖生长。这些基因与奇异酵母S.paradoxus和麦卡特酵母S.mikatae同源,可能为平行获得事件,促进了趋同的功能进化。

图3:基于基因的泛基因组
五、结构变异驱动广泛的性状关联
作者基于1000余个分离株的基因组数据,系统评估了SVs、SNPs与indels对性状的影响。结果显示,SVs是驱动性状关联的主要因素。尽管在检测到的变异中占比较小,SVs在数量性状基因座(QTL)中显著富集(19.8%),远高于SNPs(6.5%)和indels(10.5%)。此外,SVs表现出更强的多效性,平均影响2.82个性状,并倾向于富集于亚端粒区域,在QTL热点中起主导作用。就效应大小而言,indels的平均效应最强,超过SNPs和SVs。这主要由于indels在“局部QTL”(即靠近受影响基因的QTL)中显著富集,而局部QTL通常具有比远端QTL更大的效应幅度。综上,研究阐明了不同遗传变异类型对表型多样性的独特贡献:SVs影响范围广,涉及性状较多;而indels虽影响性状范围较窄,但对目标性状的作用通常更强。

图4:全基因组关联目录
六、不同类型结构变异的表型效应
作者对不同类型的结构变异进行了表型效应的详细分析,发现缺失(deletion)、拷贝数变异(CNV)和插入(insertion)等SVs对表型的影响存在显著差异。研究鉴定了615个CNV-QTL、192个缺失QTL、54个插入QTL和2个易位QTL。缺失和CNV类型的SVs在表型效应方面表现出更强的富集,缺失QTL的效应大小比CNV-QTL和插入QTL大,且在25%的情况下具有局部效应。相较于插入,缺失和CNV的QTL显示出更大的效应和更广泛的表型关联。插入QTL的效应较小,并且更常局限于局部效应,较少在跨基因组范围内发挥作用。
七、不同类型性状的复杂性差异
本研究比较了分子性状与有机体性状的遗传结构差异,发现两者在复杂性上存在显著区别。共鉴定出4444个分子性状QTL和168个有机体性状QTL,平均每个性状分别对应0.9和1.7个QTL,表明有机体性状涉及更多基因位点,遗传结构更为复杂。相比之下,分子性状的QTL平均效应值更高,提示其更易受少数强效变异的影响。在变异类型分布上, SV-QTL在分子性状中占比18.6%,而在有机体性状中高达41.1%,远高于常见变异中SV的比例。特别是在有机体性状中,SV的显著富集提示其在复杂性状形成中可能发挥关键作用。综上所述,有机体性状通常由数量更多、效应较弱且分布于多层次调控网络的遗传变异所决定;而分子性状则更多受少数效应较强的变异驱动。其中,大型结构变异可能在多个调控层级上产生更为广泛且持久的表型影响。

图5:分子和有机体性状的不同遗传结构
八、基于图形的泛基因组的多样性研究
作者基于500个酿酒酵母单倍型构建了一个图形泛基因组,用以全面捕捉结构变异和小变异。该图谱全长57.7 Mb,编码超过200万个变异位点,涵盖6587个SV及大量单核苷酸多态性。结果显示,多等位结构变异在亚端粒区显著富集,且图形泛基因组在基因分型准确性和遗传力估测方面优于线性参考,平均提升遗传力估计达10%。研究凸显了图形泛基因组在系统解析遗传变异、推动性状定位和进化适应研究中的价值,同时作者也指出当前图谱方法在检测相互易位等复杂变异方面仍存在局限,未来需结合组装型泛基因组以更完整呈现基因组多样性。
结语
本研究基于1086个酿酒酵母天然分离株的高质量、近完整端粒到端粒基因组,对一个典型真核生物模型展开了迄今为止最为全面的遗传变异分析。通过构建这一高质量数据集,研究不仅系统鉴定了从单核苷酸多态性、短插入缺失到大规模结构变异在内的全谱遗传多样性,更深入揭示了不同类型变异在分子表型与有机体性状两个层面的差异化贡献。该工作不仅为理解表型变异的遗传基础提供了新见解,也为真核生物泛基因组研究建立了重要资源。
华命生物产品服务一览

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!
