TEL:18327076163

Genome Biology精选丨小麦各亚基因组着丝粒演化轨迹

着丝粒在细胞分裂过程中对染色体精确分离及维持基因组稳定性具有关键作用。然而,其演化动态,尤其在具有复杂基因组结构的多倍体生物中仍然存在大量未解之谜。异源多倍体小麦具有明确的多倍体层级体系及较近的多倍化历史,为研究着丝粒进化提供了理想模型。

近日,中国科学院遗传发育所的韩方普老师和华中农业大学苏汉东老师合作,在国际著名期刊《Genome Biology》上,发表了题为“Distinct evolutionary trajectories of subgenomic centromeres in polyploid wheat”的研究成果,在本研究中,作者利用最新发布的综合参考基因组组装,对普通小麦及其祖先物种的着丝粒进行了系统性比较分析,揭示了小麦各亚基因组特异性的着丝粒演化轨迹。

 

 

 

一、普通小麦着丝粒景观特征

基于Near-T2T基因组组装(CS-CAU),作者采用CENH3特异性抗体进行ChIP-seq分析,界定了功能性着丝粒的相对富集区域。AA亚基因组着丝粒大小范围为5.6-7.8 Mb,平均6.5 Mb;BB亚基因组为5.0-7.3 Mb,平均5.7 Mb;DD亚基因组为5.0-7.2 Mb,平均6.0 Mb。该系统中着丝粒大小未遵循亚基因组尺寸等级(BB>AA>DD),这可能源于仅三个亚基因组的有限样本量,但并不否定真核生物中的普遍规律。

为全面解析普通小麦着丝粒组成,作者采用RepeatExplorer和LASTZ软件对着丝粒序列进行注释。分析表明小麦着丝粒主要由LTR-RT构成,卫星序列占比仅0-5%。卫星序列单元大小为566 bp和550 bp。CentT566主要分布于BB亚基因组,CentT550则富集于DD亚基因组。各亚基因组着丝粒景观存在显著差异,其中DD亚基因组着丝粒序列与AA/BB亚基因组呈现明显分化。每条染色体的着丝粒均展示独特的序列结构特征与CENH3结合模式。

图1:六倍体小麦着丝粒重复序列阵列的精细结构研究

 

 

二、普通小麦着丝粒演化动力学

鉴于LTR-RT构成小麦着丝粒的主要组分,作者深入探索了LTR-RT的整体分布特征及其在着丝粒进化中的作用。对CS-CAU参考基因组功能性着丝粒区的LTR-RT进行鉴定和整个后,在普通小麦功能性着丝粒中共检测到3595个全长LTR-RT(fLTR-RT),86.5%的fLTR-RT属于Gypsy超家族。Gypsy超家族在21个功能性着丝粒区域均匀分布,而Copia超家族在同源第一组富集,尤其在Cen1D着丝粒。

为进一步细化分类,作者对fLTR-RT进行系统发育分析。以RLG_famc8.3(Cereba)、RLG_famc8.2(Quinta)和RLG_famc39(Abia)逆转录转座子为参考,并纳入玉米、水稻和黑麦的着丝粒特异性RT序列作为外群。进化树可划分为五大分支:CRW1&2(Cereba亚家族)、CRW3(Quinta)、CRW4(少量Abia)和CRW5(玉米CRM1、黑麦pAWRC1及几乎所有Copia),表明CRW5代表一类分化较早、异质性更强的LTR。

RT入侵与降解这两种相反作用力共同促进了CRW在二倍体与六倍体小麦(近)着丝粒区的积累,导致CRW1&2显著富集,同时着丝粒区存在微量CRW3和CRW4。通过估算A、B、D着丝粒fLTR-RT插入时间,发现D着丝粒富含更古老的CRW,而A与B着丝粒的年龄分布无显著差异。系统聚类显示CenA与CenB的CRW亲缘更近,CenD则形成独立分支,表明AA与BB亚基因组进化关系更紧密。而CenB拥有最多两端LTR序列完全一致的新生CRW,提示其CRW活性显著高于CenA和CenD。密度图显示三个着丝粒的RT爆发事件存在同步峰值,但CenD在0.8 Ma处出现额外非主峰。此外,RT爆发事件检测存在时间滞后性:CenD最早发生,随后是CenA和CenB。综上所述,各亚基因组功能性着丝粒在CRW拷贝数、插入时间等方面呈现显著差异的进化轨迹。

图2:普通小麦CRWs组成与插入历史研究

 

三、AA亚基因组着丝粒演化机制

为探究多倍体小麦中AA亚基因组着丝粒的分子进化,作者针对不同倍性水平的小麦品系生成了多组CENH3-ChIP-seq数据集,并整合了代表性种质(涵盖二倍体一粒小麦、乌拉尔图小麦、四倍体圆锥小麦及六倍体普通小麦)的高质量参考基因组数据。

通过将三种乌拉尔图小麦和四种一粒小麦的CENH3-ChIP-seq读数映射至乌拉尔图小麦参考基因组,检测到基于二倍体基因组的连续CENH3峰。研究发现乌拉尔图小麦着丝粒CENH3峰更集中连续,而一粒小麦中则呈现分散分布。不同AA系着丝粒CENH3谱存在显著变异,表明AuAu与AmAm小麦着丝粒已发生一定程度分化。当将这些数据映射至CS-CAU参考基因组时,仅四倍体和六倍体小麦的AA亚基因组数据显示明显着丝粒峰。与乌拉尔图基因组中的连续峰不同,CS-CAU基因组中的峰呈现散在间断分布。

比较点图分析显示,普通小麦CS-AA亚基因组着丝粒序列相较于二倍体AuAu和AmAm基因组发生显著分化。而着丝粒内CRW的滞留能力不受多倍化影响,二倍体AA基因组与六倍体小麦的CRW含量保持稳定。通过CRW系统发育分析进一步揭示着丝粒进化动力学:CRW1&2在二倍体与六倍体着丝粒中呈现明显聚类分化,而CRW3 across倍性水平保持保守特征。CRW插入年代学分析显示,野生一粒小麦着丝粒含有显著更年轻的CRW;有趣的是,CS-AA中1-5号染色体CRW插入时间较乌拉尔图小麦更年轻,而6-7号染色体则呈现相反趋势,表明AA亚基因组着丝粒在多倍化过程中经历了实质性变异。

为解析多倍化过程中着丝粒的动态变化,作者将乌拉尔图小麦和一粒小麦CENH3-ChIP-seq数据在CS-CAU基因组中识别的分散着丝粒区划分为五个区域:区域1/3/5代表在一个、两个或全部种质中显著富集的祖先着丝粒区;区域2代表六倍体小麦中形成的功能性着丝粒;区域4既非祖先着丝粒区也非六倍体中形成的功能性着丝粒。CRW插入时间分析显示区域2含有最年轻的CRW插入,而代表祖先着丝粒区的区域1/3/5含有相对古老的CRW。

基于这些发现,作者提出AA亚基因组着丝粒进化模型:多倍化后的进化过程中发生系列CRW入侵事件,这些入侵诱导着丝粒结构变异,使部分古着丝粒重复序列转移至邻近着丝粒周边区。该过程导致CENH3核小体在古老与新生CRW间振荡,直至近期活跃的CRW区域展现出更强的CENH3结合能力。综上所述,转座元件在多倍化过程及其后对AA亚基因组着丝粒的入侵,可能导致原本连续的CENH3峰解离为分散区域。

图3:普通小麦CenA-CS着丝粒的演化模型研究

 

四、DD亚基因组着丝粒演化机制

六倍体小麦的DD亚基因组起源于至少两次独立杂交事件,其中L2为主要供体,L1与普通小麦现有DD亚基因组的遗传距离最远。基于粗山羊草泛基因组数据,作者对CS-DD亚着丝粒与三个进化谱系代表种质进行比对分析。除4D染色体着丝粒表现异常外,二倍体粗山羊草和六倍体DD亚基因组的所有其他着丝粒均呈现显著序列相似性,尤其与L2谱系种质高度保守。而4D着丝粒可能源于其在普通小麦中发生了着丝粒重定位事件。

由于DD亚基因组是六倍体小麦中最晚并入且供体关系明确,作者得以详细追踪其着丝粒进化轨迹。通过对CS-DD中965个fLTR-RT进行分类和插入时间计算,在DD着丝粒中鉴定出5个CRW进化枝。分析表明CRW入侵事件在二倍体向六倍体转变及后续进化过程中并非均匀发生。相反,RT爆发事件主要由活性更高的CRW1&2和CRW3驱动,集中发生于0-0.5 Ma期间并在0.1 Ma达到峰值。通过统计Cen1D至Cen7D着丝粒区CRW分布,发现Cen1D和Cen4D的CRW5拷贝数显著高于其他CRW类型,表明这两个着丝粒为古着丝粒残留。

图4:Cen1D着丝粒演化轨迹研究

 

五、Cen1D与Cen4D为古着丝粒残留

Cen1D和Cen4D的功能性着丝粒骨架主要由古老的CRW5构成。CS-Cen1D相较于粗山羊草的CENH3结合扩展区主要由CRW1&2组成,表明其插入时间较晚。这说明扩展的功能着丝粒区是由CRW入侵新形成的,而非利用已有的着丝粒周边区。

通过比较二倍体与六倍体水平Cen1D的进化轨迹,作者发现粗山羊草Cen1D(DD-Cen1D)比CS-Cen1D更年轻。DD-Cen1D在原始骨架基础上保留了约0.1 Ma插入的大量CRW。更年轻的DD-Cen1D通过在古老CRW5骨架基础上随机保留CRW1&2的连续入侵维持着丝粒功能。DD-Cen1D持续引入的CRW与CS-Cen1D扩张的CRW在核苷酸水平存在差异,导致将中国春CENH3-ChIP数据映射至粗山羊草参考基因组时,其亚着丝粒域未检测到相应连续峰,而在邻近区域检测到模糊峰。

另一个古着丝粒CS-Cen4D几乎完全由CRW5组成。当粗山羊草CENH3-ChIP数据映射至中国春4号染色体和DD-Cen4D时,这些CRW的插入时间远古老于着丝粒域,表明CS-Cen4D中存在强度差异的表观等位着丝粒。系统发育分析显示DD-CS-Cen4D与CS-Cen4D的CRW明显分离。DD-CS-Cen4D的2.24 Mb区域是在0.1-0.2 Ma期间,通过间歇性插入到非着丝粒特异性TE遗迹与其他重复序列的混合体中形成的。而DD-Cen4D则是在保留原始CRW5骨架的基础上,通过向DD-CS-Cen4D插入大量CRW,最终形成4 Mb的功能性着丝粒。此外,DD-Cen4D与DD-CS-Cen4D的CRW存在高度相似区域,其独特碱基对水平相似区超过2 Mb且难以区分。

在4D染色体着丝粒周边区还观察到11类LTR-RT的多轮转座爆发,表明(近)着丝粒区LTR-RT在物种形成后通过增加拷贝数经历了快速独立进化。从插入时间来看,着丝粒周边区的活跃程度远低于着丝粒区。

图5:Cen4D着丝粒演化轨迹研究

 

 

六、DD亚基因组其他着丝粒演化

2D、3D、5D、6D和7D染色体功能性着丝粒主要由年轻的CRW1&2构建。观察发现这些着丝粒向一侧或双侧扩展,这种模式可能与适应更大基因组尺寸相关。扩展的较古老区域在多倍体形成前即已存在,表明并非新插入序列。此外,部分毗邻着丝粒的周边区承担了功能性着丝粒角色,能够在多倍化后加载CENH3。

基于此,作者提出年轻异源六倍体普通小麦DD亚基因组功能性着丝粒的演化模型:相较于二倍体粗山羊草,CENH3表现出向着丝粒周边区扩展的趋势。除古着丝粒1D和4D外,其余五个功能性着丝粒区的fLTR-RT密度明确高于周边区域。这可能是DNA水平上功能性着丝粒的重要遗传标记,与着丝粒功能建立和维持的关键表观遗传标记CENH3形成互补。这些发现表明,CENH3结合域可能通过fLTR-RT整体分布密度的变化来界定。在多倍体小麦进化初期,CRW位点的动态变化及其分布密度变异在着丝粒功能维持中的作用值得深入研究。

图6:普通小麦DD亚着丝粒演化模型研究

 

结语

本研究重建了多倍体小麦着丝粒可塑性的动态进化图谱,揭示了由CRW活性介导的亚基因组着丝粒差异化进化轨迹。整合分析表明,小麦着丝粒如同记录CRW间动态互作的基因组档案,近期扩张的CRW1&2亚家族与保持保守结构的CRW3共存。通过对人工合成系与天然小麦谱系的比较分析,发现显著亚基因组分化:AA着丝粒经历CRW反复入侵,而DD着丝粒呈现渐进式表观遗传扩张,凸显了多倍化过程中着丝粒重构的复杂进化动力学。这些发现联合泛基因组多样性与比较基因组学,为理解亚基因组着丝粒进化的机制基础提供了重要见解,并为潜在作物改良策略建立了宝贵框架。

 

 

华命生物产品服务一览

 

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!