TEL:18327076163

HR项目文章 | 枣着丝粒进化详解

着丝粒是染色体上负责姐妹染色单体分离的关键区域,其功能在真核生物中广泛保守,但DNA序列的组成在不同物种间存在显著差异。植物的着丝粒较为多样,通常由高拷贝的串联重复(TR)单元组成,这些重复序列有时形成高阶重复(HOR)。如拟南芥和黄豆等植物的着丝粒中存在大量卫星重复序列,但在一些禾草和茄科植物中着丝粒的结构则由长末端重复反转录转座子(LTR-RTs)主导。

杨猛教授及其研究团队于2025年9月15日在著名期刊Horticulture Research上发表了题为“Structural composition and evolution of jujube centromere reveal a dominant role for LTR retrotransposon”的研究论文,完成了枣树Ziziphus jujuba的T2T单倍型基因组组装,系统解析枣基因组中着丝粒的结构与进化特征,进一步揭示了转座元件在着丝粒形成与多样化中的驱动作用。华命生物深度参与本项目的着丝粒分析工作。

 

一、冬枣基因组组装及注释

作者采用PacBio HiFi(70×)、ONT超长读长(123×)和Hi-C(105×)等多种测序技术,成功构建了冬枣的无缺口T2T单倍型基因组,基因组大小分别为388Mb和383Mb,重复序列含量为55.66%和55.51%,共注释出33414和32989个蛋白编码基因。BUSCO评估结果显示,两个单倍型的基因组完整性分别达到99.4%和99.3%。结构分析发现,两种单倍型的染色体构型高度一致,基因密度由端粒向着丝粒逐渐降低,而重复序列密度则呈相反趋势。共线性分析表明,约52%和51%的基因组区域在两个单倍型间存在共线性关系,反映出较高的基因结构保守性。通过重复序列特征初步识别着丝粒区域后,结果显示枣树着丝粒可能具有非典型的卫星重复结构,区别于多数植物中常见的典型卫星重复模式。

表1:两种单倍型的基因组特征

图1:红枣单倍型解析、无间隙T2T基因组组装与着丝粒景观

 

 

二、着丝粒区域中CRs的富集

研究通过ChIP-seq精确界定了两套单倍型中全部染色体的着丝粒区域,其长度为0.75–1.40Mb,主要由LTR-RT元件构成,分别占HapA与HapB着丝粒序列的84.55%和82.02%,其中Gypsy型LTR-RT的富集最为显著,呈现出枣树着丝粒特异的积累模式。由于枣树着丝粒缺乏典型的卫星重复序列,作者推测其着丝粒功能可能由类似辣椒CRs的反转录转座子介导。在着丝粒区域内共鉴定到13个高频重复家族,并从中筛选出repeat-78作为潜在的着丝粒特异LTR-RT标记。进一步分析显示,在76个完整LTR-RT元件中有48个与repeat-78高度相似,因此被定义为枣树着丝粒反转录转座子(CRJs),其中一个长度约11454bp的元件被选为代表性CRJ用于深入研究。全基因组比对表明,CRJ不仅分布于着丝粒内部,也存在于近着丝粒区域,但其LTR序列在着丝粒中高度富集。基于CRJ的LTR设计的荧光探针用于FISH实验,在24条染色体的着丝粒位置均检测到明显信号,证实了CRJ与着丝粒染色质的共定位关系。进一步的ChIP-seq信号分析显示,CRJ的LTR区域具有显著增强的CENH3结合信号,说明CRJ在枣树着丝粒结构维持和功能实现中发挥关键作用。

图2:枣着丝粒特征

表2:两种枣单倍型着丝粒的位置、组成和FISH探针拷贝数

 

 

三、枣树两种单倍型的着丝粒特征

全基因组亚硫酸氢盐测序结果显示,大多数染色体着丝粒区域甲基化水平较高,仅第1号染色体中央显著降低。通过序列比对发现,第1号染色体着丝粒呈不对称结构,左侧同源性更高;第10号染色体存在约0.48Mb倒位,但未影响CENH3定位及着丝粒稳定性。作者还发现,多个染色体的CRJ富集区在两个单倍型间表现出更高的序列相似性,说明其在着丝粒形成与进化中具有特殊作用。通过基因表达分析,作者发现HapA与HapB着丝粒区域整体表达水平相近,大多数基因低表达,仅少数与环境适应和抗逆反应相关的基因高表达。其中,第2号和第3号染色体的着丝粒基因相对活跃。GO富集分析结果显示,这些基因主要参与细胞核过程、DNA结合与转录调控,并显著富集于DNA修复和染色质重塑通路。作者认为,枣树着丝粒的稳定性可能依赖异染色质形成和复制压力缓解等间接机制。

图3:两种枣单倍型着丝粒的遗传和表观遗传景观

 

 

四、着丝区LTR反转录转座子的进化特征

作者对包括凤梨Ananas comosus、拟南芥A. thaliana、辣椒C. annuum、大豆G. max、水稻Oryza sativa、豇豆Vigna unguiculata、葡萄Vitis vinifera、玉米Zea mays和枣树在内的九种植物着丝粒区域进行了系统比较与进化分析,发现不同物种的着丝粒在序列组成上差异显著:拟南芥和凤梨以TRs为主,而枣树和辣椒的着丝粒主要由Gypsy型LTR-RTs构成。进一步分析表明,LTR-RTs在着丝粒中广泛分布。作者基于整合酶、反转录酶和RNaseH等结构域将九种植物的LTR-RTs分为13个亚家族,发现凤梨、葡萄与豇豆的Tekay元件聚类明显,而枣树的Athila与CRM元件独立分化。通过新建立的着丝粒逆转座子富集指数(CRI),作者鉴定出628个着丝粒特异性LTR-RTs(nCRs),其中CRM占比最高(81.2%),其次为Tekay和Athila。这些nCRs按亚家族而非物种聚类,显示其在功能与进化上的趋同性。

图4:九个物种着丝粒结构和进化的比较分析

 

 

五、着丝粒LTR的扩增有助于着丝粒TRs的形成

研究发现,着丝粒LTR(CLTRs)的扩增在TRs形成过程中起关键作用。作者发现,枣树的CLTRs扩增主要来源于两侧LTR区域,且不同物种间表现出谱系特异性分化。系统发育分析结果显示,拟南芥的CLTRs最早分化,枣树与葡萄聚为一类,而凤梨虽为单子叶植物,却与双子叶植物分组,说明其CLTR元件具有独立的进化轨迹。同种内CLTRs长度分布规律稳定,并形成明显的物种特异聚类特征。

为进一步解析枣树着丝粒的演化,作者整合了骏枣(JZ)与酸枣(SZ)的T2T基因组数据,对比分析了三个个体(JZ、SZ、DZ)的CLTRs,并构建系统发育树。结果显示,枣树CLTRs可分为两个亚支(J1和J2),其中J1插入时间较近(约0.35Mya),而J2更为古老(约2.46Mya)。Athila亚家族的CRJs主要归属于J1,而CRM与Ivana亚家族集中于J2。比对分析发现,部分J2型CLTRs与着丝粒重复序列(CTRs)存在显著同源区段,长度为50-140bp,相似性高达95%。这些区段覆盖约94%的比对序列,共线性分析进一步证实了CLTR向TR的演化过渡。作者据此推测,较早的CLTRs经序列同质化与局部扩增,逐步演化为着丝粒TRs,从而揭示了枣树着丝粒重复序列形成的分子演化机制,为植物着丝粒的结构演化研究提供了新的证据与思路。

图5:从CLTR推断着丝粒的进化动力学

 

结语

本研究构建了冬枣单倍型分型的T2T基因组,并利用CENH3 ChIP-seq精确定位全部着丝粒,主要由Gypsy型LTR-RT构成且缺乏典型串联重复。作者鉴定到一类在着丝粒中高度富集的CRJ反转录转座子,其LTR序列在ChIP-seq和FISH实验中均与CENH3强力共定位,说明CRJ在枣树着丝粒结构与功能中发挥关键作用。甲基化与结构分析显示,除1号染色体中心甲基化偏低和10号染色体小规模倒位外,两单倍型着丝粒整体高度稳定。基因表达分析表明,着丝粒区域基因整体低表达,少数与抗逆和环境适应相关的基因较活跃。跨物种比较揭示植物着丝粒存在“TR主导”“LTR-RT主导”及混合三种模式,并指出着丝粒LTR可能通过片段扩增逐步演变为卫星重复,为理解木本果树着丝粒的形成与进化提供了关键见解。

 

华命生物产品服务一览

 

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!