着丝粒是染色体分裂中负责纺锤体微管附着、确保姐妹染色单体正确分离的重要异染色质结构。它由着丝粒特异性组蛋白CENH3在表观遗传上定义,通常与长串重复的卫星序列相关。尽管功能高度保守,着丝粒DNA及其相关蛋白在不同物种间却表现出极大的多样性。芸薹属(Brassica)植物作为与拟南芥关系密切的重要蔬菜与油料作物,包括白菜、黑芥和甘蓝等多个二倍体及其杂交形成的异源四倍体物种,因其丰富的进化与形态多样性,成为研究着丝粒结构与进化的理想体系。
北京大学现代农业研究院郭立研究员及其团队于2025年10月10日在著名期刊nature plants上发表题为“Pancentromere landscape and dynamic evolution in Brassica plants”的研究论文,通过构建多个芸薹属物种的高质量基因组,系统解析了着丝粒的结构与进化特征,揭示了其在种内与种间的多样性规律,为芸薹属作物的遗传研究与进化分析提供了重要基因组资源。

一、芸薹属植物基因组组装
为了实现白菜(B. rapa ssp. pekinensis)的T2T基因组组装,研究团队对双单倍体“福田”植株进行了广泛的测序,涵盖了PacBio HiFi、Oxford Nanopore(ONT)和Illumina短读数,成功组装了430.8 Mb的基因组,contig N50达45.93 Mb。为了研究白菜的泛着丝粒,作者还组装另外六种形态类型的白菜基因组,生成了多个‘A’基因组组装,大小在422.5 Mb至446.37 Mb之间,contig N50范围为36.37 Mb至46.37 Mb。此外,研究还成功组装了异源四倍体油菜(B. juncea)和甘蓝(B. napus)的基因组。所有基因组组装均展示了高准确性和完整性,QV值在47.8到59.2之间,BUSCO评分超过99.4%。在“福田”T2T基因组中注释了48697个基因,结果与广泛使用的Chiifu v4.1参考基因组相一致,为白菜的基因组研究和育种提供了高质量的资源。

表1:芸薹属作物基因组组装统计
二、油菜近着丝粒和着丝粒的基因组特征
在油菜中,着丝粒主要由176bp的卫星重复序列(CEN176)组成,而近着丝粒区域则呈现由238bp简并重复序列(CEN238)和特异性反转录转座子交织的镶嵌结构。通过CENH3 ChIP-seq分析,研究确认这些区域在“福田”基因组中平均富集约1.3倍,占整个T2T基因组的30.6%。在着丝粒中,CEN176卫星占据65.18%,其次为Copia(19.88%)和Gypsy(9.48%)元素。CEN176卫星在芸薹属植物中被划分为CentBr1和CentBr2,二者同源性高达86.9%。与拟南芥相比,油菜的卫星阵列频繁中断,其中嵌入了1,381个完整的LTR反转录转座子(包括Ale与CRM元件),这些转座子与卫星序列交错分布,共同塑造了当前油菜的着丝粒结构。此外,油菜在多个染色体上存在大规模的近着丝粒异染色质区段,这些区段由Gypsy转座子和rDNA衍生序列主导,协同构建了近着丝粒的结构特征。

图1:大白菜“福田”基因组着丝粒完整图谱
三、油菜着丝粒区域多样性
作者进一步研究了油菜十二个近完整A亚基因组中着丝粒的动态进化特征。结果表明,着丝粒在位置上高度保守,但其大小和结构存在显著差异。主要由CEN176卫星序列构成,同时伴有不同比例的Copia元件。通过对6487个高频CEN176序列聚类分析,确定了CentBr1与CentBr2两大超家族,其中CentBr1具有更高的变异性。着丝粒在染色体间的分化明显强于不同品系间,这表示每条染色体的着丝粒独立且快速演化。平均每个着丝粒约6.85Mb,CENH3蛋白主要富集于约1Mb的核心区域。不同材料的核心区成分相似,但卫星与反转录转座子(LTR-RTs、Copia、CRM)比例存在差异。进一步分析发现,CEN03和CEN05着丝粒结构最为保守,主要由CentBr2卫星组成,而其他多由CentBr1主导,表明CentBr2型着丝粒进化较慢,而CentBr1型更具动态变化特征,体现出芸薹属染色体间着丝粒的快速、独立进化模式。

图2:油菜着丝粒多样性
四、芸薹属着丝粒区域多样性
研究进一步通过比较A、B和C基因组中的着丝粒组成,探讨了芸薹属作物中着丝粒的动态演化,以拟南芥(A. thaliana)作为外群参考,并加入近缘物种萝卜(Raphanus sativus)进行分析。研究发现,A、B和C基因组的着丝粒长度分别为6.76 Mb、5.46 Mb和6.07 Mb,均大于拟南芥的2.53 Mb,但小于萝卜的13.17 Mb。在A和C基因组中,着丝粒主要由CEN176卫星序列主导;而B基因组缺着丝粒卫星,主要由Copia反转座元件所替代。
作者在B基因组的一个着丝粒边界处识别到28个CEN176卫星序列的残余拷贝,作者据此推测该类卫星曾存在于B亚基因组中,但因CENH3蛋白发生变异,最终从功能性着丝粒区域中被排除。作者发现,与萝卜相比B基因组中的着丝粒卫星已明显退化,取而代之的是大量Ale与CRM元件的积累,说明LTR-RTs可能在着丝粒结构与功能中发挥关键作用。在C基因组中,作者观察到主要的CentBr1卫星被CentBr2卫星所环绕,而其他染色体则完全由CentBr2类型卫星主导。基于上述结构特征及A基因组中CentBr2类遗迹的存在,作者认为CentBr2可能为芸薹属作物的祖先着丝粒卫星,其后才演化形成CentBr1。
作者进一步分析发现,芸薹属作物与萝卜的着丝粒非卫星序列主要由Ale和CRM元件构成,且多数分布于着丝粒卫星阵列内部。其中,约40%的完整CRM元件位于A基因组的着丝粒旁区域。作者还注意到CRM元件在分类上呈现多样性,部分CRM家族为特定物种所特有。Ale元件在A基因组中主要富集于着丝粒区域,而在B与C基因组中数量较少。此外,作者指出LTR逆转录转座子在不同基因组中表现出插入位置偏好性,且位于着丝粒卫星阵列中的LTR元件相对更为年轻,其中A基因组内的Ale元件插入时间最近,这些发现进一步揭示了不同基因组中转座元件动态与着丝粒演化的关联。

图3:芸薹属着丝粒多样性
五、芸薹属近着丝粒区域多样性
该研究发现,白菜的近着丝粒区域主要由 Gypsy 反转座子和rDNA衍生的CEN238重复组成。以CEN09邻近的250 kb序列为代表,含15个CEN238串联重复,被 CRM 与 Tekay 元件插入。部分CEN238近期被这些反转座子入侵,表明rDNA来源序列塑造了近着丝粒结构。对十二个A亚基因组的分析显示,近着丝粒在大小和组成上总体保守,仅Chr05发生部分丢失。其保守性可能因近着丝粒在白菜与甘蓝分化后才出现,也可能因其作为辅助着丝粒而演化缓慢,表现为中等CENH3富集及短着丝粒与长近着丝粒并存的特征。

图4:芸薹属近着丝粒区域多样性
六、芸薹属着丝粒内的表观遗传景观
作者发现芸薹属与萝卜的着丝粒基因组景观差异显著。进一步分析显示,三种芸薹属物种的着丝粒在CG、CHG和CHH位点均呈高甲基化状态。所有类型着丝粒均存在约1.5-2.0 Mb的局部区域呈现CHG甲基化显著下降,且该区域与CENH3识别的着丝粒核心区完全重合,这说明着丝粒功能可能与CHG低甲基化环境相关。
作者分析了着丝粒卫星序列和逆转录转座子上的DNA甲基化模式,结果发现着丝粒上的Ale和CRM元件在CHG位点的甲基化水平低于周围的卫星序列,这与拟南芥中着丝粒ATHILA元件的高CHG甲基化情况相反。作者还发现,CENH3在CentBr1和CentBr2之间的总体富集水平存在差异。尽管B型着丝粒主要由Copia元件主导,A和B亚基因组却呈现相似的CENH3分布模式,在着丝粒区域的Ale和CRM元件上信号显著降低,接近着丝粒外区域水平。总体来看,这些结果表明,尽管芸薹属着丝粒在基因组结构上存在显著差异,其表观遗传组织仍具有较高的保守性。

图5:着丝粒内的基因组和表观遗传组织
七、芸薹属着丝粒的演化模型
在十字花科基因组中,着丝粒及其邻近区域表现出快速演化特征。进化分析表明,拟南芥与芸薹属约在2000–3500万年前分化,两者着丝粒卫星序列同源性仅约50%。此后,芸薹属经历了一次全基因组三倍化,并迅速与萝卜分化,二者着丝粒卫星序列同源性为75%。萝卜具有最长的着丝粒,主要由CEN177卫星构成;而亲缘较近的黑芥因BnCENH3蛋白突变,丢失了着丝粒卫星。为弥补B亚基因组中卫星序列的退化,其着丝粒区域积累了更多Copia逆转录转座子,邻近区则富集了更多Gypsy元件。
基于已报道的祖先基因组,作者重建了A和C基因组的演化路径。在甘蓝C基因组的核型形成过程中,祖先基因组至少经历了9次断裂和9次融合,其中8个推测的祖先着丝粒仍保持功能,而Chr04着丝粒可能为两个染色体片段融合后新形成。而甘蓝A基因组的形成则涉及至少10次断裂和9次融合,并在Chr03近核仁组织区位置新生了一个着丝粒。随后,各亚基因组中的着丝粒结构进一步分化:A与C亚基因组中均存在两类CEN176卫星,但其比例与分布不同;C基因组着丝粒呈现层状扩张模式,而A基因组则形成了以Gypsy逆转录转座子为主的长邻近区。

图6:芸薹属着丝粒进化假设模型
结语
本研究成功组装了9个芸薹属植物基因组,涵盖7个不同白菜型油菜(B. rapa,AA基因组)材料,以及两个异源四倍体物种—芥菜(AABB)和油菜(AACC)。其中,福田品系实现了端粒到端粒(T2T)水平的完整组装。本研究覆盖了A、B、C三大主要基因组谱系,并构建了芸薹属首个系统性的泛着丝粒图谱。结果显示,着丝粒区域被大量反转座子侵入,结构呈现显著多样性:A与C基因组主要富集CEN176卫星序列,而B基因组则因卫星序列缺失,主要由Copia反转座子所替代。进一步分析表明,CentBr2为古老卫星类型,逐渐被CentBr1取代;B基因组中CENH3的突变则导致其卫星序列退化。DNA甲基化与CENH3分布模式表明,功能核心区呈现低CHG甲基化水平并富集CENH3。基于上述发现,本研究提出了芸薹属着丝粒的进化模型,为理解植物着丝粒的动态演化及合成染色体设计提供了新的理论依据。
华命生物产品服务一览

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!
