着丝粒是真核生物染色体上在有丝分裂和减数分裂期间锚定纺锤体微管的关键区域,对维持遗传稳定性至关重要。其主要由高度重复的卫星DNA和转座子组成,结构与序列多样,不同物种间差异显著。尽管拟南芥和玉米的着丝粒相关研究已取得部分进展,但植物着丝粒的演化机制仍有待探究。
浙江大学樊龙江、吴东亚团队联合崖州湾国家实验室、中国农业大学等科研单位于2025年10月21日在国际著名期刊Nature Genetics上发表了一篇题目为“Genetic diversity and evolution of rice centromeres”的研究论文,通过对70个T2T/near-T2T水稻基因组进行着丝粒组装与分析,研究揭示了着丝粒的卫星组成、反转录转座子入侵及表观遗传动态,为理解水稻着丝粒的遗传与进化机制提供了新视角。

一、水稻着丝粒的组装
为全面解析水稻着丝粒的基因组多样性,研究整合了70个近乎完整的Oryza AA基因组序列,其中包括67个新组装的基因组,采用PacBio HiFi(36×)和Oxford Nanopore(83.3×)长读长技术,并结合3个T2T组装。样本涵盖亚洲稻(包括粳稻GJ、籼稻XI和AUS)以及非洲稻的多个亚种与野生近缘种。通过Hifiasm与Verkko组装策略,获得了高精度、连续性强的着丝粒序列,共鉴定出839个CEN155阵列,其中96.3%实现0gap组装。研究发现不同稻种的CEN155拷贝数与原始数据一致,组装偏差较小,为深入理解水稻着丝粒结构特征与进化规律奠定了坚实基础。
二、卫星阵列大小变异
研究表明,尽管CEN155在染色体上的位置相对保守,但其长度在不同稻种、亚种、个体及染色体间差异显著。整体上,CEN155阵列约占水稻基因组的1.11%,比例低于人类和拟南芥。其长度与染色体大小呈正相关,但对染色体长度变异的影响有限,水稻染色体大小主要由转座元件驱动。亚洲稻的CEN155阵列普遍长于非洲稻,其中来源于Or-4的CW03样本最长,而野生稻和部分非洲稻较短。群体内也存在差异,例如温带型GJ-tmp的阵列长于热带型GJ-trp。不同染色体间阵列长度差异明显,尤其第6号染色体中存在谱系特异性扩增及倒位事件,包括一个6 Mbp的近着丝粒倒位和一个1 Mbp的小倒位,表明CEN155在水稻染色体进化中经历了复杂的结构重组与扩增过程。

图1:水稻AA基因组的着丝粒多样性
三、着丝粒渗入与分裂
该研究通过序列相似性将CEN155阵列划分为不同染色体的着丝粒单倍型(CenHaps),发现各染色体CenHap具有独特的序列特征。大多数染色体内的CenHap相似性高于不同CenHap之间的相似性。第5号染色体的CEN155阵列在GJ与XI之间高度相似,但与AUS差异显著,说明在物种分化或早期驯化中存在GJ向XI的渗入事件。与日本晴(NIP)比对结果也显示,XI样本的近着丝粒结构变异较少。此外,野生稻Or-1/2与GJ的相似性高于Or-3与NIP,揭示了古老渗入痕迹;第10号染色体在GJ-trp亚群中也呈现XI型特征。部分材料如J4155S、LK638S、ZS97、MH63等在不同染色体上具有GJ型着丝粒,反映出现代育种中人工或自然导入的存在。跨染色体CenHap比较揭示了显著的结构变动,如第4号染色体存在五种CenHap,XI亚型间的不一致暗示了通过缺失与演化形成的分化过程。南特号(SL044)第12号染色体的CEN155阵列则由两种XI型CenHap组合而成,体现了杂交稻育种中复杂的遗传结构。

图2:着丝粒单倍型,渗入和分裂
四、卫星重复序列多样性及分化
作者系统解析了水稻着丝粒卫星序列CEN155的结构特征与进化分化机制。通过全基因组注释,共鉴定出约146万拷贝,主要分布于155bp与165bp。结果显示,不同稻种间CEN155拷贝数差异显著,并形成具有方向性偏好的串联重复阵列。系统发育分析将其划分为15个超家族(SF-A至SF-O),揭示了物种间明显的进化分支。作者发现一个关键的10bp插入-缺失变异(5′-CATATATTGG-3′),可能经由重复复制与碱基替换形成类TATA-box结构,从而调控染色质状态并驱动卫星功能分化。尽管水稻缺失CENP-B基因,作者仍在CEN155中鉴定出类似人类动粒结合元件的B-box样与pJα样基序,这些元件在着丝粒中显著富集,可能承担保守的蛋白结合功能。进一步分析表明,不同染色体间CEN155的组成具有明显特异性,不同稻种中超家族比例同样存在差异,部分染色体扩张与特定单体(如SF-A、SF-N)的增加密切相关。该研究揭示了水稻着丝粒卫星序列在结构、进化及功能分化层面的复杂性,为植物着丝粒的形成与稳定性提供了新的分子基础。
五、反转录转座子在卫星阵列中的入侵
作者系统解析了水稻着丝粒卫星阵列中反转录转座子(TEs)的入侵特征与功能影响。结果显示,非CEN155区域约85.1%的序列由TE组成,占阵列长度约22.2%,主要由Gypsy类反转录转座子主导。研究共鉴定5128个完整LTR与8366个单独LTR,发现完整LTR/单独LTR比例在卫星阵列中显著高于基因组其他区域。三大主要LTR家族——SZ-22、CRM与RIRE7占比达90.6%,其中SZ-22为非自主型,缺乏关键酶基因且长度更短。这些较新的转座子插入发生在关键的B-box样序列处,可能导致卫星DNA链的方向翻转,从而影响着丝粒结构的稳定与调控。除卫星与TE外,作者还鉴定出535个潜在着丝粒基因模型,其中部分在不同组织或胁迫下表达,且OsHWE1在GJ品系中显著富集。

图3:水稻基因组CEN155卫星序列和亲中心TE的遗传变异
六、卫星阵列的多层嵌套结构
作者采用逐步压缩策略对水稻着丝粒卫星DNA阵列(CEN155)进行分析,研究发现,59.7%(约877万)的 CEN155 卫星序列位于单体同质化区域(moHRs)内,这些区域显示出高度的序列相似性,尤其在2号、3号、7号和12号染色体上尤为显著。进一步分析表明,单体并非孤立存在,而是以二聚体形式出现,且表现出一种独特的拷贝数偏向性:在一个二聚体重复单元中,一个单体的拷贝数通常固定为1,而另一个单体的拷贝数则会发生扩增,形成可变的重复次数。这种非随机的模式表明,二聚体的形成可能遵循着某种特定的规律。进一步研究发现,二聚体之间可以组合成多聚体,形成更大规模的同质化区域(muHRs)。这些多聚体主要由特定类型的卫星序列组成(如FLNL、AEA和HOJ),并且在不同染色体上分布不均。作者认为,这种在不同尺度上反复出现的、具有偏向性的局部序列扩增,是驱动着丝粒结构扩张和进化的关键机制。即着丝粒的生长并非无序复制,而是通过局部、有偏好性的重复来实现的。

图4:多层嵌套结构的水稻CEN155卫星阵列
七、水稻CEN155阵列的SV和突变率
作者发现,水稻CEN155卫星阵列在不同染色体和物种间存在显著差异。作者利用SynPan-CEN框架识别阵列间的共线卫星对,结果显示,随着全基因组遗传分化的增加,共线性比例迅速下降。作者进一步指出,着丝粒区域的进化速率明显高于染色体臂,平均高出约4.1倍,体现出加速进化的特征。通过筛选91对共线性比率大于0.9的染色体对,作者定义了“分化率”和“突变率”指标,并计算了生物编辑距离(ED)。研究发现,部分邻近结构变异(SaSVs)的CEN155对具有较高的ED值,但这些高ED卫星为旁系同源,不适合用于突变率分析。排除非同源序列后,作者对17对同源染色体的分析表明,着丝粒的碱基替换突变率仅为染色体臂的约0.11倍。作者认为水稻CEN155阵列的序列分化率高于染色体臂,主要由非同源基因转换和片段重复导致,而新生碱基突变率则显著低于染色体臂。即着丝粒序列的快速更新主要不是通过缓慢的“点突变”,而是通过“基因转换”和“区段重复”等机制实现的。

图5:水稻着丝粒序列分化和突变率
八、水稻着丝粒的表观遗传变异和重新定位
作者通过使用抗CENH3抗体和ChIP-seq技术,研究了水稻着丝粒的表观遗传变异及其重新定位。研究发现,除了表现出CENH3装载稳态的着丝粒之外,水稻基因组中还观察到广泛的着丝粒位置变化,包括“跳跃”、扩张和位移。CENH3富集区的大小显著大于CEN155阵列的范围,这表明在这些区域发生了较大的变化。与玉米相比,水稻的着丝粒跳跃现象较为罕见,但第1和第2号染色体表现出一致的CENH3–CEN155共定位,而其他染色体则显示出着丝粒扩张的现象。
作者进一步探讨了染色体大小差异与转座元件(TE)动态之间的关系。研究发现,较长的染色体通常具有更高的TE密度,且染色体长度与着丝粒稳定性密切相关,较长染色体表现出更强的稳定性和较少的序列扩张现象。在第4号染色体的研究中,作者发现非洲稻和栽培稻的某些染色体显示出CEN155阵列的缩短和CENH3富集区的扩张,这表明水稻在驯化过程中卫星阵列可能经历了退化。

图6:表观遗传分析及着丝粒定位
结语
本研究通过组装稻属AA基因组群的67个水稻基因组,分析了800余个近乎完整的着丝粒,并对着丝粒卫星序列CEN155进行了从头注释。研究阐明了卫星阵列的局部同质化程度与多层结构特征,结果表明水稻着丝粒的遗传突变主要源于结构变异和反转录转座子插入,而其单碱基替换率实则低于染色体臂。进一步比较CEN155阵列、反转录转座子及功能性着丝粒,揭示了它们之间动态且相互关联的演化关系。作者提出新的假说:反转录转座子的入侵可能导致原始着丝粒卫星阵列的衰退,并推动着丝粒重定位。这一推论得到了CENH3染色质免疫共沉淀测序中卫星阵列以外区域富集信号的支持,揭示了着丝粒进化的潜在分子机制。
华命生物产品服务一览

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!
