华命生物目前已成功完成50+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。
着丝粒在细胞分裂过程中对维持基因组稳定性起着关键作用,通常由大量串联卫星重复序列组成,这些重复序列不仅阻碍了高质量基因组组装,也使得跨物种着丝粒演化研究变得复杂。
2025年5月2日,四川大学马涛教授团队在国际著名期刊《Genome Biology》上发表了题为“Four near-complete genome assemblies reveal the landscape and evolution of centromeres in Salicaceae”的研究论文,作者利用长读长测序技术,对杨柳科(Salicaceae)中两个杨属(Populus)和两个柳属(Salix)物种进行了近乎完整的基因组组装,并解析了其着丝粒的遗传与表观遗传特征。华命生物承担了部分测序分析技术支持。
一、四种杨柳科物种近T2T单倍型基因组组装
作者结合PacBio HiFi测序数据(>60×)和Hi-C数据(>600×),对四种杨柳科(Salicaceae)物种(银白杨变种(P. alba var. pyramidalis)、胡杨(P. euphratica)、腺柳(S. chaenomeloides)和紫柳(S. arbutifolia))进行了近乎完整的单倍型T2T基因组测序与组装。通过染色体末端端粒重复序列和5S rDNA以及45S rDNA阵列检测,结果均证实了这8个单倍型近乎完整(near-complete)基因组组装。
图1:组装的四个杨柳科单倍型基因组与其参考基因组之间的共线性比对
二、杨柳科着丝粒的表观遗传分析
作者通过CENH3结合区域精确界定了各染色体核心着丝粒的边界。各单倍型着丝粒区域仅含1-5个缺口,表明大部分着丝粒已完整组装。着丝粒附近呈现更高GC含量、更低基因密度及更高转座元件(TE)密度的特征。
为解析着丝粒的表观遗传结构,作者检测了三种组蛋白修饰(H3K4me3、H3K27me3和H3K27ac)及DNA甲基化水平,相较于基因组其他区域,着丝粒内这些组蛋白修饰水平普遍降低。所有物种着丝粒中点均呈现H3K27me3轻微富集,两种杨树中还观察到H3K27ac富集。同时,着丝粒的CG、CHG和CHH上下文DNA甲基化水平均升高。
图2:杨柳科着丝粒解析
三、着丝粒序列的快速演化与保守表观特征
所有三个物种的着丝粒均显著富集CRM LTR-RTs,作者在四个物种中仅鉴定出12-41个串联重复序列阵列(TRAs),其总长度存在显著种间差异:银白杨变种单倍型II的最长TRA达54.91 Mb,而胡杨单倍型I的最短TRA仅1.04 Mb,仅少数TRAs位于着丝粒或近着丝粒区域,且大部分CENH3 CUT&Tag/Input富集水平低。
银白杨变种中,一个主要的着丝粒TRA由156-bp单体(Palv156)构成。这些单体进一步组装为高阶重复单元(HORs),其序列相似度与单体间距呈负相关。除Palv156外,银白杨变种中还发现其他着丝粒TRAs,两个单倍型的14条染色体均携带TRAs。相比之下,胡杨仅5条、两种柳树各6条染色体检测到TRAs(长度5.00 kb~3.44 Mb),且由不同卫星重复序列主导。这些发现表明杨柳科着丝粒TRAs在种间和种内均存在显著的序列与结构多样性,暗示其快速演化与更替。
图3:着丝粒Palv156 TRAs特征分析
四、非着丝粒TRAs的古老起源与独立演化
大多数TRAs位于远离着丝粒的基因组区域。其中,Palv148和Salix180是最主要的卫星重复序列,而在胡杨中较为罕见。尽管紫柳chr13的着丝粒TRA(Sar145)与Palv148结构相似,但序列比对与系统发育分析表明二者独立演化。柳树Salix180单体在两物种间虽保持极高序列一致性,但扩张事件独立发生。
这些非着丝粒TRAs虽无CENH3富集峰,但表现出与着丝粒相似的特征,相较于邻近区域,其基因密度更低、组蛋白修饰水平更低、DNA甲基化水平更高。Hi-C数据显示,非着丝粒TRAs与着丝粒的互作信号显著强于其他基因组区域,提示二者可能存在功能关联。
Salix180 TRAs在2200万年前分化的柳树间共享,而Palv148近期也在其他杨树中发现,表明这些非着丝粒TRAs起源古老,但不同单体在物种分化后经历了近期快速扩张。
图4:非着丝粒TRAs Palv148特征分析
五、TEs广泛入侵杨柳科着丝粒
由于杨柳科物种着丝粒中TRAs含量有限,作者进一步分析了其序列组成。功能性着丝粒中59.72%~86.10%的序列由各类TEs构成。与其他基因组区域相比,着丝粒显著富集Gypsy-like LTR,尤其是CRM和ATHILA家族元件。其中,CRM元件占着丝粒序列的9.36%~23.78%。
基于全基因组完整CRM元件构建的系统发育树显示,这些元件分为两大分支。着丝粒CRM元件间的序列相似性显著高于非着丝粒CRM元件。插入时间分析表明杨柳科着丝粒CRM元件具有共同起源,但在物种分化后经历了持续的特异性扩增。
ATHILA元件在胡杨着丝粒及近着丝粒区域显著扩增,与CRM元件不同,ATHILA元件的CENH3富集水平较低,且着丝粒与非着丝粒ATHILA的插入时间相近。胡杨ATHILA元件的插入时间明显晚于其他物种。
图5:杨柳科基因组中CRM分析
六、杨柳科着丝粒的频繁更替与重定位现象
基因共线性分析显示,虽然大多数着丝粒位置在物种间相对保守,但其周围存在大量重复序列插入和染色体倒位事件,胡杨中ATHILA元件的特异性扩增导致其着丝粒组成和大小显著变异。同源着丝粒区域普遍发生高频倒位现象,而HiFi和Hi-C数据证实同一物种不同单倍型间也存在类似倒位事件。
在腺柳与两种杨树间发现8条染色体存在着丝粒重定位。腺柳chr10着丝粒位于染色体中部,而杨树中明显偏于一侧。另外腺柳着丝粒CENH3 CUT&Tag数据可以定位到杨树同源染色体的古着丝粒区域,另外重定位着丝粒区域基因表达显著降低。
比较分析发现银白杨变种重定位着丝粒呈现更高DNA甲基化、更短TAD长度及更低组蛋白修饰水平,而腺柳重定位着丝粒基因表达水平显著高于保守着丝粒,且甲基化/组蛋白修饰水平更低,提示其着丝粒可能近期完成重定位,尚未建立稳定表观特征。
图6:银白杨变种与腺柳着丝粒重定位的对比分析
结语
本项目通过构建4个杨柳科单倍型near-T2T基因组,结果表明杨柳科物种着丝粒具有显著的序列和结构多样性,这意味着其进化轨迹具有物种特异性甚至染色体特异性特征,并通过卫星序列均质化、多种转座元件的广泛入侵以及重定位事件介导持续的着丝粒更替。这些发现为近缘物种间着丝粒高度复杂且动态的进化过程提供了新的认识。
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!