TEL:18327076163

NC重磅|小鼠着丝粒的全景解析

真核生物基因组中约一半由重复序列组成,卫星DNA是其中重要类型,由串联重复序列构成,主要分布在着丝粒、着丝粒旁和端粒区域,维持染色体稳定并参与细胞分裂。小鼠基因组中卫星DNA约占11%,其中着丝粒由120 bp的MiSats(minor satellite repeats)构成,着丝粒旁区域由234 bp的MaSats(major satellite repeats)组成,整体高度同质。虽然小鼠是重要的遗传与生物医学研究模型,但其这些高重复区域长期缺乏完整注释。

国外研究团队于2025年11月3日在国际著名期刊Nature Communications上发表了一篇标题为“Genomic and epigenomic maps of mouse centromeres and pericentromeres”的研究论文,该文通过构建小鼠着丝粒和近着丝粒区域的基因组和表观基因组图谱,揭示了这些区域的卫星DNA结构特征及其与染色质修饰的关系,进一步探讨了MiSats和MaSats序列的长度变异与转录活性以及DNA甲基化的关联。

 

 
 

一、小鼠着丝粒和近着丝粒区域的全注释基因组图谱

为了获得小鼠着丝粒与近着丝粒区域的高精度、完整注释基因组图谱,作者分析了来自雄源性胚胎干细胞(mhaESC)和C57BL/6J×CAST/EiJ杂交胚胎干细胞(mESC)的T2T组装及自建的C57BL/6J小鼠HiFi测序数据,并对MiSat、MaSat、着丝粒-端粒连接区和近着丝粒-染色体连接区进行了系统注释与比较。

分析显示,T2T组装中着丝粒长度介于480 Kb至2.3 Mb之间,部分染色体缺失着丝粒。多数着丝粒由三个被MaSat隔断的片段构成。除120 bp MiSat单元外,研究还发现112 bp单体及其与64 bp单元形成的二聚体等变体,主要分布于着丝粒-近着丝粒交界区。基于Hifiasm组装,在雄性和雌性个体中分别鉴定出14和18条含MiSat的contig,其MiSat密度高于T2T组装,但因覆盖度问题缺失部分二聚体,表明组装方法影响卫星序列变体检测。此外,在雄性中发现一段90 Kb的Y染色体着丝粒,缺乏近着丝粒MaSat,与既往认知一致。

着丝粒-端粒交界区主要由146 bp TLC卫星和L1 LINE构成,末端为典型端粒重复。在mhaESC T2T组装中,四条染色体着丝粒内部及Cen4边界处发现约80 Kb内嵌端粒阵列,两侧为TLC-L1结构,形似染色体末端。该现象未见于其他组装数据,可能为mhaESC特异的组装错误。约10%的MaSat读段与共识序列相似性低于75%,呈现高度异质。这些异源性MaSat可独立成块或散布于同质区,边界多由同质MaSat包围。在雄性Hifiasm组装中,识别出734条近着丝粒MaSat contig,最长阵列达1.4 Mb。结构分析显示倒位极为普遍:mhaESC T2T中19/20着丝粒存在倒位,雄性Hifiasm中9/14亦呈倒位结构。

图1:小鼠T2T组装中着丝粒与近着丝粒卫星序列的排列

 

 

二、着丝粒和近着丝粒表现出不同的序列同一性

为分析卫星DNA区域的序列保守性,研究采用StainedGlass热图进行了系统性评估。结果显示,小鼠基因组中不同区域的序列同一性存在明显梯度:着丝粒区域最高,近着丝粒区域次之,而在近着丝粒与染色体臂的交界处降至最低。在着丝粒内部,不同卫星序列的保守程度呈现显著差异:112-64二聚体MiSat阵列的同源性最高,其次是120-mer MiSat,而Y染色体着丝粒区域的序列同一性相对较低。近着丝粒区域的序列同一性普遍低于着丝粒区域,其中高密度异源性MaSat的保守程度最低,即使是同质MaSat也显著低于着丝粒MiSat。值得注意的是,第6号和X染色体的同质MaSat分布最为集中,这两条染色体在近着丝粒边界处均含有长度达236 Kb的112-64二聚体MiSat阵列。

图2:着丝粒与近着丝粒区域的序列同一性

 

 

三、着丝粒中的高阶重复序列

研究系统探讨了小鼠着丝粒中高阶重复序列(HORs)的分布与结构特征,利用 CENdetectHOR 成功识别出除 Cen3 与 Cen4 外所有 T2T 着丝粒中的 HORs。结果显示,Cen3 和 Cen4 是小鼠中最均一的着丝粒,而其余着丝粒则表现出更高的重复序列异源性。HOR 的单体数量从 H2 到 H45 不等,其中短重复单元(如二聚体 H2 和三聚体 H3)最为常见。系统发育分析表明,CenY 上的 HOR 与其他着丝粒的 HOR 差异最大,而 112-64 二聚体 HOR(LVH2)在非 CenY 着丝粒中聚为两个紧密相关的谱系。空间分布上,不同类型的 HOR 呈现明显分区:H3 三聚体主要位于着丝粒的端粒侧,而 H2 二聚体多集中于远离端粒的区域。综合分析表明,小鼠着丝粒的 HOR 结构多样且组织复杂,其分布模式与人类着丝粒显著不同,更受短重复单元的影响,反映出物种间着丝粒结构演化的差异性。

图3:小鼠着丝粒中的高阶重复序列

 

四、着丝粒中的非卫星重复序列

研究发现,小鼠着丝粒和近着丝粒区域除卫星DNA外,还包含非卫星重复序列。这些非卫星重复序列包括LTR及非LTR逆转录转座子(如LINEs、SINEs)和简单重复序列,它们既可单独存在,也可聚集形成“岛屿”。这些岛屿主要分布在近着丝粒及其邻近区域,长度可达约200 Kb,不同染色体间数量和大小差异显著,其中染色体1最丰富。进一步分析显示,简单重复序列和转座子类重复序列的密度由着丝粒向近着丝粒及染色体臂连接处逐渐增加,提示非卫星重复序列在着丝粒结构与功能区域中具有分布梯度和潜在的组织规律。

图4:着丝粒和近着丝粒区域的非卫星重复序列组成与排列

 

五、异源性 MaSat 的空间分布特征

作者进一步绘制了异源性MaSat在近着丝粒区域的分布图,结果显示其密度从着丝粒端向染色体臂方向逐渐升高。此外,非卫星重复岛中也存在高密度的长片段异源性MaSat。在雄性C57BL/6J基因组中,共识别出19条跨越近着丝粒-染色体臂连接区的contig,其中17条可定位至特定染色体,16条在染色体臂邻近处表现出显著的异源性MaSat富集。作者指出异源性MaSat在近着丝粒-染色体臂连接处分布最为密集,其次为近着丝粒的非卫星重复区域,说明该类序列可能在染色体结构连接和稳定中发挥重要作用。

图5:近着丝粒-染色体臂连接区富集异源性 MaSat 序列

 

六、近着丝粒区域的DNA甲基化水平高于着丝粒区域

作者通过进行甲基化动力学分析,系统比较了着丝粒与近着丝粒区域的DNA甲基化特征。研究结果表明,近着丝粒MaSat在所有卫星序列中具有最高的CpG甲基化水平,尤其在T2T和Hifiasm组装的近着丝粒-染色体臂连接处表现最为明显。相较之下,着丝粒MiSat区域的甲基化显著降低,但未出现如人类着丝粒中那样明显的低甲基化区域。进一步分析发现,不同类型的MiSat单元间存在甲基化差异,其中112-64二聚体MiSat的甲基化水平高于120-mer和112-mer类型。在近着丝粒区域内部,均一型MaSat的甲基化程度明显高于异源性MaSat,而非卫星岛区域的mCpG密度则显著低于两侧MaSat。综上,作者指出小鼠近着丝粒区域的DNA甲基化水平整体高于着丝粒区域。

图6:近着丝粒区域表现出较高水平的DNA甲基化

 

七、卫星DNA低水平转录

作者通过对C57BL/6J小鼠肝组织的RNA测序数据进行分析,探究了着丝粒与近着丝粒卫星DNA的转录特征。结果显示,仅有极少量的MiSat和MaSat序列发生转录,其表达水平远低于卫星中夹杂的rDNA基因,表明卫星DNA整体处于极低转录状态。而在高密度异源性MaSat聚集的近着丝粒区域中未检测到明显的RNA信号,转录产物主要来自其中夹杂的非卫星重复序列。相比之下,均一型MaSat中的夹杂元件表现出更高的转录活性。作者进一步指出,转录水平较高的卫星区域往往伴随较低的CpG甲基化密度,说明DNA甲基化可能在卫星DNA转录调控中发挥负相关作用。

图7:着丝粒区和近着丝粒区RNA转录水平

 

八、着丝粒区、近着丝粒区及其连接处的染色质富集模式

作者利用C57BL/6J小鼠的CUT&RUN测序分析了着丝粒与近着丝粒区域的染色质特征。结果显示,120-mer MiSat富集最高的CENP-A,而112-mer和112-64二聚体MiSat富集较低;Y染色体着丝粒CENP-A显著富集但缺乏H3K9me3信号。尽管CENP-A较低,112-64二聚体MiSat却表现出最高的CENP-B富集。进一步分析发现,均一型MaSat形成连续的H3K9me3富集域,而高密度异源性MaSat和非卫星岛区域则表现出H3K9me3降低、H3K27me3升高的特征。

图8:染色质和着丝粒蛋白在着丝粒和近着丝粒区域的富集

图9:着丝粒及着丝粒周围区域的序列基序和染色质富集情况

 

九、DNA序列对染色质的调控作用

作者系统分析了序列基序对小鼠着丝粒及近着丝粒染色质结构的影响,发现着丝粒中的 MiSat 含有 17 bp 的 CENP-B box 基序,可依序列特异性结合 CENP-B 蛋白。作者指出,标准型 CENP-B box 在 112-64 二聚体中最为丰富,而 120-mer 中多为变体型。CENP-B box 密度与 CENP-A、CENP-B 的富集总体呈正相关,且 CpG 位点突变会降低甲基化水平、增强 CENP-A 结合,说明变体型 CENP-B box 在调控着丝粒功能中具有关键作用。在近着丝粒区域,作者鉴定出一个 12 bp 的 MaSat motif,并发现其密度与异源性 MaSat 呈负相关。高密度 MaSat motif 区域富集 H3K9me3,而低密度、异源性区域则富集 H3K27me3,特别是在非卫星岛和染色体臂连接处更为明显。作者认为 DNA 序列差异可通过调控甲基化和组蛋白修饰,驱动着丝粒及近着丝粒形成不同的表观遗传状态。 

图10:小鼠着丝粒和近着丝粒区域的T2T基因组与表观基因组图谱

 

结语

本研究通过T2T基因组装与高精度长读长测序,全面解析了小鼠着丝粒与近着丝粒区域的结构与表观特征。结果表明,卫星DNA的序列差异决定了染色质的空间组织与功能分化:均一型序列维持高甲基化和H3K9me3富集的稳态异染色质,而异源性序列则与H3K27me3相关,表现出更开放、动态的状态。进一步分析显示,特定基序如CENP-B box与MaSat motif在调控CENP-A结合及染色质修饰中发挥关键作用。总体而言,作者提出DNA序列本身是驱动着丝粒及近着丝粒表观遗传分区与结构多样化的核心因素,为理解哺乳动物着丝粒功能的序列基础提供了新的框架。

 

 

华命生物产品服务一览

 

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!