小鼠作为研究人类疾病的经典模式生物,百年来在免疫学、肿瘤学和干细胞研究等领域作出重要贡献。2002年,C57BL/6J品系首个基因组的组装完成,标志着小鼠遗传学发展的重要里程碑。然而,现有基因组版本GRCm39仍存在281个序列空缺,缺乏完整的端粒和着丝粒信息,导致染色体结构解析受限,也阻碍了对基因组完整性和遗传稳定性机制的深入研究。
近日,国外研究团队于2025年10月21日在国际著名期刊Nature Genetics上发表了一篇标题为“Complete genome assemblies of two mouse subspecies reveal structural diversity of telomeres and centromeres”的研究论文,组装出小鼠的两个重要近交系C57BL/6J以及CAST/EiJ的首个T2T基因组,并新增213 Mb序列和517个蛋白编码基因,为完善小鼠基因组图谱奠定了基础。

一、基因组组装及注释
作者采用PacBio HiFi(188×)与Oxford Nanopore ultralong(70×)测序技术,并结合Hi-C辅助组装,成功构建了无gap的C57BL/6J和CAST/EiJ小鼠端粒到端粒(T2T)基因组,组装后基因组大小分别为2.638Gb和2.665Gb。与GRCm39相比,两者分别新增213.2Mb与252.1Mb序列,主要由卫星序列和转座子组成,卫星序列总量增加超过31倍。基于RNA-seq的基因注释结果显示,两者分别含有约2.14万个蛋白编码基因,较GRCm39略有增加,并新发现225个(C57BL/6J)和355个(CAST/EiJ)新基因,其中部分编码锌指蛋白等功能蛋白。此外,多个基因在T2T基因组中拷贝数显著升高,如C57BL/6J的Duxf3与CAST/EiJ的Potefam3a,揭示了不同品系在基因复制与扩增方面的明显差异。

图1:小鼠T2T基因组与GRCm39染色体水平的同源性比较
二、端粒和着丝粒结构
不同于人类染色体的中着丝粒型,小鼠染色体为TLC型,着丝粒位于染色体末端。小鼠着丝粒由小卫星序列组成,外侧为由大卫星构成的近着丝粒区域,统称为着丝粒区。该区域中最主要的成分为234 bp单体重复的大卫星序列,占小鼠基因组的约6-10%。在C57BL/6J和CAST/EiJ中,大卫星序列分别占基因组的7.5%和8.4%,而小卫星序列总长度分别为13.07 Mb和16.5 Mb。在C57BL/6J中,TLC末端含L1-MdA3家族的LINE元件,并呈三种主要重复模式,主要由保守的LTR或富含AT的简单重复间隔,整体结构稳定,TLC长度在6.2-12.3 kb之间。相比之下,CAST/EiJ的TLC区表现出高度异质性,TLC与着丝粒卫星紧密相连,重复结构更为复杂,常包含双L1-LINE元件及多种LTR/TLC重复组合,TLC长度差异显著(12.1-60.5 kb),表明两品系在染色体末端的重复扩增与序列分布上经历了不同的进化路径。

图2:T2T基因组中着丝粒和端粒的比较
三、完善小鼠参考基因组
到目前为止,GRCm39参考基因组依然存在约5.5Mb的常染色体缺失区域。作者通过将C57BL/6J T2T组装比对到这些缺失区域,成功填补了大部分缺失,并为小鼠基因组新增约12.7 Mb的序列。在新填补的序列中,共鉴定出190个蛋白编码基因,主要属于跨膜信号受体及转录调控因子、转运蛋白和染色质相关蛋白等类别。大多数填补区域的大小与GRCm39的估计一致,但在某些区域(如1号染色体)观察到明显的扩展。CAST/EiJ品系在某些区域显示出更为复杂的基因重排,并且某些基因家族(如斑点蛋白家族)在CAST/EiJ中呈现出更多的基因副本。

图3:小鼠 C57BL/6J和GRCm39基因组的gap区域研究概况
四、伪常染色体区(PAR)
PAR是位于性染色体X和Y末端的区域,含大量重复序列及较高的GC含量,因此为较难测序的常染色体区域,在GRCm39版本中仅包含部分PAR序列。本研究组装了CAST/EiJ品系的X染色体PAR序列,并与C57BL/6J品系进行比较。结果显示,序列中存在一个无法解析的大型串联重复结构。研究共鉴定出10个基因(其中4个为新基因)和4个假基因,这些基因与人类PAR1区域具有共线性,但在重复单元结构和基因拷贝数上存在显著差异。

图4:PAR和大规模易位
五、染色体倒位
在小鼠中,倒位与骨骼异常、腭突发育缺陷和侏儒症等表型相关。基于T2T基因组比对,作者在C57BL/6J、CAST/EiJ和mhaESC三个品系中鉴定出133个长度超过1kb的倒位。进一步分析表明,倒位断点富集于串联重复序列以及反转录转座子LINE和LTR,说明这些重复元件在倒位形成中具有关键作用。约60%的倒位符合非等位同源重组(NAHR)模式,其中LINE占50%,LTR占21%,SINE占15%,SD占11%。与SD相关的倒位更长,且较大的SD通常对应更大的倒位。研究还发现多个超过1Mb的大型倒位,主要分布于富含SD的复杂基因组区域,进一步说明重复序列在大型结构变异的产生中发挥重要推动作用。
六、KRAB 锌指基因位点
KZFP是脊椎动物基因组中最大的一类转录因子家族之一,具有高度同源性,在哺乳动物基因组中存在大量以簇状分布的KZFP。作者在C57BL/6J小鼠T2T基因组中,已鉴定出超过48个新的潜在KZFP基因,并在KZFP基因簇中发现了大规模的结构变异。

图5:GRCm39、T2T C57BL/6J和CAST/EiJ基因组中KRAB锌指蛋白簇的比较
结语
本研究首次组装出小鼠近交系C57BL/6J以及CAST/EiJ的T2T级基因组,解决了在之前的GRCm39参考基因组中不完整的端粒和着丝粒区域。为C57BL/6J小鼠增加了213Mb的新序列,为CAST/EiJ小鼠增加了252Mb的新序列。并进一步研究了性染色体上的伪常染色体区域(PAR)和KRAB锌指蛋白(KZFP)基因簇,这些基因簇在调节转座元件和表观遗传修饰方面起着关键作用。此外,研究还揭示了显著的品系特异性变异,包括倒位和片段重复,为基因组重排的研究提供了更深入的见解。
华命生物产品服务一览

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!
