TEL:18327076163

Nature Genetics丨中国科学家发表陆地棉T2T基因组

华命生物目前已成功完成50+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。

棉花(Gossypium L.)在全球纺织和种子油生产中扮演着不可或缺的角色。异源多倍体棉花物种陆地棉(Gossypium hirsutum)一直是广泛研究和育种工作的对象。理解陆地棉的异源多倍体基因组对于揭示关键农艺性状的基础至关重要。

3月17日,中国农业科学院棉花研究所马雄风研究员团队在著名期刊《Nature Genetics》上发表了题为“A telomere-to-telomere genome assembly of cotton provides insights into centromere evolution and short-season adaptation”的研究论文,作者组装了陆地棉栽培品种中棉113(ZM113)的端粒到端粒(T2T)基因组,解析了所有26个着丝粒和以前未组装的区域,深入研究了染色体D08着丝粒重新定位和染色体D03上与早熟性相关的近端着丝粒倒位的单倍型。

 

 

一、陆地棉ZM113 T2T基因组构建

作者使用150.7× ONT ultra-long、26.5× PacBio HiFi、48.5× NGS以及110.4× Hi-C数据,通过多步组装和校正,最终得到了包含26条完整染色体的T2T基因组(ZM113 CRI_v1.0)。  

T2T基因组共注释了78,471个蛋白质编码基因。5S rDNA两个主要的串联重复位点位于A09和D09,而45S rDNA共注释了403个18S和438个28S亚基。 

图1:陆地棉栽培种ZM113 T2T基因组组装

表1:ZM113与其他陆地棉组装质量比较

 

二、陆地棉着丝粒的完整组装和转座子特征

通过CENH3 ChIP-seq实验,确定了ZM113 CRI_v1.0的功能性着丝粒。所有26条染色体上独特的ChIP-seq峰证实了着丝粒区域均完整组装。 

基于重复序列比对的着丝粒预测,有25个着丝粒预测结果与CENH3 ChIP-seq实验结果一致,但D08染色体是例外。

棉花着丝粒主要由逆转录转座子而非卫星重复序列组成。在ZM113中,除了D08染色体外,重复元件占着丝粒区域的95%,主要包含Gypsy和未知的LTR-RTs,插入时间(INS)分析显示,着丝粒中的LTR-RTs比非着丝粒区域更年轻。

主成分分析显示,A和D亚基因组的CEN-TE明显聚类。A和D特异性CEN-TE的全长LTR(flLTR)数量较少,表明其转座活动更为近期,且与亚基因组起源无关。对代表性CEN-TE的系统发育分析显示,A和D基因组CEN-TE序列的系统发育模式在很大程度上交织在一起,表明它们具有共同的祖先。

图2:ZM113着丝粒区域鉴定

 

三、D08着丝粒的重定位和动态演化

CENH3定位识别出D08染色体的着丝粒(D08CEN),该区域TE含量、LTR插入时间、GC含量以及甲基化模式均与其他着丝粒不同。另外作者发现在附近区域有个假D08着丝粒(Ψ-D08CEN)与其他染色体上的着丝粒结构相似。表明D08CEN可能是一个新形成的着丝粒,伴随着早期着丝粒(即Ψ-D08CEN)的退化而演化。

D08CEN包含83.9%串联排列的GhSat194,表现出较低的CENH3结合水平。另有一个GhSat194 HOR位于一个4 Mb倒位(D08_INV)侧翼,作者接下来检查了七个棉花多倍体物种的CENH3结合和GhSat194分布,与陆地棉相比,CENH3定位将其他六个多倍体棉花的着丝粒区域定位到Ψ-D08CEN区域,支持D08CEN代表了陆地棉特有的一个新形成的着丝粒。GhSat194在D基因组二倍体祖先雷蒙德氏棉(G. raimondii)中存在于D08染色体上,但在陆地棉中含量出现显著扩增,所以推测GhSat194的这种扩增与D08CEN的形成同时发生,从而在陆地棉中生成了这一不同寻常的着丝粒。

图3:D08着丝粒的动态演化

 

四、结构变异和D03调控开花时间主效位点

作者进一步比较了ZM113与之前发布的九个陆地棉基因组,发现了大量的SVs,将这些SV组装成一个非冗余的35,746个缺失和21,265个插入的集合,共有251个缺失(coreDELs)在其他基因组中被检测到,代表了ZM113特有的区域,总长度为591,002 bp,在这个特有的coreDEL区域中发现了28个基因。

基于ZM113参考基因组对419个陆地棉种质进行的GWAS分析,在D03染色体上识别出一个显著的FD位点,定位在11.95–33.87 Mb的区间内。进一步对杂交F2群体进行BSA-seq,结果也确认该区段是全基因组范围内与早熟性最显著相关的区域。单倍型分型和SNP聚类分析显示该区域单倍型Hap-D03-1与显著早花相关,该区域与一个大的近中心倒位(D03_INV)重合,该倒位仅存在ZM113等部分品种中。

基于这些发现,作者提出了早花Hap-D03-1演化的两步模型。首先,D03_INV在早期驯化过程中出现,并在陆地棉基因库中被固定。随后,在这一倒位背景下,出现了赋予早花特性的特定单倍型,从而产生了如ZM113这样的早熟品种。这种倒位背景可能通过抑制重组解释了该区域观察到的强LD,促进了多个连锁QTL的积累,从而产生了大规模的关联信号。

图4:陆地棉基因组结构变异

图5:鉴定D03染色体上FD相关的倒位衍生单倍型

 

结语

本研究通过构建高质量的T2T基因组,揭示了陆地棉栽培品种ZM113的基因组特征,特别是其早熟性和纤维品质的遗传基础。研究还发现了D08染色体上的着丝粒重新定位现象,并提出了D03染色体上早熟单倍型的进化模型。这些发现为棉花育种提供了重要的基因组资源和新见解。

 

参考文献

Hu, G., Wang, Z., Tian, Z. et al. A telomere-to-telomere genome assembly of cotton provides insights into centromere evolution and short-season adaptation. Nat Genet(2025). https://doi.org/10.1038/s41588-025-02130-4

 

华命生物产品服务一览

 

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!