华命生物目前已成功完成60+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。
百合是兼具观赏与药用价值的流行植物,其基因组极为庞大。由于复杂巨型基因组组装的挑战,现在对百合等大基因组植物的遗传结构、表观调控及进化机制的认知仍十分有限。
近日,北京大学现代农学院郭立教授团队,在国际著名期刊《Nature Communications》上面发表了题为“Genomic and epigenomic insight into gigachromosome architecture and adaptive evolution of royal lily (Lilium regale)”的研究论文,首次利用PacBio HiFi和Hi-C测序数据,构建了岷江百合(Lilium regale)的高质量参考基因组。这项研究提供的百合基因组图谱与注释,将为百合遗传育种、保护生物学及被子植物基因组进化研究提供关键资源。
一、岷江百合巨型基因组的组装与注释
岷江百合(Lilium regale,2n=2×=24)基因组大小约为35.8 Gb,作者通过806Gb(~23×)PacBio HiFi测序数据,组装获得35.6 Gb的HiFi初步组装结果,N50达32.2 Mb。进一步利用5.46 Tb(约154×)Hi-C数据进行染色体挂载,将96.8%的序列挂载至12条染色体,最终完成35.6 Gb染色体级别的高质量基因组组装。
通过多种注释整合预测,共得到了67,862个高置信度基因模型,其中77.64%通过eggNOG-mapper、GO和KEGG完成功能注释,52.27%的基因在至少一种组织中表达。
表1:岷江百合基因组组装情况
为解析岷江百合的进化历史,作者对包括岷江百合(本研究)、大花百合、泸定百合和嘉兰等在内的16个物种基因组进行系统基因组分析。基于370个低拷贝直系同源群构建的系统发育树显示岷江百合与泸定百合的亲缘性较大花百合更近。
另外比较基因组分析显示,岷江百合与参薯(Dioscorea alata)存在4:4共线性关系,与单子叶植物祖先核型呈4:1共线性,表明岷江百合经历了两次WGD事件。共线性分析进一步证实,岷江百合与大花百合具有高度基因保守性,提示三种百合属植物可能共享相似的WGD历史。
图1:基因组组装与系统基因组学揭示岷江百合的进化历史
二、转座子驱动岷江百合基因组的扩张与演化
基因组重复序列注释显示,岷江百合27.9 Gb的重复序列(占基因组80.06%)对其巨型基因组的形成具有决定性贡献。其中TEs占比达27.5 Gb,以LTR-RTs(19.8 Gb)为主。岷Gypsy元件整体富集,其完整拷贝数与Copia元件相当,Tekay和Athila为LTR/Gypsy优势亚家族。
作者在岷江百合内共鉴定出79,821个完整LTR、4,249,484个截短LTR和19,230,536个 solo-LTR,分别占LTR总量的3.28%、35.90%和45.88%,提示LTR序列存在快速重组。所有染色体两端均呈现高密度LTR-RT热点区。
solo-LTR的广泛存在暗示可能存在高频重组。通过分析H3K9Me2修饰模式发现:solo-LTR的H3K9Me2富集度显著高于截短LTR,而完整LTR的末端修饰强于中部。此外,虽然所有LTR类型均呈现高mCG/mCHG甲基化,但完整LTR具有更高的mCHH甲基化水平,这表明TE插入后的超甲基化可能通过表观沉默抑制其活性,构成基因组防御机制。
图2:岷江百合(L. regale)基因组中的重复元件组成及LTR插入历史
三、岷江百合超长基因与内含子的特征及调控机制
岷江百合基因按长度可分为四类:<1 kb、1-10 kb、10-100 kb和>100 kb,分别占总基因长度的0.81%、7.75%、46.90%和44.54%。其中超长基因(>100 kb)显著富集于对外界和生物刺激的响应通路。随着基因长度增加,外显子和内含子的数量与长度同步增长,且内含子序列占比显著升高。
LTR转座子的插入贡献了内含子总长度的72.52%,是超长内含子形成的主因。虽然全基因组中Copia元件数量仅为Gypsy的一半,但两者在内含子中的丰度相近,提示Copia可能对内含子扩张具有特殊偏好性。
多组织表达分析显示中长基因表达量最高,超长基因表达量次之,但仍显著高于短基因,而全基因组甲基化测序表明基因长度与甲基化呈负相关,超长基因甲基化程度最高。表明岷江百合超长基因的形成与转录调控可能与内含子TE插入及DNA甲基化密切相关。
图3:超长基因表现出独特的转录及表观基因组调控模式
四、基因可变剪接及调控机制
基于四组织PacBio ISO-seq数据,作者在岷江百合中鉴定出7种主要可变剪接(AS)类型,其中A3(可变3'剪接位点)事件占比最高(32.67%),RI(内含子滞留)事件次之(27.40%)A5(可变5'剪接位点)事件占15.16%。另外长基因(>10 kb)中A3事件更频繁,而超长基因(>100 kb)中RI和SE(外显子跳跃)事件较少。
作者通过计算剪接纳入指数(PSI)发现,长基因(>10 kb)的A3事件PSI值更高,高PSI基因的TE密度显著高于低PSI基因,其中又以LTR和LINE元件为主。HPGs中A3事件数量远超LPGs,表明LTR/LINE插入可能促进A3事件发生。
另外,作者还通过DNA甲基化分析,发现LPGs内含子区的CHG甲基化水平显著高于HPGs。而组蛋白修饰显示LPGs转录起始/终止位点的H3K4Me3富集度更高,经历主要剪接事件(A3/A5/RI)的LPGs表达量高于HPGs,提示低剪接活性基因可能具有更强转录活性。
图4:可变剪接变异与转座元件密度及DNA甲基化相关
五、岷江百合三维基因组结构特征
基于岷江百合叶片Hi-C数据的3D基因组分析,作者发现岷江百合的巨型染色体在核仁内呈现高度缠绕的拓扑结构其染色体间相互作用显著增强,这种独特的空间折叠模式可能为解决大基因组在细胞分裂中的遗传信息传递难题提供了结构基础。
共鉴定了20,485个TAD,数量远超已报道植物基因组,其TAD边界显著富集H3K9Me2修饰与中等程度H3K4Me3,基因及LINE/SINE转座元件聚集,但整体TE密度较低。
图5: L. regale 的表观遗传印记与三维基因组特征
六、岷江百合基因组进化与表观调控的协同机制
作者通过分析5 Mb窗口内TE密度最高(TRRs)和最低(TPRs)的100个基因组区域发现,TPRs主要富集看家功能基因和可能通过形成TAD边界严格调控这些基因,这些区域表现出CHG超甲基化特征及低剪接活性。而TRRs主要富集主导环境胁迫响应的相关基因,这些区域内TE插入导致超长基因形成,伴随高频可变剪接事件,从而产生转录本多样性以增强环境适应性。
作者推测,岷江百合通过协同利用TE的结构和调控功能来应对进化压力,结构功能是在TRRs中驱动基因组扩张并形成胁迫响应基因库,而调控功能则在TPRs中通过表观沉默维持核心基因组的稳定性。这种"TE-基因功能分区"模式为植物超大基因组如何平衡稳定性与适应性提供了新型分子范式。
结语
本文完成了百合科植物中迄今质量最高、连续性最好的岷江百合巨型基因组组装。结合多种组学数据分析发现:转座子扩散可能驱动了该基因组的扩张与演化,而表观遗传调控很可能影响了转座子滞留并协调基因组正常功能。该基因组将成为百合遗传学、育种学、保护生物学及被子植物基因组演化研究(特别是大基因组生物中基因组规模扩张和物种适应的进化机制研究)的重要资源。
华命生物全面汇总了动植物T2T基因组文章,上一期我们分享130+已发表的植物T2T基因组文献合集和30+已发表动物T2T基因组文献合集,我们不仅有按照时间顺序排列好的所有文献原文资料包,也贴心的整理了每篇文章的研究物种、测序策略、组装水平、基因组大小等内容,关注华命生物,后台回复关键词:华命交流群,扫码添加工作人员微信,发送单位+名字,管理员验证通过后拉入群聊获取文本全部资料~
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!