转座元件现已证实是驱动基因组进化、调控基因表达与表型形成的关键因素,这类可移动遗传元件可通过引入顺式调控元件等方式广泛影响邻近基因活性。油菜作为重要的油料作物,其异源四倍体基因组和丰富的育种历史为研究转座元件的功能与进化提供了理想体系。然而,在物种水平上,油菜转座元件多态性的全貌、其对基因网络的调控机制及其与农艺性状的关联仍缺乏系统性探索。
华中农业大学联合崖州湾国家实验室于2025年12月8日在国际知名期刊 Advanced Science上发表了标题为“A Pan-TE Map Reveals the Important Role of Transposable Elements in Gene Expression and Phenotypic Diversity in 2,311 Rapeseed Accessions”的研究性论文,探讨了转座元件(TEs)在油菜基因转录调控和表型形成中的作用,构建了油菜泛转座元件图谱,并通过多组学分析揭示了TE插入对花期和角果长度的调控机制,强调了TEs在油菜育种改良中的重要性。

一、油菜泛基因组的构建
研究共整合了14个代表性油菜材料(涵盖冬性、春性和半冬性类型)的基因组组装与注释数据,共注释约146万个基因,并依据蛋白编码基因的序列相似性将其划分为93,776个基因簇,包括核心、软核心、可变和特有基因。核心基因在所有材料中高度保守,占比最高,主要参与光合作用和电子传递等基础生命过程;而特有基因数量最少,呈现明显的谱系特异性,功能上显著富集于胁迫响应相关过程,可能驱动不同品种对环境变化的适应差异。在此基础上,以ZS11为参考,采用Minigraph-Cactus构建了碱基分辨率的油菜图泛基因组,总长度达1.68Gb,包含大量非参考序列和丰富的结构变异。进一步对2311份重测序材料进行群体尺度结构变异分型发现,大多数结构变异为低频变异,其中插入和缺失可能因对基因组结构影响较大而受到更强的纯化选择约束。

图1:油菜泛基因组的构建
二、油菜Pan-TE图谱的构建
通过对14个油菜基因组进行注释,作者共鉴定出约826万个转座元件,平均覆盖基因组323.76 Mb。尽管不同材料间TE总体含量存在差异,但主要TE类别的组成比例在不同基因组中保持高度一致,其中Ⅰ类LTR反转座子占据主导地位,Ⅱ类转座元件以TIR转座子为主。进一步分析表明,核心基因中TE插入比例最低,其可能受到更强的纯化选择压力。作者据此构建了包含15,369个TE家族的pan-TE文库。TE空间分布分析显示,其在基因组中的分布具有显著非随机性,整体与基因密度呈负相关,且SINE和LINE更倾向于富集于基因邻近区域。LTR插入时间分析发现,大多数LTR-TE插入发生在油菜祖先种分化之后,且A亚基因组中近期插入与扩增更为显著。基于2311份油菜材料的群体分析进一步表明,大多数TE在群体中高度保守,仅少数TE表现出低频插入多态性。

图2:14个油菜基因组中可转座元件的分析
三、转座元件插入对基因表达的影响
基于8个材料的叶片RNA-seq数据比较发现,基因体内含有TE插入的基因其表达水平显著低于不含TE插入的基因,表明TE插入会抑制转录过程。结合全基因组DNA甲基化测序数据,作者进一步发现含TE插入的基因具有更高的DNA甲基化水平,说明TE可能通过增强甲基化而降低基因表达。群体水平分析显示,在309份材料的种子转录组数据中,大多数TE对邻近基因表达无显著影响,但在具有调控作用的TE中,促进型TE的比例显著高于抑制型,且这种调控效应在不同发育阶段和插入方向上表现出较高稳定性。进一步的TE-eQTL分析共鉴定出86万余个TE-eQTL,其中顺式eQTL占比最高,且其调控效应显著强于反式eQTL,表明TE主要通过顺式方式调控邻近基因的表达。

图3:可移动元件插入对基因表达影响的分析
四、转座元件插入对表型的影响
通过对502份材料的18个性状开展TE-GWAS分析,作者共鉴定出80个位点上的1427个TE与15个性状显著相关,涉及3095个候选基因,为遗传改良提供了重要线索。在种子性状中,多个TE插入与硫代葡萄糖苷含量和粒重显著相关。尤其值得关注的是,BnaA03.FLCb 第一个内含子中一段包含9个TE的5.5 kb插入与开花时间显著相关。转录组和表观组分析表明,该插入可通过招募H3K27me3等异染色质标记抑制 BnaA03.FLCb 表达,从而促进早花。群体分析显示,该插入主要分布于春性油菜材料,并在加拿大和澳大利亚等春性油菜主产区中频率较高。进一步结合已报道的BnaFLCs 基因中多种结构变异进行单倍型组合分析发现,不同TE和结构变异在调控开花时间上具有协同效应,携带更多变异的材料普遍表现为提前开花。

图4:油菜三种生态型的转座元件插入比较
五、类CACTA插入作为增强子提高角果长度和粒重
研究鉴定出一个同时与角果长度和千粒重显著相关的QTL,其中一段长度为3.5kb的类CACTA转座元件为峰值标记,并与BnaA09.CYP78A9的表达水平显著相关。QTL共定位分析表明,该类CACTA插入是影响角果长度及BnaA09.CYP78A9表达差异的因果变异。该插入位于BnaA09.CYP78A9上游约3.9kb处,可能作为增强子显著提高该基因的表达水平。携带该插入的材料表现出更高的BnaA09.CYP78A9表达、更长的角果以及更大的千粒重,表明该类CACTA插入通过增强基因表达促进角果发育并提高产量性状。群体分布分析显示,该插入主要富集于中国半冬性油菜品种中,且多出现于1970年以后育成的品种。进一步在B.rapa群体中检测到该插入,暗示其可能在B.napus与B.rapa的远缘杂交改良过程中被引入现代中国油菜品种,并在育种过程中对角果和产量性状的改良发挥了重要作用。

图5:与产量相关的一个类CACTA插入分析
六、类 CACTA 转座元件增强子序列的功能解析
作者发现BnaA09.CYP78A9上游的一段664bp片段构成主要增强子区域,其中增强活性主要集中于SegIII区段。进一步鉴定发现,该区域包含8个具有25bp共识序列的不完全串联重复(R1–8)。功能验证结果显示,仅由这8个重复序列与CaMV 35S微型启动子融合,即可产生与完整增强子片段相当的GUS表达水平,表明其为增强子核心元件。不同重复数量的比较分析发现,增强子活性与重复序列数量呈显著正相关,而不同重复单元本身的功能无明显差异。双荧光素酶瞬时表达实验进一步验证了上述结果,并证实这些串联重复本身不具备启动子活性,仅作为增强子发挥调控作用。鉴于该增强子调控角果长度,作者将该8个串联重复命名为角果调控序列(SRS)。在油菜中功能验证表明,SRS与天然启动子联合可显著提高BnaA09.CYP78A9的表达水平,并恢复短角果品种的角果长度至长角果材料水平,证实其在类CACTA转座元件中是增强子活性的核心功能单元。

图6:CACTA样元件内的八个串联重复序列(SRS)起增强子作用
七、类 CACTA 插入增强基因表达的调控机制
作者系统解析了类CACTA转座元件中SRS增强子介导基因表达激活的分子机制。通过酵母单杂交筛选,鉴定到两个可与211bpSRS结合的MYB转录因子,并在油菜ZS11基因组中确认了其四个同源MYB基因,均含有高度保守的MYBDNA结合结构域。EMSA实验表明,MYB蛋白可直接结合SRS中的串联重复序列,且结合强度与重复数量呈正相关;对AC或C碱基的突变显著削弱甚至消除结合能力,表明这些碱基是MYB识别的关键顺式元件。CRISPR/Cas9功能验证显示,单个MYB突变对BnaA09.CYP78A9表达和角果长度影响有限,而四个MYB同时突变则显著降低基因表达并导致角果缩短,说明这些MYB在调控中具有功能冗余性。进一步分析表明,MYB可招募转录共因子并降低转录起始位点附近的核小体占据。综上,SRS作为增强子通过招募MYB转录因子及其共因子,介导核小体移除,从而激活BnaA09.CYP78A9的表达。

图7:MYB转录因子结合SRS增加BnaA09.CYP78A9基因表达
结语
本研究围绕油菜转座元件的组成、变异及其功能作用,系统构建了油菜泛转座元件图谱,并在群体尺度上解析了TE插入的遗传多样性及其对基因表达和重要农艺性状的调控机制。通过整合泛基因组、转录组、表观组和群体遗传分析,揭示了TE不仅是基因组结构的重要组成部分,也是驱动基因表达调控和表型变异的重要遗传因子。进一步结合TE-GWAS和功能验证,阐明了多个关键TE插入通过顺式调控基因表达影响开花时间、角果发育和产量形成的分子机制,并解析了类CACTA转座元件作为增强子激活目标基因表达的核心序列及其调控模式。机制研究表明,TE衍生的增强子可通过招募转录因子和染色质重塑因子,改变核小体构象,从而促进转录激活。为油菜性状的遗传解析和分子育种提供了新的理论基础和资源。