近日,多国的科学家团队一起,在Nature Genetics上撰文介绍“反刍动物T2T联盟(RT2T)”的开放性项目合作计划,该联盟旨在生成反刍动物(Ruminantia)众多物种完整的二倍体单倍型T2T基因组。但实际上,在该倡议文章发表之前,来自中国农业大学的李孟华教授团队联合合作单位,已经在BioRxiv平台上线了Telomere-to-telomere sheep genome assembly reveals new variants associated with wool fineness trait的预印文章,抢先一步发布了首个反刍动物绵羊T2T完整基因组。
在文章中,李老师团队除了构建绵羊T2T基因组以外,还对其进行了深入挖掘,干货极多,下面小编就带大家来深入了解下文章主要内容。
一、T2T基因组的测序和组装
项目使用了多种长读长测序技术和其他辅助测序手段:
1. PacBio HiFi测序149.0Gb,约52.2×;
2. ONT 超长测序543.2Gb,约190.4×;
3. Bionano光学图谱1135.86Gb;
4. Hi-C文库高通量测序数据357.22Gb。
基于PacBio HiFi数据完成初步组装,组装的基因组包含246个contigs,N50为96.54 Mb,接着使用Bionano和Hi-C数据,将这些contigs进行scaffolding并锚定到27个假染色体,对应26条常染色体和X染色体(ChrX)。在初始组装后,共识别出139个gaps,这些缺口主要集中在富含高度重复序列的着丝粒区域。随后,作者利用ONT超长数据通过扩展或局部组装的策略来填补这些缺口。后续Bionano光学图谱与ONT、HiFi和Hi-C数据的比对结果表明这些gaps均已被填补。
基于父本特异性的超长ONT读取数据,对Y染色体(ChrY)进行了独立的初步组装。随后,利用基于HiFi长读取数据的Hifiasm软件的trio-binning model组装出的Y染色体特异性contigs来填补gaps。基于HiFi读取数据,所有56个端粒区域都进行了局部组装,并将所有不完整的染色体末端替换为56个完整的端粒,这些端粒的长度在1.20 kb至25.32 kb之间。最终,作者构建了完整的绵羊参考基因组T2T-sheep1.0,其大小为2.85 Gb,覆盖了所有常染色体和两条性染色体X和Y。
此外,作者还通过基于Trio-binning的组装方法,获得了T2T-sheep1.0中来自父本和母本的同源常染色体,分别命名为T2T-sheep1.0P(父本起源)和T2T-sheep1.0M(母本起源)。通过相关数据补洞后,最后将T2T-sheep1.0中的完整X染色体和Y染色体分别包含在T2T-sheep1.0M和T2T-sheep1.0P中。
后续利用ONT、HiFi和NGS数据分别对T2T-sheep1.0进行抛光纠错后,整个基因组的碱基质量值(QV)为51.53,这些组装和校正确保了T2T-sheep1.0基因组的高完整性和准确性,为后续的遗传学和功能研究提供了坚实的基础。
图1: Ramb_v3.0和T2T-sheep1.0组装结果比较实例
表1: Ramb_v3.0和T2T-sheep1.0具体组装结果比较
二、T2T基因组注释和重要区域挖掘
01 T2T-sheep1.0显著提高了参考基因组质量
T2T-sheep1.0的所有28条染色体上,共识别出约220.05 Mb的之前NCBI参考基因组Ramb_v3.0未解决区域(PURs),这些PURs在Ramb_v3.0的染色体上均是未组装或错误组装。这些PURs大多位于着丝粒区域和富含重复序列的区域以及端粒区域。
T2T-sheep1.0填补的gaps区域中注释了一些基因并在特定组织上有表达。例如,位于Chr01缺口中的基因ID“Gene1808”(注释为HNRNPK)在背最长肌、大脑和下丘脑组织中表达。T2T-sheep1.0注释了超过96%的BUSCO,Ramb_v3.07中仅注释了93.9%的BUSCO,而其他15个绵羊基因组组装中仅注释了91.2–92.4%的BUSCO。通过比较这些组装中两种已知着丝粒卫星序列的总长度,T2T-sheep1.0在两种卫星序列上的长度都是最长的,表明其在着丝粒组装上是最完整的。
T2T-sheep1.0 纠正了 Ramb_v3.0 中的许多组装的结构错误。一些大片段倒位的SVs通过多条reads的支持被确认为组装错误。基因组质量的提升也反映在 T2T-sheep1.0 的全基因组平均 QV 为 51.53,而 Ramb_v3.0的 QV 为 44.77。
02 T2T-sheep1.0基因组注释
T2T-sheep1.0 基因组序列中有 47.67%(1360.45 Mb)为重复序列,高于 Ramb_v3.0 中观察到的 44.10%(1164.82 Mb)。着丝粒周围区域(PURs)也可能包含大量的重复序列元件,这对准确组装构成了巨大挑战。研究人员发现 PURs 中的重复序列含量远高于其他染色体区域。着丝粒特异性卫星序列和节段性重复(SDs)占 PURs 的 70.78%。在 T2T-sheep1.0 的 PURs 中,286,173 个卫星位点(157.10 Mb)和 10,214 个 SDs(50.76 Mb)分别占全基因组中所有卫星和 SDs 的 96.89% 和 19.65%。
在去除转座子基因后,共获得了 21,517 个高置信度的蛋白质编码基因,其中 754 个是新注释的基因,均位于 PURs 中。并且 99% 的蛋白质编码基因基于NR和KEGG公共数据库进行了注释。在 T2T-sheep1.0 的染色体上搜索了 Ramb_v3.0中未组装出来的新组装区域(NARs),在 T2T-sheep1.0 的 NARs 中共鉴定出 712 个新组装基因(NAGs)。基于 RNA-seq 数据,PURs 和 NAGs 中新注释的基因在多种组织中均转录表达,如脂肪、血液、瘤胃和下丘脑。另外在 T2T-sheep1.0 的 25 条染色体的着丝粒区域中注释新增了 147个基因。
03 基因家族和SDs
T2T-sheep1.0 与另外三个羊参考基因组组装(Ramb_v3.0、盘羊CAU_O.ammon_polii_1.0和山羊ARS1)相比,基因家族的拷贝数明显增加,存在明显的基因家族扩张。此外,基因家族扩张与节段性重复(SDs)的富集存在强烈关联。
T2T-sheep1.0 和 Ramb_v3.0 的 28 条染色体(26 条常染色体和 X、Y 染色体)上分别鉴定了 111.06 Mb 和 20.55 Mb 的非冗余SDs序列。SDs覆盖了2622个基因。与 T2T-sheep1.0 相比,Ramb_v3.0 中 SDs 和旁系同源基因的减少可能是由于重复序列不完整的组装。在所有的 SDs 中,有 45.71% 与 T2T-sheep1.0 的 PURs 重叠,覆盖50.76 Mb。特别是Y 染色体上 PURs 内的4.52 Mb SDs被证明与三个基因家族(TSPY、HSFYZFY)的串联重复有关。此外,研究人员对全球野生和家养绵羊的选择性清除分析发现SDs富集区域中与串联重复基因相关的强烈信号。
04 着丝粒区域及其重复序列特征
11个绵羊近端着丝粒染色体具有相似的卫星序列,组装的时候发现它们之间形成了具有缠绕的组装结构构图,这些缠绕的结构后续鉴定为着丝粒重复序列,基于磷酸化CENP-A(Ser7)抗体的ChIP-seq确定了这些着丝粒区域。着丝粒区域富含高度超甲基化的CpG,Chr02上的整个着丝粒区域都被超甲基化区域所覆盖。着丝粒的长度范围从0.36 Mb到22.63 Mb不等,但与染色体长度没有关联。
由高阶重复序列(HORs)组成的卫星DNA主导了常染色体和X染色体的着丝粒区域。这些卫星重复序列分为三类:SatI(816 bp)、SatII(702 bp)和SatIII(22 bp)。SatI和SatII分别对应于之前描述的两种卫星序列,它们在T2T-sheep1.0的着丝粒区域中占主导地位。作者确定了SatII的大小为702 bp,而不是之前报道的约400 bp,并发现了一种新的卫星序列SatIII。通过荧光原位杂交(FISH)试验验证了着丝粒SatIII重复序列阵列。此外,作者根据序列一致性和相似性热图在绵羊中观察到了着丝粒卫星的进化层次。例如,在X染色体上,SatII主导了着丝粒区域,并且在SatII HORs中至少识别出了两层。另外还检测到了其他重复单元如LINEs和SINEs插入到着丝粒区域。与着丝粒区域内的基因相比,着丝粒周围区域的基因表达水平较高。
05 着丝粒卫星序列和染色体融合的演化
绵羊在染色体中心融合方面经历了显著的演化事件,特别是Chr1、Chr2和Chr3这三个亚中着丝粒染色体。在它们的野生祖先和相关物种中,两个端着丝粒染色体上发生了非等位同源重组(NAHR),从而产生了亚中着丝粒染色体。作者研究了盘羊的基因组,以追溯其染色体重组过程,并将山羊基因组作为外群。绵羊、盘羊和山羊之间的共线性明显揭示了山羊6条染色体与两种绵羊物种的3条染色体之间的二对一融合关系。基于山羊和这两种绵羊物种染色体上的着丝粒位置,作者建立了涉及着丝粒卫星痕迹的染色体融合模式。
另外通过比较NCBI数据库中的相关序列,作者确定了羊亚科(Caprinae)和牛科(Bovidae)物种中SatI、SatII和SatIII的序列相似性和保守性。在绵羊和山羊这两种物种中都发现了两种SatIII变异体,FISH探针的结合结果显示,两种主要的SatIII变异体(SatIII-20GG和SatIII-20CC)在染色体末端表现出增强的信号。
Y染色体结构
目前只有人类和六种灵长类拥有完整的T2T Y染色体。作者组装了绵羊的T2T-sheep1.0-chrY,与绵羊在Ramb_v3.0组装中最新的Y染色体相比有了显著改进。T2T-sheep1.0-chrY的长度为26.59 Mb,比Ramb_v3.0和湖羊参考基因组ASM1117029v1的Y染色体分别增加了0.67 Mb和15.97 Mb。在覆盖PAR的约17 Mb区域内,T2T-sheep1.0-chrY和Ramb_v3.0-chrY之间显示出良好的共线性,但Y染色体PAR远端剩余的约9 Mb区域(即Z区)在Ramb_v3.0-chrY中的组装质量较低,DNA高度碎片化,而在T2T-sheep-chrY中被注释为ZFY基因阵列区。
在绵羊Y染色体上,没有观察到着丝粒特异性卫星(SatI、SatII和SatIII),但存在另一种简单重复序列CenY,其长度为2516 bp,总跨度为180.12 kb。CenY可能为Y染色体上潜在的着丝粒重复单元,显示高度甲基化和重复序列一致性。FISH证实了CenY在Y染色体上的独特存在。
Y染色体总共注释了133个蛋白编码基因和59个假基因。与人类和山羊不同,作者在绵羊Y染色体上没有发现明显的双串联基因拷贝,但检测到了三个基因家族(TSPY、HSFY和ZFY)的拷贝数显著增加,假基因预测进一步揭示了Z区内存在10个额外的ZFY假基因。这三个基因家族的扩张与这些区域中SDs的富集密切相关。对来自公共NCBI数据库的148个样本(28种组织)的RNA-seq数据证实了这些蛋白编码基因的转录,特别是在睾丸中高表达,T2T-sheep1.0-chY是首个具有详细基因注释的完整绵羊Y染色体。
X染色体的特征
除了Y染色体之外,T2T-sheep1.0还显著改善了X染色体的组装质量,QV值从Ramb_v3.0的44.76提高到了51.04。ONT和HiFi reads都显示均匀覆盖X染色体的组装结果。作者纠正了之前Ramb_v3.0中X染色体上大量错误组装引起的倒位。T2T-sheep1.0的X染色体注释了959个基因,根据ChIP-seq和高甲基化信号的富集确定了着丝粒区域。X染色体的短臂(约7 Mb)认为是假常染色体区(PAR)。包含31个基因,与Y染色体短臂上约8.6 Mb的区域同源。此外,PAR区域在X和Y染色体上都富含MUK和PURs,并且血液中的X和Y染色体上都高度甲基化。此外,X染色体从81.71 Mb到100.68 Mb的10个基因与Y染色体雄性特异性区域(MSY)中的10个对应基因有明显的共线性。
图3:X和Y染色体组装
三、基于T2T基因组的变异挖掘和解析
01 基于三代长读长测序的结构变异解析
为了研究T2T-sheep1.0作为结构变异(SVs)参考基因组的表现,作者对两只坦羊和欧洲野羊个体进行了PacBio测序,并将它们的PacBio长读长测序数据与T2T-sheep1.0以及下载的其他16只羊样本的数据集进行了比对。观察到T2T-sheep1.0的比对不匹配率显著降低。合并和过滤后,共鉴定出192,265个与11,987个基因(占总基因的55.93%)重叠的SVs,包括75,962个缺失和113,541个插入。而Ramb_v3.0作为参考基因组比对,所有18个样本中产生的SVs均显著减少。T2T-sheep1.0在PURs内发现了额外的16,885个SVs,跨越24.20 Mb,其中大多数是缺失(n=10,979)和插入(n=5473)。另外发现了16个与外显子相关的SVs,这些SVs存在所有18个个体中,这些SVs重叠的基因与生育力、羊毛和发育功能有关。在T2T-sheep1.0和Ramb_v3.0之间的共线性区域内,也观察到T2T-sheep1.0能显著改善SV的检测。例如,当使用T2T-sheep1.0作为参考时,在所有18个个体中都检测到了Chr08上TUBE1基因外显子中的一个缺失,并且该基因的组装和注释都得到了Iso-seq数据中完整转录本的支持。
图4:T2T基因组提升长读长数据SV检测
02 基于短读长测序的变异检测
与之前的参考基因组Ramb_v1.0相比,使用T2T-sheep1.0作为参考基因组在NGS变异检测方面表现也有显著改进。研究团队收集了全球810个羊NGS基因组测序数据,比较了使用T2T-sheep1.0和Ramb_v1.0作为参考时检测到的SNP。与Ramb_v1.0相比,使用T2T-sheep1.0作为参考时,94.32%的样本(764个)可以比对上的reads数增加了10%以上,reads的错配率也显著降低,而野生羊的错配率明显高于家羊。此外,在252个样本中,T2T-sheep1.0比对时检测到了至少增加了3%正确比对的reads。因此,T2T-sheep1.0在比对方面的提升表明其更适合作为羊参考基因组。
针对T2T-sheep1.0获得的133,314,255个高质量的SNP变异,其中2,664,979个位于蛋白质编码区(PURs),比使用Ramb_v1.0作为参考时观察到的多了12,060,995个。在进一步过滤掉等位基因频率(MAFs)<0.05的SNP后,使用27,493,776个SNP进行后续分析,其中336,166个SNP位于覆盖1635个基因的PURs内。而使用Ramb_v1.0作为参考时,过滤掉的低质量SNP更多,这可能是因为其相对较低的碱基质量值(QV)。以T2T-sheep1.0为参考,鉴定到了1,265,266个结构变异(SVs),其中包括196,471个位于PURs中的SVs,主要以DELs为主,比之前使用Ram_v1.0作为参考的研究中鉴定到的SVs丰富得多。
T2T-sheep1.0为QTL映射分析提供了新的变异。根据Animal QTLdb中248项先前的研究,共鉴定了4729个与形态和农艺性状相关的羊QTLs。将它们的基因组坐标转换为相对于T2T-sheep1.0的坐标,发现758个位于PURs中的SNP位于距离QTLs最近区域2Mb的范围内。
03 核苷酸多样性和遗传结构
研究人员使用T2T-sheep1.0所识别的SNP对野生羊和家养羊进行了种群分析。发现与所有野生种群相比,家养种群的平均核苷酸多样性(π)值最高,而两种野生羊——盘羊和亚洲野羊的π值则高于先前报道的家养羊。羊种群的系谱位置对参考序列敏感,使用T2T-sheep1.0作为参考的分析解决了一些在NJ树和PCA中具有混淆系谱位置的样本。在以Ramb_v1.0为参考的NJ树中,来自中国西南部和哈萨克斯坦的五个种群并未被置于中亚和东亚的分支中,而在以T2T-sheep1.0为参考的NJ树中,这五个种群被更新到了中亚和东亚的分支中。因此,之前他们可能被错误分类(PMSs),并且基于FST的Neighbor-Net网络进一步证实了PMSs与中亚和东亚羊之间的紧密系谱关系。
基于SNP的ADMIXTURE(k=10)和基于FST的Neighbor-Net网络显示的遗传结构模式表明,家养羊(六个种群)和野生羊(四个种群)根据其地理起源存在一致的遗传分化模式。此外,欧亚大陆上的家养羊种群内部也观察到了谱系的遗传分化。例如,中国美利奴羊以及中亚和西藏的六个品种在中亚和东亚地区受到了欧洲羊的遗传渗入,与欧洲分支的关系更密切。非洲羊由两个群体组成,并包含一个具有欧洲血统的杜泊羊品种。欧洲羊在12个南欧品种中受到了非洲羊的遗传渗入,而北欧羊(OUE和SOL)也显示出不同的谱系起源。
图5:T2T基因组提升基于NGS数据的绵羊群体分析
四、驯化和羊毛直径选择信号分析
01 驯化选择信号
为了确认T2T-sheep1.0在识别驯化选择基因组区域方面的改进能力,研究团队重新分析了之前研究中的测序数据,该研究对亚洲野羊和五个古老的家养羊群进行了基因组比较。T2T-sheep1.0检测到的前1%选择性区域相关的311,888个SNP可以成功映射到Oar_v4.0上,并且这些扫描区域内的1403个基因被指定为候选选择基因。相比较Oar_v4.0,使用T2T-sheep1.0在着丝粒周围区域中发现了多个新的选择信号,如Chr03、Chr17、Chr18和Chr24上的信号。特别是在非着丝粒周围区域和T2T-sheep1.0的着丝粒周围区域中,分别发现了550个和36个新的选择基因,这些基因在Oar_v4.0中未被识别。这些新基因大多与免疫、神经元发育、精子、能量代谢等有关。例如研究人员通过XP-CLR和核苷酸多样性(π)比率π-O. orientalis/π-landrace检测到了一个约4 Mb的区域的选择信号。这个选择区域覆盖了20个ABCC4基因拷贝,而在Ramb_v3.0中只组装了8个截短的短ABCC4基因拷贝。这20个ABCC4拷贝在多种组织中表达。
图6:驯化相关的选择信号
02 羊毛直径的选择信号
最后研究人员利用T2T-sheep1.0基因组来检测基于单核苷酸多态性(SNP)和结构变异(SV)的细毛、中毛和粗毛家羊种群以及具有递减羊毛直径的粗毛家羊种群中的全基因组选择信号。与Ramb_v1.0相比,在细毛羊与粗毛羊的比较中,作者在非着丝粒周围区域(non-PURs)和着丝粒周围区域(PURs)中分别鉴定出了约779个和24个新的选择基因。在Chr20末端的PUR中鉴定出了FOXQ1基因,其选择得到了细毛羊与粗毛羊之间π比率的支持。通过T2T-sheep1.0与Ramb_v3.0的共线性分析,确认了Ramb_v3.0中Chr20末端的不完整和错误组装。进一步探索FOXQ1中的变异,发现了五个在不同羊毛密度家羊种群(粗毛、中毛、细毛)与粗毛羊种群之间具有不同等位基因频率的变异。此外在其他三组比较(粗毛与细毛、粗毛与中毛、细毛与中毛)中也检测到了FOXQ1中的显著选择信号。
基于T2T-sheep1.0作为参考基因组时,细毛羊和粗毛羊种群之间FST值的前1%检测到了195个候选的结构变异(SVs)。最强的信号来源于位于Chr25上的IRF2BP2基因3'UTR的一个插入,该插入片段之前已被鉴定并确定为EIF2S2的反义逆转座子基因(称为EIF2S2)。IRF2BP2基因的选择也得到了细毛羊和粗毛羊种群之间具有显著等位基因差异的8个SNP位点的支持,包括作者之前研究中发现的IRF2BP2基因3'UTR和内含子中的两个SNP,以及本研究中发现的启动子区域和上游约5 kb区域内的另外六个SNP。基于SNP和SVs检测到的另一个强信号揭示了DMXL2基因内含子中的一个缺失。此外,有9个被选择的SVs与着丝粒周围区域重叠。例如,一个位于PUR内CA1基因内含子中的受选择缺失(1763 bp),在另外三组比较中(细毛vs粗毛、中毛vs粗毛和中毛vs粗毛)也发现了CA1的选择性信号。作者使用PacBio长读长来验证短读长检测到的PUR中的SVs,发现与驯化相关的7个SVs中的5个以及所有与羊毛细度性状选择相关的9个SVs都得到了确认。
图7:羊毛直径的选择信号
结语
自人类T2T-CHM13基因组发布以来,T2T基因组组装已成为多种物种的热门选择,并已应用于多个物种。然而,相比较大量植物T2T基因组文章的发表,动物T2T基因组目前还极少发布。本研究所组装的T2T-sheep1.0基因组代表了反刍动物中首个无缺口的T2T基因组,这一组装预计将推动对基因组进化、SVs和SNPs的检测以及羊和相关物种基因功能发现的更全面研究。这一成就不仅填补了反刍动物基因组研究中的一个重要空白,而且为未来的遗传学研究提供了宝贵的资源和平台。通过深入分析T2T-sheep1.0基因组,研究人员可以更准确地理解羊的遗传结构、进化历程以及基因与表型之间的复杂关系,从而为农业育种、疾病防控和生物多样性保护等领域提供有力的支持。
参考文献
"Telomere-to-telomere sheep genome assembly reveals new variants associated with wool fineness trait" BioRxiv;https://doi.org/10.1101/2024.07.21.604451
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!