摘要
莴苣属(Lactuca sativa)是一种大宗作物,也是大型的、进化非常成功的菊科开花植物的成员之一。生菜(Lactuca sativa L.)是重要的蔬菜作物,在美国排名前十的最有价值的作物之一,年产值超过24亿美元。生菜是二倍体,有2n= 2x= 18条染色体,估计基因组大小2.5Gb。由于其基因组大和高重复序列,完成其基因组测序具有挑战性。我们对生菜的基因组进行了测序和组装。使用各种方法,其包括广泛应用的mate-pair文库和Chicago技术。Chicago技术是染色体构象捕获技术的应用,以帮助基因组组装。该基因组采用全基因组鸟枪法和Chicago技术以构建大的super-scaffolds,这些super-scaffolds通过遗传图谱定位到9条假染色体上。
同时确定了几个可能有助于植物发育相关的基因组特征,包括编码类似Cycloidea转录因子的基因,激酶和参与胶乳生物合成的酶和在抗病相关的蛋白。鉴定了21种新型microRNA,其中1个可以从许多激酶转录物触发phasiRNA。我们为菊科基部植物全基因组三倍体化事件提供了证据。我们检测到占基因组26%的三倍体区域中,有30%的基因富集在调节序列并参与植物防御功能。
图:通过HiRise软件提高生菜基因组组装质量(a)通过使用HiRise,基因组装配的连续性更高。(b)通过RILs群体构建最长的superscaffold。红色条代表生菜等位基因,蓝色条代表L. serriola等位基因,黄色条代表杂合子。基因型顶部黑线中的交替不连续性表示SOAPdenovo scaffolds之间的连接。(c)在两个HiRise组装结果中,定向和并入同一个scaffold。
基因组测序和组装
使用全基因组鸟枪法对生菜栽培品种Salinas的基因组进行序列和组装。从不同片段大小(170bp至40kb)的7个文库产生了总共198.5Gb的paired-end and mate-pair数据。过滤后,利用72.5倍覆盖率的数据通过K-mer分析估计基因组大小为2.7Gb。通过SOAPdenovo组装的结果包括153,952个contigs和21,686个大于1 kb的scaffolds,最长的scaffold达到3.1 Mb。contig和scaffold N50分别为12Kb和476 Kb。
生菜基因组circle图
转座内容和注释
通过比较,我们发现了1.8 Gb(占整个基因组2.38 Gb的74.2%)的重复元件。最丰富的是长末端重复反转录转座子(LTR-RT),特别是Gypsy (33.9%) and Copia (24.9%)。除了主要的LTR-RT元件组外,4.4%的基因组注释为微型反转转录重复元件,其中1.2%作为DNA元件,其余被分类到其他重复家族或不能分配。重复元件分布在所有染色体上; 几条染色体的内部区域具有较高的重复性。
转座内容和注释
通过合并来自不同预测方法的基因模型,建立了生菜具有良好蛋白质或EST支持的38,919个基因型的高置信基因集。这些基因模型的平均编码长度为1.05kb,平均每个基因有4.5个外显子,类似于其他测序的植物基因组。
基因组三倍化
与已公布的植物基因组比较,生菜相比葡萄,染色体保护与生长习性和发育时间如预期一样。生菜相比长发育时期或无性繁殖的物种(可可,马铃薯,毛果,冬虫夏草)较具有更快的生命周期。可检测的线性程度也与倍性水平相关。相比A. thaliana (8n) 和B. rapa (12n) ,T. cacao(2 n)与V. vinifera (2n)表现出更多的线形关系。与此相符,生菜(6 n)显示了与V. vinifera 相似的线性关系。这两足基因组之间的综合证据表明了与葡萄谱系分歧的生菜全基因组三倍体事件。V.vinifera染色体1,3,9,11,15,16和17几乎完全在生菜的三个不同位置复制。多个多倍体化事件已经在多个植物中被报道(唇形科,杜鹃花科,伞形科和菊科)。在分离这些Asterid家族之后,分析成对的合成酶之间的突变率与茄科和唇形科的全基因组重复事件是一致的。所有这些物种之间的系统发育关系相关事件都是基于CEG基因序列分析的。
(a)生菜与欧洲葡萄共线性(X轴:生菜染色体; ?轴:欧洲葡萄染色体)。(b)对于基因内比较和用于线性对估计同义替换率(DS)的密度分布(c)Asterid进化枝的RAxML系统发育树;每个位点的估计核苷酸替换量表。(b)观察到的全基因组复制/三重事件的推断位置。(d)三倍体旁系同源基因在生菜基因组中的分布。染色体假分子沿三轴逐渐排列:x:LG1,LG4,LG7; y:LG2,LG5,LG8; z:LG3,LG6,LG9。WGT,全基因组三倍。
总之,所检测到的三倍体区域覆盖的至少651 MB 水稻基因组(该基因组的26%)和含有11816(30%)的所有预测的基因。在这些区域的基因中,2,912(25%)保留了至少一个共同对应物。一些类型的基因在三倍体区域中富集,这些包括编码转录因子和DNA结合蛋白的基因以及核,核小体,膜和细胞壁的组分。这些转录因子包含广泛的功能域(AP2,Homeobox,KNOX,WRKY,TCP)。在54个TCP转录因子中,27个存在于三倍体区域中。
一些基因在检测到的三倍体区域中的代谢不足。编码与防御反应,信号转导,蛋白激酶活性和蛋白磷酸化活性相关的蛋白质的基因在三倍体区域中不太普遍;,在三倍体区域中检测到437个NB-LRR候选基因中仅有29个,21个LOX基因中有3个。这些类型的基因的分布可能反映了它们所处的基因组信息,而不是基因损失本身。
讨论
生菜的这个基因组组装结果是目前为止所报道的所有植物里尤其是对于具有高重复含量的2 Gb以上植物基因组而言是一个更完整的基因组。生菜基因组是菊科植物里一个有代表性的基因组。它提供了第一个高质量,被验证的菊科参考基因组。
在生菜中检测到的全基因组三倍体事件与向日葵基本一致,与最近在胡萝卜报道的三倍体事件不同。有趣的是,这些事件似乎都同时发生与或白垩纪-古新世过渡(66 MYR)后不久,这个时期大约有75%的物种灭绝了。这种多倍化时间导致物种进化创新和表型可塑性,赋予了成功定居干扰栖息地的选择优势。如在其他植物和动物的全基因组复制中一样,编码一些但不是全部转录因子的基因在生菜基因组的三倍体区域中富集。序列分歧的模式表明WRKY基因5'末端的亚功能化,以及AP2和MADS基因可能的新功能化。这些机制的变化可能导致新的表型,使其能够适应新的环境。
其他基因组特征有助于可能参与复杂头状花序(许多花的复合物)的形成的类环状基因的多样化; 这样一个精心进化的生殖器官可能对传粉者更有吸引力。菊科植物同样以其次生代谢产物的多样性而闻名。涉及生产胶乳的基因为其提供了生菜特征性的乳状液体,这些胶乳可能涉及生物胁迫的防御。还有一个有趣的是,有超过20个新的miRNA,其中一个靶向激酶转录本;可能意味着另一个调控创新,对其他菊科物种的miRNA序列进行分析将具有参考价值。
这个高质量的参考基因组为菊科的综合研究提供了基础。它也将大大促进作物改良所需的基因编辑研究,特别是涉及非生物和生物胁迫抗性的基因组。
小编感言:
该文章介绍了一种特殊的菊科蔬菜——生菜基因组,但其基因组组装contig和scaffold N50分别为12Kb和476 Kb,放到现在真心被三代虐成渣。而且在组装上在二代测序的基础上应用了Chicago技术,提升Scaffold,利用遗传图谱挂载到染色体上。(没有应用Hi-C技术组装到染色体并与遗传图谱进行互相验证,少了一个亮点表示遗憾)。
在分析内容上也只是介绍了常规的组装注释、基因及蛋白家族预测等基本分析,此外注重强调了三倍化事件,最终该文发表在Nature Communications上面,主要优点是因为物种特殊,菊科发表的很少。但缺点是组装质量差、内容简单,研究的不精细,所以上不了Nature Genetics、Nature等生物学顶级期刊。
参考文献
Sebastian Reyes-Chin-Wo1, Zhiwen Wang, Xinhua Yang, et al.Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce[J]. Nature Communications, 2017.
本文暂时没有评论,来添加一个吧(●'◡'●)