Nature Genetics:异源多倍体芥菜基因组de novo组装

导读                                                                                         

浙江大学联合好几个单位一起完成了异源四倍体芥菜基因组的de novo组装研究,96日发表在Nature Genetics上,使用的是二代测序和三代测序相结合的方法,得到了一个高质量的芥菜基因组,方法值得参考,对于做植物育种的研究也很有意义。

                                   

研究背景

                                                        

芸薹属植物属于十字花科,包含了多种重要的油料和蔬菜作物。有重要农业价值的芸薹属植物包括三个二倍体物种:芜菁(AA),黑芥(BB)和甘蓝(CC);三个异源多倍体物种:甘蓝型油菜(AACC),芥菜型油菜(AABB),埃塞俄比亚芥(BBCC)。芸薹属的三个二倍体祖先杂交后又经过染色体加倍形成异源多倍体,随后进化出丰富的油料和蔬菜作物。

           1.芸薹属禹氏三角(From Wikipedia

                                                                                                                    

芜菁(AA)、甘蓝(CC)以及它们的后代甘蓝型油菜(AACC)的基因组已经发表,经常用于解释被子植物的进化。芸薹属植物经过了种系的全基因组三倍化和二倍化,造成了大量的染色体重组和基因丢失。植物基因组通常都有杂合和加倍形成多倍体,造成基因组装很复杂。短读长的NGS测序阻碍复杂区域的组装,片段的草图和参照基因组又出现GC偏移和间隔区序列。此外,在异源多倍体中经常检测到同源基因的表达显性。

                                                                                                                       

本研究报告了一种异源多倍体芥菜型油菜(AABB)的de novo组装基因组草图,使用的是Shot gun,单分子long reads(PacBio测序),光学基因组图谱(BioNano测序),遗传图谱,用于理解复杂的异源多倍体基因组。多功能的异源多倍体芥菜提供了一个典型的模型用于研究植物育种的基因组基础,等位基因差异表达对于作物优势的改进可以延伸到其他多倍体作物遗传育种研究中。

                                                       

主要研究方法

1、植物材料和测序

基因组测序和组装用的是一种广泛用作育种亲本的近交品种芥菜型油菜B. juncea var. tumida (T84−66)NCBI 生物样本 SAMN03741772),以及黑芥双单倍体(YZ12151) (NCBI生物样本 SAMN03742614)T84−66的序列共有13 paired-end mate-paired Illumina 文库(175.8×) 一个单分子文库 (12.03×) ,以及222×BioNano数据;YZ12151的序列共有10 paired-endmate-paired Illumina 文库 (95.99×)。基因组大小用流式细胞分析和k-mer分析来估算。此外,产生17个芥菜品种的10×覆盖度的基因组序列用于基因组分析,包括10个蔬菜品种和7个油料品种。对27个代表性芜菁品种进行低深度(<1×)基因组测序用于芸薹属A基因组的对比分析。

2、De novo组装

ALLPATHS-LG进行基因组组装,PBjelly_V15.2.20校正后的Pacbio RS II序列用于填补gapsIrysViewRefAlignerutility用于对齐Irys分子和草图组装,修复scaffold嵌合体错误。最后把修正过得scaffold固定到BioNano数据的光学基因图谱上,得到v1.0版本的组装。

3、基因组质量评价

CEGMA v.2.3 blast458个真核保守基因(CGE database)来评价芥菜的基因组组装,通过比对从NCBI下载的23,002 EST数据(长度≥500 bp)来评估基因组组装。为评估芥菜基因组的准确性,从PacBio数据里随机挑选10个大于40kbsub-reads,用SOAP检查配对关系。

 

4、遗传图谱和pseudo-chromosome构建

                                                                               

把重测序的reads比对到参考基因组上,用GATK v3.4标记潜在的SNP。估算每个scaffold上这些标志物的成对重组,临近SNP的成对复合率小于0.001的集中成一个基因bin,排除有显著偏离的bin(卡方检验,P < 0.01)。最后用Highmap把这些bin归类为18个连锁群。

                                                

ALLMAPS来构建芥菜最初的pseudo-chromosome,用的是先前研究的基因图谱(T84/DTC)结合一个已经发表的基因图谱(SY/PM),最后对芥菜的A基因组和B基因组进行了分类。

                                                             

5、基因注释

                                                                                              

芥菜基因组的重复序列通过结合de novo和同源策略来确定。4de novo程序用于生成最初的重复序列库,包括RepeatScoutLTR-FINDERMITE,和 PILER。用PASTEClassifier对最初的数据库进行分类,然后合并芸薹属的转座子序列库和重复序列库来构建新的重复数据库,通过RepeatMasker来区分基因组组装重复序列。

                                                                                      

基因注释主要用了三种方法,homology-based, de novo EST/unigenes-based,三种方法的结果用GLEAN整合。基于RNA-seq将转录组数据mapping到参照基因组,以及用Cufflinks组装转录组来获得基因结构和获得新基因。

                                                               

tRNAscan来预测非编码RNA
                                                                          

芸薹属植物的A基因组比较、芥菜型油菜(B.juncea)的形成时间估计、同源基因表达优势分析等用到方法很多,此处略过,需要者请参见论文原文。

                                                                          

主要结果

1、基因组组装、scaffold固定和注释

为了区分芸薹属的基因组,本研究对芸薹属基因组重新做了区分,B. rapa(芜菁)的基因组标记为BraAB. nigra(黑芥)的基因组标记为BniBB. oleracea(甘蓝)的基因组标记为BolCB. juncea(芥菜型油菜)的 A 基因组标记为 BjuA基因组标记为 BjuBB. napus (甘蓝型油菜)的A基因组标记为BnaA 基因组标记为BnaC

 

T84−66品种的基因组预估有922 Mb,测序组装获得了784 Mb,覆盖率85%contig N50值是61 kbscaffold N50值是855 kb

 

收集到996648个大于150 kbBioNanoDNA片段(相当于222倍),平均大小超过2 Mbde novo组装由922个基因组map组成,平均长度超过1.19 MbN50达到1.84 Mb,用这些装配集来校正上面的基因组组装。最后的BioNano总装跨度955 Mbscaffold N50 1.5 Mb。构建了一个高分辨率的遗传图谱,包含5333bin marker18条染色体(10A基因组染色体和8B基因组染色体)。最终,91.5%A基因组和72.3%B基因组能比对到相应的染色体上,基于这个组装结果,将B. juncea的染色体分为402.1 Mb BjuA 547.5 Mb BjuB

同时还测了双单倍体B. nigra (YZ12151)的基因组用于比较基因组学研究,基因组大小396.9 Mb,测序深度96×scaffoldN50 557.3 Kb,覆盖率68%。参考BjuB基因图将66%scaffold比对到B.nigra的染色体上。

PacBio subreads评估:99.4%的覆盖率和92.3% 的识别率。

BACs评估:98.5% 覆盖率和99.8%的一致性。

CEGMA评估:利用458个真核核心基因数据库,分别确认出B. juncea  B. nigra 染色体上的453 (98.8%) 458 (100%) CEG蛋白。

 

ESTs匹配:分别确认出B.juncea  B. nigra 染色体上98.9% 98.2% ESTs

 

基因注释:对B. juncea B.nigra 基因组分别注释了80,050  49,826 个编码蛋白的基因,二者分别有97.8%94.7%的基因可以被注释。

 

同源性比较:在B. juncea基因组供识别出316.1 Mb重复序列,其中BjuA 131.2 Mb and BjuB 216.5 Mb。在芸薹属植物中长末端重复序列(LTRs)是主要的转座子(TE),Copia- Gypsy-type LTRs是最丰富的两个转座亚科。研究发现BjuABjuB以及他们各自的祖先染色体的同源区域具有相似的TE含量。

 

基因丢失鉴定:BjuA BjuB相对于祖先分别有562545个基因丢失。

 

芥菜型油菜T84-66的基因组


B. juncea基因组包含的18条染色体分别分属于BjuA (J01J10)和BjuBJ11J18),BjuA和和BjuB的同源关系通过彩色的连接线显示。


2、芸薹属植物的A基因组比较

                                                                                                          

对三个芸薹属植物的A基因组同线性比较显示了极强的共线性,虽然BjuABraA从它们的祖先B.rapa分化出来后经历了染色体的重排。通过对18B.juncea品种、5B. napus品种和27B. rapa品种的SNP进行检验,构建了芸薹属A基因组的进化树,发现BjuA BnaA有不同的进化起源。BjuA可能起源于B. rapassp. Tricolaris,分布于亚洲,BnaA可能起源于B.rapa ssp. Rapa,分布在欧洲,这表明B. juncea (芥菜型油菜)和B. napus(甘蓝型油菜)有各自独立的起源,分别来自亚洲和欧洲地区。

芸薹属植物三个物种A基因组的同线性和系统进化分析

3、异源多倍体芥菜中等位基因的优势表达

要探索异源多倍体基因组的表达行为,本研究对BjuA BjuB不同组织进行了全基因组转录水平的比较。转录表达的分析发现等位基因的优势表达在最初的基因合并和异源多倍化之后就发生了。在不同发育阶段,共有3339对等位基因表现出优势表达,其中56%BjuB基因组。在不同组织中,共有2251对等位基因表现出优势表达,其中55%BjuB基因组。从进化上看,B.juncea(芥菜型油菜)的优势等位基因主要来自BjuB基因组。

芥菜(B. juncea)的等位基因优势表达和基因选择压力分析

N值代表优势(显性)基因数量)

 

4、异源多倍体芥菜的分化选择

                                                                                              

通过对菜用和油用芥菜进行种群分化统计(FST)和平均配对差异(π)估算,鉴定出菜用和油用芥菜的选择性清楚区域(ST < 0.05 π < 0.05)。总共鉴定出794个受选择的基因,其中288个(36.3%)表现出表达优势。这样高比例的等位基因优势表达表明它们在农业性状改善中的重要作用。

菜用和油用芥菜的选择性清除信号和表达模式分析

                                                             

小结

                                                                                  

本研究使用二代测序和三代测序,结合光学图谱,得到了一个高质量的异源多倍体芥菜基因组,值得参考。通过多种手段研究了芥菜A基因组起源的问题,证实是单源起源。从不同发育时期,不同组织,不同处理条件,不同进化时期多个角度系统分析异源多倍体优势表达现象,识别出了芥菜菜用和油用分化选择区域,找到了相关代谢表达的优势基因。本研究提供了一个典型的模型用于研究植物育种的基因组基础,等位基因差异表达对于作物优势的改进可以延伸到其他多倍体作物遗传育种的研究中。

                                                                                                                                                                               

参考文献:The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expressioninfluencing selection


添加时间:

2016年09月13日

上一个:

鲁冰花基因组草图发布

下一个:

本网站由阿里云提供云计算及安全服务 Powered by CloudDream