同一物种可发表多篇基因组测序文章

 

芝麻基因组

物种发表文章测序组装方案研究思路对比

Wang., et al. (2014) Genome sequencing of the high oil crop sesame provides insight into oil biosynthesis.Genome Biology.Illumina HiSeq 2000,深度152.7×,组装基因组大小为274 Mb,基因组覆盖度为81.3%contig N50 =52.2 Kbscaffold N50 =2.1 Mb发布了第一个芝麻基因组图谱,进行了芝麻基因组注释、在芝麻基因组进化、产量、油脂含量、抗病性等性状相关的基因等方面进行了分析。
Xin Wei, et al. (2015) Genetic discovery for oil production and quality in sesame.Nature Communication.选择两个有代表性的品种Baizhima 以及 Mishuozhima进行70×测序并进行de novo组装,contig N50=47 Kb,覆盖度为96.8%在前期完成芝麻基因组测序基础上,筛选来自29个国家705份芝麻资源构建单体型图谱,并对两个代表品种进行de novo测序用于鉴定变异,采用GWAS方法调查了56个农艺性质,获得549个相关位点。
Wang L, et al. (2016) Updated sesame genome assembly and fine mapping of plant height and seed coat color QTLs using a new high-density genetic map.BMC Genomics.采用Illumina HiSeq 2000测序,结合RAD-seq遗传图谱的构建,较文献二基因组组装结果得到提升。共得到327scaffolds,新组装的基因组包含了97.5%文献二中长度大于150 Kbscaffolds,并将基因组组装大小从233.7 Mb提升到258.4 Mb第二版芝麻基因组。构建新的遗传图谱,较文献二基因组组装结果得到提升。利用新构建的图谱和新组装的基因组对芝麻株高性状、籽粒颜色性状QTL进行了分析,定位到41个株高相关性状位点和9个芝麻籽粒颜色位点,特别是首次定位到一个芝麻半矮杆QTL,为解析芝麻开花节节高的分子机制奠定了基础。


棉花基因组

 

物种发表文章测序组装方案研究思路对比

Kunbo Wang, et al. (2012) The draft genome of a diploid cotton Gossypium raimondiiNature Genetics.采用Illumina 测序产生78.7 Gb,深度103.6×(预估基因组775.2 Mb),contig N50 = 44.9 Kb, scaffolds N50 = 2284 Kb, 约覆盖了预估基因组的88.1%研究人员测序和组装了雷蒙德氏棉的草图基因组,超过73%的组装序列定位到13条雷蒙德氏棉染色体上。基因组中92.2%的蛋白质编码基因得到了转录数据的进一步证实。该研究对棉花基因组的系统进化机制、物种基因组比较、以及纤维形成关键基因的家族进行了分析和讨论。
Fuguang Li,et al. (2014) Genome sequence of the cultivated cottonGossypium arboreumNature Genetics.Illumina测序得到193.6 Gclean reads,测序深度为112.6×,基因组组装大小1,694 Mb contig N50 = 72 Kb, scaffolds N50 = 665.8 Kb绘制出高质量的木本棉基因组图谱,与雷蒙德氏棉基因组进行了比较分析,并对棉属进化机制及重要经济性状功能基因进行了初步分析。还进行了比较基因组学分析、抗病基因家族分析。
Tianzhen Zhang, et al. (2015) Sequencing of allotetraploid cotton (Gossypium hirsutum L. acc. TM-1) provides a resource for fiber improvement. Nature Biotechnology.利用Illumina Hiseq 2500平台PE100测序,深度为245×,陆地棉基因组大小为2.5 Gb,组装结果contig N50 = 34 Kbscaffold N50 = 1.6 Mb,其中92%scaffold可定位到染色体上。选取陆地棉遗传标准系TM-1,采用SOAPde novo软件进行组装,在此基础上,结合17万对BAC末端序列和高密度的遗传图谱,获得了高质量的全基因组图谱。利用TM-1的全基因组序列,对四倍体棉花中两个亚基因组的非对称进化机制进行了解析。同时,对棉纤维发育相关的重要基因展开了深入研究。

赤小豆基因组

物种发表文章测序组装方案研究思路对比

Sakai H., et al. (2015) The power of single molecule real-time sequencing technology in the de novo assembly of a eukaryotic genome. Scientific Reports.采用了3种组装方法并对比了组装效果Assembly_1Roche454Illumina数据混合de novo组装;Assembly_2Illumina-only de novo组装;Assembly_3PacBio de novo组装;通过小豆V. Angularis cv. ‘Erimoshouzu’(JP37752)V.nepalensis(JP107881)F2构建高密度遗传连锁图,辅助优化组装结果。比较了赤小豆基因组组装中的三种策略-基本代表了目前主要的de novo组装方法。从组装结果来看,纯三代组装方法能够明显提升组装结果。
Kang YJ.,et al. (2015) Draft genome sequence of adzuki bean, Vigna angularisScientific Reports.组装结合了Illumina HiSeq 2000Roche GS-FLX+来组装,利用GBS法构建高密度遗传图谱定位基因组到染色体。侧重于比较转录组研究V. angularis var. angularisV. radiata var. radiata组织特异性的基因表达、分子标记的开发利用及利用wild adzuki bean, V. angularis var. nipponensis,  V.nepalensis间的群体重测序研究赤小豆栽培种和野生种间的变异以追溯驯化起源。
Yang K.,et al. (2015) Genome sequencing of adzuki bean (Vigna angularis) provides insight into high starch and low fat accumulation and domestication. PNAS.组装采用Illumina HiSeq 2000,利用RAD-seq法构建高密度遗传图谱定位基因组到染色体水平。侧重深入研究了与淀粉和脂肪酸合成代谢相关的基因,在进化驯化研究中侧重于研究赤小豆在驯化过程中的遗传多样性变异和选择性清除。

苹果基因组

物种发表文章测序组装方案研究思路对比

Riccardo Velasco, et al. (2010) The genome of the domesticated apple (Malus × domestica Borkh.). Nature Genetics.Sanger法测序与454测序相结合,深度为16.9×,利用720个个体构建的遗传图谱。测847×叶绿体和168×线粒体,用于评价组装质量。contig N50 = 13.4 Mb;估计基因组大小742.3 Mb 对苹果基因组进行深度为16.9×的测序和组装,发现苹果的染色体数目为17个,苹果基因组有742.3 Mb,蛋白编码基因57386个。对基因组进行了基因预测及注释、蛋白预测及GO注释、基因家族分析、共线性检测、Ks dating以及分子遗传、分类、进化等分析。
Xuewei Li, et al. (2016) Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica). GigaScience.采用hubrid de novo组装苹果基因组,得到76 Gb~102×)的Illumina HiSeq数据和21.7 Gb~29×PacBio数据。Illumina组装全长为1.05 Gbcontig N50 = 534 bpPacBio RS组装长度632.4 Mbcontig N50 = 11.1619 Kbpolymerase read N50 长度16.6 Kb。覆盖率达90%,预估苹果基因组大小为701 Mb采用Illumina高通量测序技术和以长读长著称的PacBio单分子测序技术进行de novo测序和拼接,构建新版苹果参考基因组序列并完成了基因注释。综合结果显示重复序列总长度大约38 2 Mb,占‘Golden Delicious’ 组装基因组的 ~60% 。通过测序数据的混合组装,进一步注释分析预测出53,922个蛋白编码基因和2,765个非编码RNA基因,文献一偏少。

 

油棕榈基因组

物种发表文章测序组装方案研究思路对比

Singh R., et al. (2013) Oil palm genome sequence reveals divergence of interfertile species in Old and New worlds. Nature.454平台为主,结合Sanger测序完成非洲油棕榈全基因组测序总测序深度为26×,结合遗传图谱信息对高质量的测序结果进行组装,最终得到油棕榈基因组大小约1.8 Gbscaffold N50 =1.045 Mb主要进行非洲油棕榈、南美油棕榈的全基因组de novo测序,及非洲油棕榈的转录组测序。
Jin J., et al. (2016) Draft genome sequence of an elite Dura palm and whole-genome patterns of DNA variation in oil palm. DNA Research.Illumina HiSeq 2500, Miseq  Roche 454测序,经质控171 Gb 高质量序列用于组装,组装基因组大小1.701 Gbscaffold N50 = 0.76 Mb,覆盖度94.49%测序组装了一株优秀油棕榈的基因组,并对另外17株油棕榈进行重测序,获得1810万的SNPs,并对点突变进行功能分析。

 

丹参基因组

物种发表文章测序组装方案研究思路对比

Zhang et al. (2015) Hybrid de novogenome assembly of the Chinese herbal plant danshen (Salvia miltiorrhiza Bunge). GigaScience. 采用Illumina测得395× raw reads,和10× PacBio raw reads,组装出的基因组草图大小为641 Mbcontig N50大小82.8 Kbscaffold N50大小1.2 Mb用混合组装测序方法绘制了丹参基因组的草图。以二代测序为主,加入10×三代测序数据来提高组装结果。预测出34598个蛋白质编码基因以及1644个丹参基因组中特异的基因。
Xu H et al. (2016) Analysis of the Genome Sequence of the Medicinal Plant Salvia miltiorrhizaMolecular Plant.采用158.2 G250×)的Illumina Hiseq 2000 数据结合8.19 GbPacBio RS数据,再加上8.65 GbRoche 454数据对PacBio RS数据进行矫正。最终的组装结果为基因组大小538 Mbcontig N50 = 12.38 Kbscafflod N50 = 51.02 Kb混合组装并分析了丹参基因组的草图。利用了IlluminaPacBio RS和罗氏454三个平台对单身基因组进行测序,三平台数据相互校正组装,得到了准确度更高的丹参基因组草图。最后预测的到了30478个蛋白质编码基因,并对进行了基因家族进化和功能分析。

 

橡胶树基因组

物种发表文章测序组装方案研究思路对比

Rahman, et al. (2013) Draft genome sequence of the rubber tree Hevea brasiliensis. BMC Genomics.利用Roche 454(构建shotgun8K20K大小的文库)、Illumina以及SOLiD共同测序,深度为43×,去除重复序列后用于组装深度为13×。最终得到的组装结果约1.1 Gb(前期研究预测橡胶基因组大小约2.15 Gb),scaffold N50 = 2972 bp结合多种NGS平台对橡胶树基因组进行了测序和组装,然而并未得到较好的的组装结果。预测得到68955个基因。
Tang C., et al. (2016) The rubber tree genome reveals new insights into rubber production and species adaptation. Nature Plants.使用Illumina Hiseq平台,深度为 94×55 GbSOLiD长插入片段数据用于scaffold 序列的定位。组装大小为 1.37 Gb,覆盖率 93.8%scaffolds N50 = 1.28 Mb contigs N50 = 30.6 Kb二代测序与三代测序结合,构建了一个高质量的橡胶基因组。预测了 43792 个编码蛋白基因。橡胶基因组中的重复序列占比较高,为71%。并发现了REF/SRPPrubber elongation factor/small rubber particle protein)基因家族在橡胶中显著扩增,推测其对橡胶的生物合成密切相关。

小麦基因组

物种发表文章测序组装方案研究思路对比

Ling HQ., et al. (2013) Draft genome of the wheat A-genome progenitor Triticum urartu. Nature.采用Illumina HiSeq 2000测得448.49 Gb高质量序列,估计出乌拉尔图小麦基因组大小约为4.94 Gb

首次完成了小麦A基因组的测序和草图绘制,比较全面地揭示了A基因组的结构和表达特征,研究人员鉴别了蛋白编码基因模型,进行了基因组结构分析,揭示出了一些重要农艺性状基因和分子标记。基因和小分子RNA的扩张可能是小麦抵御恶劣生存环境和具备广适性的原因之一。
IWGSC. (2016) A chromosome-based draft sequence of the hexaploid bread wheat (Triticum aestivum) genome.Science.30×241×Illumina测序,最终组装大小为10.2 Gb,覆盖率61%提供了六倍体小麦的结构草图序列,鉴定位于小麦21条染色体上的75000多个基因。与近缘物种比对,对小麦的六倍体形成、基因表达、基因家族以及分子标记进行了分析。

 

腔棘鱼基因组

物种发表文章测序组装方案研究思路对比

Amemiya CT., et al. (2013) The African coelacanth genome provides insights into tetrapod evolution. Nature.采用HiSeq 2000 PE100测序,构建180 bpshotgun文库和3 Kb40 Kbmate-pair文库,共计150×将腔棘鱼及肺鱼的转录组测序数据与其它四足动物比较,发现肺鱼与四足动物的亲缘关系更近;通过数据分析后得出腔棘鱼进化慢的结论;通过基因分析研究脊椎动物适应陆地生活的机制;通过分析发现腔棘鱼基因组中缺少Immunoglobulin-M基因。
Nikaido M., et al. (2013) Coelacanth genomes reveal signatures for evolutionarytransition from water to land. Genome Research.采用HiSeq 2000 PE100 测序,构建300 bp500 bp1 Kb2.5 Kb5 Kb多种文库,测序深度共计300×分析腔棘鱼基因组相对于其它鱼类基因组所特有的一些特征,比如一般鱼类的基因组只有1 G,而腔棘鱼有2.74 G;重复序列占60%左右,间接说明整个物种基因组大的原因;分析腔棘鱼基因组中转座子原件部分;通过5247个基因与人、家鸡、蛙类以及斑马鱼的数据进行比较最终证明腔棘鱼基因组进化比较缓慢;研究了与肢体进化有关的基因以及分析化学感受器相关的基因来解析水生到陆生的机制。

 

云杉基因组

物种发表文章测序组装方案研究思路对比

Birol I., et al. (2013) Assembling the 20 Gb white spruce (Piceaglauca) genome from whole-genome shotgun sequencing data. Bioinformatics.采用HiSeq 2000MiSeqRoche454构建不同长度的文库测序,并用Roche 454BAC文库进行测序,混合组装。Contig N50 = 5.0 KbScaffold N50 = 20.4 Kb文章主要是对白云杉进行了基因组组装注释。
Nystedt B., et al. (2013) The Norway spruce genome sequenceand conifer genome evolution. Nature.采用结合fomisd文库,单倍体和二倍体shotgun文库数据,RNA-Seq数据结合起来组装。Scaffold N50 = 4.9 Kb对挪威云杉进行了基因组组装,并通过分析获悉该物种基因与模式植物拟南芥数量差不多,但基因组大小却比拟南芥大100倍。研究发现了挪威云杉基因组之所以大,是由于转座子的积累,并通过对另外5个裸子植物做比较基因组分析,发现可转座元件多样性也存在现存针叶树。

 

人基因组

物种发表文章测序组装方案研究思路对比

Pendleton M., et al. (2015) Assembly and diploid architecture of an individualhuman genome via single-molecule technologies.Nature methods.研究方法采用PacBio测序,前后使用了2个版本的测序试剂pre P5-C3P5-C3试剂,分别测得851162SMRT Cell,测序深度分别为24×22×Bionano光学图谱:数据量为80×,平均片段长度277.9 KbContigN50 = 1.4 Mb, Scaffold N50 = 31.1 Mb与之前已经发表的基于第二代高通量测序分析的基因组参考序列相比,杂合组装的基因组序列中发现了新的复杂结构变异,这是以往的参考序列很难进行精确分析的;除此之外,精细组装结果能够鉴定长达数百Kb的单倍型域(haplotype block)。
Chaisson MJ., et al. (2015) Resolving the complexity of the human genomeusing single-molecule sequencing. Nature.采用PacBio RSⅡ进行测序,使用了P5-C3试剂,测序深度为41×利用PacBio的长序列对原有的参考基因组进行补洞,该研究成功填补了GRCh3755%gap,其中包括78%的短串联重复序列,存在于高G+C的区域;同时确定了26,079个常染色质结构变异,包括染色体倒置、复杂插入片段及大量长串联重复,大多数变异先前没有报道。
Shi L., et al. (2015) Long-read sequencing and de novo assemblyof a Chinese genome. Nature Communication.基因组de novo采用PacBio RS II P6-C4试剂,测序深度103×Illumina HiSeq X ten测序深度143×,用于改进组装效果,矫正InDelSNV的错误,并采用纳米通道阵列构建物理图谱,Contig N50 = 8.3 Mbscaffold N50 = 22.0 Mb结合了三代基因组测序和全长转录组测序技术,对GRCh38填补了274N-Gaps并发现了新的可变剪接基因。

 

大猩猩基因组

物种发表文章测序组装方案研究思路对比

Scally A.,et al. (2012) Insights into hominid evolution from the gorilla genome sequence. Nature.采用短读长的Illumina测序和Sanger测序数据,进行组装,基因组大小3.04 GbContig N50 = 11.8 KbScaffold N50 = 914 Kb对大猩猩基因组测序的完成标志着当前存活的猿科动物最后一个属的基因组也得以破解。第一次将所有存活的四种猿科动物包括人类、黑猩猩、大猩猩和红毛猩猩(orang-utans)的基因组进行比对。该研究以独特的视角了解了人类的起源,并为研究人类进化和生物学,以及大猩猩生物学和保护提供了重要的资源。
Gordon D., et al. (2016) Long-read sequence assemblyof the gorilla genome. Science.使用PacBioSMRT测序和最新的P6-C4试剂,测序深度75×Indel错误采用Illumina数据来矫正,基因组大小3.08 GbContig N50 = 9.6 Mb, Scaffold N50 = 23.1 Mb研究团队在组装上填补或缩小了曾在文献1gorGor3基因组组装结果中存在的434,000个序列缺口中的90%以上。在文献1 gorGor3基因组中,被丢失掉的外显子中有87%被重新找回。同时文献2在他们的基因组分析中获得了关于大猩猩种群历史的新线索,更详细的基因注释以及大猩猩基因组中的调控元件,发现了人类和大猩猩基因组中的差异序列,包括那些编码感知器官,皮肤角蛋白,免疫力,代谢及其他途径相关的组件的序列。




添加时间:

2016年10月11日

上一个:

下一个:

鲁冰花基因组草图发布
本网站由阿里云提供云计算及安全服务 Powered by CloudDream