高质量基因组序列关于研讨一个物种基因组的结构、功用、进化、基因定位和克隆等都至关重要。现在单分子测序技能的开展,已使得构建高质量基因组草图越来越简单。但是,这些草图序列依然存在着因为拼装序列碎片化而导致的多种过错,比方不完好的基因序列、摆放到染色体上之后的片段遗失、摆放次序过错和方向过错等。这些过错关于使用这些基因组所做的许多研讨会形成不方便或误导。
我国科学院遗传与发育生物学研讨所梁承志组多年来经过结合单分子测序和光学图谱及HiC等技能构建高质量基因组,已完结多个植物基因组的拼装。最近在前期工作的基础上开发了一个使用单分子测序长片段进行基因组杂乱区域拼装的新方法HERA。在现有软件拼装的基础上,HERA能够大大改善基因组序列的连续性并削减了拼装过错。经过对水稻基因组进行测验发现,HERA将水稻中的绝大部分重复序列包含杂乱的长串联重复序列都正确地拼装了出来。在玉米、苦荞和人基因组中与已宣布版别进行比照,玉米的Contig N50从1.3 Mb提高至61.2Mb,人的Contig N50从8.3 MB提高至54.4 MB,苦荞基因组Contig N50达到了27.85 Mb。在玉米B73参阅基因组中添补了很多曾经没有拼装出的序列,校对了多处染色体上序列方位或方向过错,并增加了一些曾经丢掉的多个重要基因。苦荞中全基因组8条染色体共只由20个Contig组成,其间一条染色体是一个Contig,展现了使用现有惯例技能条件构建简直完好的基因组的潜力。HERA跟已有基因组拼装软件CANU等十分互补,预期二者的整合将会发生新的软件,大幅度的提高基因组拼装的功率。现在,因为单分子测序价格的下降,拼装一个与日本晴质量适当或更好的水稻参阅基因组的本钱已降到了3万元以下。结合单分子测序、BioNano和Hi-C数据,现在能够很低的本钱得到绝大大都物种的高质量参阅基因组。关于功用基因组研讨来说,高质量基因组序列的获取已不再是一个瓶颈,这预示着后基因组年代在大都物种中的全面到来。
论文榜首作者为梁承志研讨组博士生杜会龙,通讯作者为梁承志。软件开发得到基因组剖析渠道的大力支持和协助。该研讨得到中科院战略性先导科技专项(A)“分子模块规划育种立异系统”等的赞助。
图a: HERA拼装基因组跟玉米参阅基因组B73 RefGen_v4的比较。全基因组中序列缺口由2523个削减到了76个。图b: 玉米参阅基因组中缺失或剩余的序列(上图)经HERA改善后(下图)被正确地添补或移除。
我国生物技能网诚邀生物范畴科学家在咱们的渠道上,宣布和介绍国内外原创的科研成果。
本大众号由我国科学院微生物研讨所信息中心承办