当前位置:首页 > 技术交流 > 最新应用



技术交流

扫描二维码
或添加“GeneGroup003
获取更多更新资讯

商城订购

扫描二维码
或添加“基因商城(GeneMart)
手机下单,快人一步

售后服务

扫描二维码
或添加“GeneGroup005
获取更快速售后支持

只要两周!只要两周!27G基因组测序用不着两年!

版权所有,转载请联系基因市场部
2020-03-10

从1977年Sanger测序技术诞生以来,人们致力于对各物种的基因组研究,以人类的基因组(约为3Gb)为例,2001年首个人类基因组草图绘制完成,由美国、英国、法国、德国、日本和中国6个国家超过3000名科学家共同参与,耗时13年,耗费资金超过30亿美元。即使到后来高通量NGS测序技术的出现,组装一个人的基因组时间被大幅缩短,但同样需要很久的时间。

那么假如我们组装一个大小为27Gb的基因组需要多久呢,答案可能是一年或是两年。但如果有人告诉你两周就可以完成从样本采集到基因组组装全过程,是不是会觉得很神奇,那我们今天就跟随PacBio公司的青年科学家Michelle Vierra博士的脚步了解下是如何在仅仅两周时间内搞定加州红杉这个27 Gb超大基因组的

Michelle Vierra 博士

PacBio动植物科学部门战略营销经理





故事的开头还得从2019年1月份的PAG会议说起,在本次会议上PacBio首先展示了更新的HiFi read。区别于其他的测序模式和结果,不管是与PacBio自家的长片段测序技术(CLR),还是NGS技术的短读长测序模式对比,HiFi read兼顾了长读长(更大插入片段可达25Kb)和高精度(不低于99%的准确度)。这种测序结果可以说是又长又准,不仅很容易就可以跨过基因组中较短的复杂重复区域,同时高准确度结果又保证了较大区域内的复杂的重复基因序列的解析,使得对超大复杂基因组的测序组装变得不再是难事。

PacBio HiFi Reads的生成原理

点击图片了解更多HiFi reads相关内容


使用HiFi测序模式不仅已经完成了从人类基因组到大麻到鱼到四倍体月季等动植物的高质量组装,同时随着PacBio HiFi reads测序模式的成熟,更多的生信工具如HiCanu, Hifiasm, Nighthawk同样也针对HiFi数据做出了优化适配,使得使用PacBio HiFi数据进行复杂基因组的组装变得更加的简单。

在PAG 2020中首次亮相的针对HiFi数据优化的三个assemblers/phasing工具

——HiCanu, Hifiasm, Nighthawk


但宣传毕竟就是宣传,有人就问了,你宣传的这么好,那你组装个超大基因组看看啊,比如17Gb大小的六倍体小麦基因组试试?当时Michelle Vierra内心应该是很慌的,毕竟没这么玩过啊,但得知已经有人在12个小时就完成了11GB的燕麦基因组的组装,并且contig N50的大小超过了20M之后,我们的Michelle Vierra博士秉承着美国人Go Big or go Home的勇于拼搏的精神,决定了那干脆干票大的,也别17Gb了,直接上27Gb的加州红杉的基因组组装吧!

加州红杉,又名 加州紅木(Coast Redwood,California redwood,Sequoia sempervirens)

红杉是世界上生长更快的针叶树之一,它们已经存活了数千年。曾经遍布整个北半球,现在只剩下5%的原始海岸红杉林。


说干就干,科学研究容不得丝毫的懈怠!Michelle 和她的同事朋友们在一个阳光明媚的周一下午就直奔风景优美的斯坦福大学校园,开始采集加州红杉的样本,并在公司同事帮助下分离获得了加州红杉的DNA。回到实验室后就立刻着手样本的DNA提取与文库构建工作。

加州红杉的样本收集和处理过程


使用BluePippin将DNA片段选择大小设置为15 kb,更长的插入片段允许HiFi读长达到50 kb。经过后续分析我们发现:

  • 高达50 kb的HiFi reads精度都可以高于Q20(99%)

  • 而且大部分HiFi reads准确度都接近Q30(99.9%)。


HiFi reads 读长分布

Insert Size

HiFi reads 的准确率分布,上图表示reads计数(Bin counts)在准确率和读长上的分布。可以看到:

  • 所!有!的!reads准确率都在Q20以上!

  • HiFi reads更密集的插入片段在20k-30k这个区间!

  • 更长的插入片段可以达到50k

  • 大约有超过一半的reads准确率接近或超过Q30。

这就是可用于高准确度基因组组装的高质量长读长HiFi reads!


接下来的工作就是进行测序与组装了,经过一周时间的PacBio  SMRT测序技术测序,总共获得了606Gb的HiFi数据,相当于加州红杉27Gb的基因组序列的22X覆盖深度。从以往的经验看使用HiFi测序模式只需要20X左右的测序深度就足以完成高质量的基因组组装。那么接下来就是开始这个超大基因组的组装工作了。

随后PacBio的资深生信科学家Greg Concepcion博士选择了被报道为更快的且专注于解析单倍型的组装软件---Hifiasm,开始了这个27Gb的基因组组装工作。

在Hifiasm软件上仅仅运行了6天之后,这个庞然大基因组的组装工作就顺利完成了!而这6天所用到的计算机资源也不过是:

  • 服务器配置:64核512Gb RAM

  • 生成HiFi数据:46,000 CPU hours

  • 基因组组装:7,200 CPU hours

短短6天的分析时间,获得的结果也依然是相当惊人的!结果几乎是预期基因组大小的两倍,其中Contig N50达到了1.92 Mb!

组装获得的大于预期的基因组大小,大部分都为两个类似的单倍型,而并非单纯相异的六倍体,这与Scott等人所报道的加州红杉的研究类似,印证了加州红杉的多倍体化是自多倍体事件。

加州红杉基因组组装结果及不同测序平台结果的比较


也许您会对上面的加州红杉组装结果中BUSCO评分只有59%感到迷惑,不是一般较好的组装结果BUSCO值都要高达90%以上吗?这是因为裸子植物(加州红杉属于裸子植物)的BUSCO基因集与被子植物的BUSCO基因集相差很多。这意味着针对加州红杉使用通用的BUSCO基因集来评估基因组完整性是不准确的,只是目前我们还没有其它更好的评估方法。






回顾一下整个过程,从对加州红杉基因组的研究中可以得到了什么结论呢?

  • 首先,任何生物体都可以使用HiFi数据获得高质量的基因组信息。本次加州红杉的基因组达到了高质量基因组组装连续性、完整性和准确性(Contiguity, Completeness,Correctness)的全部3C标准。



  • 其次,高质量的基因组组装不再消耗大量的测序与组装时间。短短17天内从提DNA到测序组装一个27 Gb超大全基因组序列,这已然改变了业内对大型复杂基因组组装的看法,以前人们认为组装需要大量时间和计算资源,更不用说测序时间了。这个庞大的基因组项目经历了4天的样品准备,7天的测序,仅仅只花了6天的时间进行组装,总共不过短短17天时间。因此可以说,任何想要组装高质量基因组的计划都可以通过HiFi reads来实现。





对比友商测序技术

回过头来看,其他的测序技术是什么样的结果呢?请看下图,我们来对比友商总体情况~

  • PacBio与友商在此次加州红杉基因组项目时间上的对比

  • PacBio的几乎2周相对于友商技术的接近2年


  • PacBio组装结果几乎是预期基因组大小的两倍,印证了加州红杉的多倍体化是自多倍体事件。这一结果友商的测序方法则没有发现。

  • 另外,友商测序技术出现了更多的移码错误,后续会明显阻碍下游的分析


  • 在基因组组装方面,计算机资源消耗情况的对比。

  • 看来巨量数据需要NGS数据矫正,加之高难度组装分析让服务器很慌


参考文献如下:

1.Sequencing and assembling mega-genomes of mega-trees: the giant sequoia and coast redwood genomes

2.Transcript set of Abies alba from Neale, D. et al. Varying number of transcripts aligned to each genome (4,958 mapped to PacBio HiFi redwood, 4,760 mapped to ONT redwood)

3.A Genome Fit for a Giant Sequencing the California Redwood

4.Using transcript set of Abies alba from Neale, D. et al . consisting of 22,561 transcript sequences


其实不仅仅是27Gb的加州红杉的基因组装,在其他超大的基因组组装中PacBio SMRT测序技术同样发挥着其他测序技术所不能比拟的优势,比如32Gb的墨西哥钝口螈基因组组装,20Gb的云杉基因组装等等。而随着HiFi测序模式的进一步发展,获得高质量的超大的、复杂的基因组信息终将不是问题。






更后我们可以得出这么一个结论:

No genome too large for HiFi reads.


本周在线在线活动


在线研讨会 | 心肌细胞死亡和心脏保护 —— CaMKII及其分子伴侣的故事


演讲嘉宾:张岩博士   

副研究员

  北京大学分子医学研究所

 

3月12日 星期四 10:00 - 11:00 a.m.

(北京时间)

 

长按并识别下方二维码

在跳转页面中注册即可参与








      基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。









欢迎关注我司“基因快讯”与“基因售后服务”官方微信

沪公网安备 31011202014103号

沪ICP备2022000693号-1