技术交流
扫描二维码
或添加“GeneGroup003”
获取更多更新资讯
商城订购
扫描二维码
或添加“基因商城(GeneMart)”
手机下单,快人一步
售后服务
扫描二维码
或添加“GeneGroup005”
获取更快速售后支持
基于Iso-seq数据的蛋白质组学分析新方法
全长转录组测序(Iso-Seq)是基于PacBio单分子实时测序技术,凭借超长读长的优势,无需打断RNA分子,直接对反转录的全长cDNA测序,即可得到从5’末端到3’PolyA尾的高质量全长转录本序列,从而对同源异构体(isoform)、可变剪接(AS)、融合基因、同源基因、超家族基因、等位基因表达等进行精确分析的一项技术。
基因由于AS或可变启动子最终形成不同的蛋白质产物,这些源自同一基因的蛋白isoforms在细胞中表现出不同的稳定性、分子结合能力和功能效应。研究表明,许多蛋白isoform与神经退行性病变、癌症等多种疾病有关。通过转录测序估计,可能存在超过30万个人类蛋白亚型。然而,很少有实验方法能够轻易地在isoform分辨率下检测到蛋白质,也不知道转录异构体的复杂性能够多大程度上传递到蛋白质组。
蛋白质谱(MS)分析方法得到的肽段数据比对参考蛋白质数据库来推断蛋白isoform是很困难的,因为蛋白亚型之间存在大量的肽段共享,并且参考蛋白质数据库广泛地代表了一个生物体的蛋白质组,无法区分不同组织、发育和疾病状态以及个体之间的蛋白质组差异,也不能发现新的蛋白isoform。
今天向大家介绍由来自美国威斯康星大学麦迪逊分校的学者本月初发表于Genome Biology的一项开创性的蛋白isoform鉴定方法。该研究整合基于MS蛋白质组学数据和PacBio Iso-seq数据,开发了一个用于蛋白isoforms鉴定的长读长(Long read,LR)蛋白质基因组学pipeline,从而检测到了以前基于MS难以鉴定的蛋白isoforms。
✓ PacBio测序分析,揭示高质量的全长 转录序列 ✓ 预测转录本的开放阅读框(ORF) ✓ 用SQANT1 Protein工具执行蛋白 isoform分类 ✓ 使用PacBio数据和GENECODE参考 isoform数据生成样品特异性的全长蛋 白质数据库 ✓ 开发一种新的蛋白质推断算法,通过 PacBio数据获得的转录本丰度值增加 了蛋白isoform识别的数量 工作流程示意图
1、LR RNA-seq 揭示GENCODE数据中 不存在的转录isoforms
2、转录本开放阅读框(ORF)预测
作者开发了一个编码潜能评估工具(Coding-Potential Assessment Tool,CPAT),该工具能对每个转录isoform对应的ORF进行评分。结果发现91%的转录isoforms对应着唯一的高置信度ORF(CAPT score>0.9),剩下9%的转录本存在多个高分ORF,不能明确唯一的ORF。所以后续作者又在CPAT评分的基础上加上了ATG起始密码子的GENCODE注释状态和起始密码子相对于5 '端位置两个指标,实现了所有转录本的唯一ORF预测。一些不同的转录isoforms可能具有相同的编码区,产生相同的理论蛋白质亚型产物。
具有一个或多个高分ORF的转录isoform计数(CPAT分数>0.9)
根据全长转录本预测ORF和蛋白序列
3、SQANTI Protein——全长蛋 白质isoforms的新分类方案
根据ORF预测结果导出基因的蛋白isoforms模型,发现许多基因可以同时表达多种蛋白质亚型。蛋白isoform分类考虑的是全长蛋白质序列,只能通过LR RNA-seq检测,这是只关注“局部”的技术例如的短读长RNA-seq和芯片技术所不能达到的。 为了系统地描述这些全长蛋白亚型,作者创建了一个新的蛋白亚型分类方案——SQANTI Protein,以描述预测的蛋白isoform与GENCODE中注释的蛋白isoform之间的关系。该方案基本遵循SQANTI中的分类原则,也将蛋白isoforms分为:
4、生成高置信度的PacBio衍生蛋白数据库
作者对PacBio数据集设置过滤掉条件,过滤掉极端长度(<1kb或>4kb)、低丰度(例如CPM<3)和没有3 ' polyA覆盖的数据,生成具有可信的完整蛋白isofom模型候选基因,最后有6653个基因在该高置信(High confidence ,HC)区间。然后使用GENCODE数据库来补充其他未覆盖到基因的蛋白质数据,生成一个PacBio-derived(6653个基因对应35119种蛋白质)和GENCODE(13276个基因对应48413种蛋白质)的混合数据库——PacBio-Hybrid数据库,作为下游蛋白质组分析的参考数据库。 高置信度PacBio-derived数据生成
5、使用PacBio衍生的蛋白质数据库对 基于MS的蛋白质组进行分析
作者使用同一来源的Jurkat细胞系进行蛋白质谱,分别根据PacBio-Hybrid数据库与GENCODE参考数据库进行蛋白组学分析,两个数据库99%的基因鉴定和99%的肽是匹配的,这表明两个数据库接下来用于蛋白质推断的肽集几乎相同。但从下图看出,二者只有41%(4503)的蛋白isoforms是相同的。因为在多肽印射回蛋白isoform的过程中,两个数据库中isoforms组成差异和共享多肽分配到其来源的蛋白isoform的不确定性导致二者蛋白质鉴定的差异。而PacBio来源的样本特异性数据库给没有足够特异性肽段支持的isoforms提供了转录证据,提升了蛋白质亚型鉴定的准确性和精密度。
基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。