技术交流
扫描二维码
或添加“GeneGroup003”
获取更多更新资讯
商城订购
扫描二维码
或添加“基因商城(GeneMart)”
手机下单,快人一步
售后服务
扫描二维码
或添加“GeneGroup005”
获取更快速售后支持
GSEA基因集富集分析—基础篇
GSEA---Gene Set Enrichment Analysis首字母缩写,基因集富集分析,更早由Broad Institute 研究团队开发的一款针对转录组数据进行分析的工具。在对基因表达数据分析时,首先确定分析的目的,即选择MSigDB中的一个或多个功能基因集,然后基于基因表达数据与表型的关联度(也可以理解为表达量的变化)的大小进行排序,然后判断每个基因集内的基因是否富集于表型相关度排序后基因列表的顶端或者底端富集,从而判断此基因集内基因的协同变化对表型变化的影响。
已有GO和Pathway分析,为什么还要做GSEA分析?
翻阅经典的转录组研究文献,大量采用GSEA,同样是对基因表达差异进行功能关联分析,GSEA到底有何独特之处?
1. 常规的GO和Pathway分析往往侧重于比较两组间的基因表达差异,需要先设定筛选差异基因的阈值,往往集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。
2. GSEA合理解决了转录组数据分析以上瓶颈问题。GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 即使在没有先验经验存在的情况下也能在转录组层次上对多个基因进行分析,从而从数理统计上把转录组数据与生物学意义很好地衔接起来,使研究者们能够更轻松、更合理地解读转录组数据结果。当然,基于数据的可靠性及分析的稳健性,GSEA也同样需要设置生物学重复样本,每组推荐三个以上。
3. 目前,市面上绝大多数服务公司(包括上海贝晶),都会在差异基因列表基础上提供给用户Pathway 以及GO 富集分析,毕竟给予成百上千的差异表达基因以简洁、明晰的生物学功能的概括,才是进行高通量生物学表达谱研究的主要目的。然而,在实际应用于生物学高通量数据时,它们都有一个重大的缺陷,即对于差异基因检出的阈值,异常的敏感,用户需要给出差异基因的一个明确的定义(阈值),例如abs(FC) ≧2.0 & p ≦ 0.05。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍,因为通过高通量的实验观测到的RNA 表达变化,很多是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度是不同的,如在神经递质系统内,一个1.2 倍的表达差异就可能产生及其显著的效应。
事例阐述
如下图,使用常见的差异基因筛选阈值,无论怎样设置,如果仅做普通的Pathway 富集分析的话,一定会漏检至关重要的Myc 通路。这个示例非常典型,不仅在于Myc 作为重要的癌基因广为人知,并且这里Myc 在实验条件下活性改变后引起的下游基因表达变化,非常具有代表性:即并非所有的下游基因都会展现出强烈的表达改变,但它们会呈现出一致的趋势。而GSEA 的优势就在于,能够稳健的检出微弱但是一致的趋势。
Broad Institute免费分析软件可以做GSEA,为什么要送到公司做服务?
1.该软件并非优化好的商业软件,没有相关背景的研究者要花功夫琢磨如何使用这个网站,忍受操作不便,费时费力,可能结果还不如人意
2.官网提供的分析受计算容量所限,一次只能进行单个或者几个功能基因集进行分析;其置换检验(Permutation)次数不足(更大置换次数1000),数据准确性也会受影响,更终得到的图片质量也不尽如人意,具体参见以下事例
示例阐述
根据某种新药在Cancer Cell Line上3vs3, Treat vs Ctrl的体外实验通过GSEA分析得到的展示图。展示的geneset是MYC target gene,也就是c-Myc(更著名的癌基因,是一个转录因子,在绝大多是癌症中异常激活)的下游基因,这些下游基因一共有200个。分析的目的就是为了检出,MYC通路是否在此实验中激活或者抑制。
Broad Institude官网免费做出的GSEA图片,图形分辨率低,达不到文献发表要求的质量。
基因集团上海贝晶生物提供的GSEA服务,能很好地解决上述问题,图片分辨率都是出版级别,还特别增加了阴影区域标示零假设分布,更容易比较看出P-value的显著性,便于用户更直观比较数据结果的准确性。此外,分析采用足够的10W次置换,远超Broad Institute更大置换次数1000,使得P-value更接近真值,分析结果更准确。
目前,上海贝晶生物的GSEA不仅对订购芯片服务的用户提供免费体验,更有重磅升级,详见GSEA基因富集分析—高阶篇(二)。