bioconductor系列教程之二简单的Affymetrix 外显子(exon)分析流程下(综合应用)

在《》中,我们提到:

在alternative splicing的分析中,起决定性作用的,主要是核心探针组的注释和基因水平表达定量。如果这两个不一样,就会造成结果的巨大差错。

所以在综合应用当中,我们必须明确这两个问题。

  1. 使用什么样的CDF文件?是不是越全面越好?
  2. 如何确定基因水平表达量?

我们知道探针组被区分为:核心探针组(Core probesets,被RefSeq mRNAs支持的exon),扩展探针组(Extended probesets,被ESTs或者partial mRNAs支持的exons),以及全探针组(Full probesets,基于计算机预测的exons)。对于问题1,很明显,并不是使用越全面的cdf文件就越好,应该依照自己的要求来选用相应的cdf文件。一般的,在确定基因水平的表达定量时,我们使用core probesets就可以了;在确定exon水平的表达定量时,我们可以使用更为全面的cdf文件,比如extened probesets,甚至是full probesets。但是,并不是这些外显子探针都会进入最后的外显子替换的计算,而那些与core probesets有关联的才会被计入。要记住,对alternative splicing isoform的确认,最关键的还是看具有功能的基因,而不是仅依靠计算机预测。

对于如何确定基因水平表达量,大约的方法前文已经介绍过,最基本的思路还是将针对同一个基因的所有外显子的信号都综合起来考虑。前面讲过了iterPlier的方法。因为plier会考虑到所有的exon,而有些exon是不表达的,所以iterPlier为了防止那些不表达的exon拖低实际的基因表达的水平,就使用了两次分类重新计算plier的办法来去除那些实际上是做为背景存在的exon信号。而大多数其它的文章中对于基因水平表达定量的办法也多与之类似。因为对于同一基因的探针组的数目的多少会非常影响各种分类算法的结果,从而使用背景信号的辨识出现较大的错误,所以人们一般都会规定探针组数目的多少,如果探针数总数加在一起少于11,那多半会不进行背景信号识别,而直接综合所有的探针信号,给出平均。因此,我们需要有这样一个意识,如果探针组过少,而其最后alternative splicing events的得分很高的话,其实并不一定就是真实的,很 有可能是基因表达定量的问题。

接着,我们就依照下图的实验流程来实现一次完整的外显子分析的综合应用:

外显子替换剪切分析流程
外显子替换剪切分析流程

首先,我们使用APT来帮助我们克服前面的两个问题。我们就以affymetrix白皮书当中的Identifying and Validating Alternative Splicing Events的方法为标准吧。先去下载Affymetrix Power Tools (APT)软件,并安装。而后下载重要的库文件:Array Analysis, Array Probeset, and Meta Probeset Files, core, full, extended and comprehensive;本教程是与human exon 1.0 st相关的,所以这两个库文件就是Human Exon 1.0 ST Array Analysis (zip, 131 MB)Human Exon 1.0 ST Array Probeset, and Meta Probeset Files, core, full, extended and comprehensive hg18 (zip, 13 MB)。在这其中可以得到pgf/clf/antigenomic.bgp/qcc/mps等重要文件。假设文件的结构如下图:

文件结构
文件结构

发表评论

电子邮件地址不会被公开。 必填项已用*标注