bioconductor系列教程之二简单的Affymetrix 外显子(exon)分析流程(上)

必须假设,你已经有一定的mysql, R和BioConductor的使用经验。

首先,请阅读文章,《Comprehensive Analysis of Affymetrix Exon Arrays Using BioConductor》--Michał J. Okoniewski, Crispin J. Miller

我基本上是完全参照这篇文章来的,因为文章有些老,而当时的xmapcore还没有出来,所以加入了xmapcore的一些内容。在开始之前我必须强调使用xmapcore/exonmap需要大量的内存和64位运算,所以一定要先确定自己的机器的配置再决定是否使用它。如果你的机器配置没有这么高,那么我推荐你看以后的教程,在以后的教程中会介绍为低配置机器而准备的算法,它使用的是时间换空间的办法,使用大量I/O操作来完成运算,所以,速度会慢很多。

理解Affymetrix Exon Array

安装库文件

教程数据下载并读入

标准化数据和表达汇总

确定差异表达的探针组

从映射表获取注释

搜索替换剪切

总结

理解Affymetrix Exon Array

理解exon array
理解exon array

通过前面的介绍,我们已经知道了Affymetrix是如何设计基因芯片的,我们称之前介绍的为3’芯片。那么这个Exon Array是否和前面讲的基因芯片的设计是一样的呢?答案是一半一半。其实基本原理都一样,但是在探针的设计与安排上使用了不同的方法。我们知道,真核生物有内含子和外显子的区别,后来的研究又告诉我们,这个外显子它还有不同的排列组合,这就被称为alternative splice。之前讲的基因芯片,针对每一个基因,都设计有20对PM和MM的探针,而这一设计,明显是不考虑不同的替换剪切的。对于3‘芯片,每个基因大约有两组探针组,人类基因组大约有23299(Ensembl来源)个基因,我们将有大约46,600组探针组,加上一切内参,其实总数约为54,000左右。而每组有11PM,11MM个探针,于是我们一共有1,188,000个探针。多乎哉?嗯,还可以吧。假设如果我们考虑替换剪切,依旧按照PM/MM这样设计,会是怎么样的一个结果呢?如果是Exon芯片的话,因为一个基因对应着多个exon,所以探针组一下子会增加好几倍,假设每个基因只对应3个exon的话,那探针组只增加个两倍,那我们就需要160,000组探针组。我们知道,其实Affymetrix在印刷3’芯片的时候已经尽可能地高密度了,如果再增加密度,精度就会大大下降。何况对于每个基因,不可能只有3个exon那么少。而实际的一个人类Exon芯片会有多少探针组呢?1,400,000个。而每个探针组,只设计了4个PM,而没有MM。即使这样也会有5,600,000个探针,是3’芯片密度的4.7倍左右,平均到每个基因,会有147个探针。

那么,对于这些探针组(probesets),是不是每一个都对我们有同等的意义呢?当初基因芯片设计的时候尽可能地把计算机预测出来的所有的Exon全部都包括进来了。而实际上被实验证实的,有生物学意义的并不是会那么多。所以我们还是对其中的不同探针组进行区别,以方便在低配置的机器上快速地运算。这些探针组被区分为:核心探针组(Core probesets,被RefSeq mRNAs支持的exon),扩展探针组(Extended probesets,被ESTs或者partial mRNAs支持的exons),以及全探针组(Full probesets)。一般地,我们只需要计算core probesets就可以了。

了解了这些,我们就可以安装所需要的库文件了。

9 thoughts on “bioconductor系列教程之二简单的Affymetrix 外显子(exon)分析流程(上)

  1. xmapcore_homo_sapiens_60已下载在本机如何将其添加入mysql服务器。我的系统是win7,mysql也安装在本机上。谢谢。

  2. 您好,当安装”xmapcore”包的时候,提示说不适用于当前版本的R,不知道有没有解决办法?

  3. 欧老师,又来麻烦您了。这篇博客中的数据下载地址不能打开了,因为我的电脑内存不够,我在按照bioconductor系列教程之二简单的Affymetrix 外显子(exon)分析流程中(质量控制)步骤操作的时候,
    +- rawData/
    | +- /
    | | +- / <– must match exactly a chip type folder under annotationData/
    | | +- CEL files
    中的cel files可以用什么文件代替呢?

yylin1984进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注