bioconductor系列教程之一分析基因芯片中(质量控制) 37

质量控制总览图及报告

> Data.qc = qc(Data)
> Data.qc

……(内容省略)

从这里,我们可以看出,QCStats这个结构都包含有哪些数据,它包括:

尺度因子:scale.factors,标准化平均值:target,P所占比例:percent.present,平均背景噪音:average.background,最小噪音:minimum.background,最大背景噪音:maximum.background,嵌入探针BioB:bioBCalls,嵌入探针:spikes,质量控制探针beat-action和GAPDH:qc.probes,以及芯片数据类型:arraytype。

我们一次一览如此多的信息,会让人眼花,我们还是使用simpleAffy提供的方法来一条一条地看信息吧。这里比较重要的方法是:qcProbes:质量探针,ratios:质量探针5’3’或者5’M比值,spkeInProbes:嵌入探针,sfs:尺度因子。

> ratios(Data.qc)
                actin3/actin5 actin3/actinM gapdh3/gapdh5 gapdh3/gapdhM
MCF7_r1.CEL        0.08560278    -0.1392728    -0.2882327    -0.1756235
MCF7_r2.CEL        0.07697926    -0.1912695    -0.2823266    -0.1553378
MCF7_r3.CEL        0.06804130    -0.2338711    -0.2137072    -0.1824908
a1MCF7_r1.CEL      5.99052862     4.3325697     3.6482383     1.7204702
a1MCF7_r2.CEL      5.81167692     4.9260002     3.7508887     2.3012512
a1MCF7_r3.CEL      5.85535460     3.7910852     3.9236571     1.8658318
a10MCF7_r1.CEL     2.79123667     1.5833748     1.4594917     0.6607537
a10MCF7_r2.CEL     2.81536065     1.3141389     1.5801740     0.4711457
a10MCF7_r3.CEL     3.39800077     2.0467686     2.3248782     0.9639023
a100MCF7_r1.CEL    3.76300882     2.2106106     0.8928782     0.2214784
a100MCF7_r2.CEL    3.48743637     1.8517404     0.7333814     0.2657175
a100MCF7_r3.CEL    3.96519092     2.7589077     2.5180729     1.1460040
> spikeInProbes(Data.qc)
                AFFX-r2-Ec-bioB-3_at AFFX-r2-Ec-bioC-3_at AFFX-r2-Ec-bioD-3_at AFFX-r2-P1-cre-3_at
MCF7_r1.CEL                 6.445937             7.798778             9.503479            11.47752
MCF7_r2.CEL                 6.503431             7.925939             9.544291            11.51847
MCF7_r3.CEL                 6.393249             7.788554             9.495904            11.64499
a1MCF7_r1.CEL              11.436952            12.088198            13.807572            15.48405
a1MCF7_r2.CEL              10.858187            11.415650            13.299099            15.48526
a1MCF7_r3.CEL              10.390181            11.218265            12.753151            14.54631
a10MCF7_r1.CEL              6.596963             8.278294             9.906507            11.96170
a10MCF7_r2.CEL              6.903289             8.359344             9.825725            12.11740
a10MCF7_r3.CEL              7.339286             8.786803            10.316202            12.51155
a100MCF7_r1.CEL             5.993630             7.685893             9.376227            11.73944
a100MCF7_r2.CEL             6.290555             7.826021             9.388959            11.35048
a100MCF7_r3.CEL             6.740594             8.031900             9.585132            11.78639
> sfs(Data.qc)
 [1] 0.2916603 0.3477972 0.3185392 3.5923019 3.1613079 2.0133039 0.3854621 0.4132180 0.4827030
[10] 0.2875890 0.2849745 0.3764849
> qcProbes(Data.qc)
                AFFX-HSAC07/X00351_3_at AFFX-HSAC07/X00351_5_at AFFX-HSAC07/X00351_M_at
MCF7_r1.CEL                   11.550089               11.464486               11.689362
MCF7_r2.CEL                   11.709283               11.632304               11.900552
MCF7_r3.CEL                   11.667964               11.599923               11.901835
a1MCF7_r1.CEL                 11.956522                5.965993                7.623952
a1MCF7_r2.CEL                 11.477514                5.665837                6.551514
a1MCF7_r3.CEL                 11.504157                5.648802                7.713071
a10MCF7_r1.CEL                10.374330                7.583093                8.790955
a10MCF7_r2.CEL                 9.976329                7.160968                8.662190
a10MCF7_r3.CEL                10.082873                6.684872                8.036104
a100MCF7_r1.CEL               11.180869                7.417860                8.970258
a100MCF7_r2.CEL               10.889904                7.402468                9.038164
a100MCF7_r3.CEL               10.130475                6.165284                7.371568
                AFFX-HUMGAPDH/M33197_3_at AFFX-HUMGAPDH/M33197_5_at AFFX-HUMGAPDH/M33197_M_at
MCF7_r1.CEL                      11.38699                 11.675220                 11.562610
MCF7_r2.CEL                      11.52859                 11.810917                 11.683929
MCF7_r3.CEL                      11.57189                 11.785602                 11.754386
a1MCF7_r1.CEL                    11.86243                  8.214196                 10.141964
a1MCF7_r2.CEL                    11.43046                  7.679575                  9.129213
a1MCF7_r3.CEL                    12.23563                  8.311971                 10.369796
a10MCF7_r1.CEL                   11.37390                  9.914406                 10.713144
a10MCF7_r2.CEL                   11.73710                 10.156923                 11.265951
a10MCF7_r3.CEL                   11.89185                  9.566967                 10.927943
a100MCF7_r1.CEL                  11.45601                 10.563134                 11.234534
a100MCF7_r2.CEL                  11.22248                 10.489099                 10.956762
a100MCF7_r3.CEL                  11.54056                  9.022490                 10.394559

按照前文所述,尺度因子的比值应该在3倍以内,否则就说明实验出现的质量问题。而P所占的比重应该在平行实验间较为一致。而过低的P比重(<20%)说明制样过程可能存在问题。而5’3’比值过大,也说明实验存在着质量问题。

然而有的时候我们希望更直观地看到质量控制的结果,比如图片的形式。simpleAffy提供了plot方法。

> plot(Data.qc)
Figure 1质量控制总览图

Figure 1质量控制总览图

图中浅蓝色的竖条代表着尺度因子正常的取值范围,它会依照实验具体数据来计算出这个范围。通常它应该是在三倍以内,比如从1至-2。很明显,最下面横轴所标记的数字就是尺度因子的座标了。如果所有的一组需要相互比较的芯片间的尺度因子都落在了蓝色范围内,它会以蓝色线条及蓝色端点显示,表明这些芯片可以相互比较,如果标记为红色(比如说这个示例),那就意味着它们不能相互比较。
最左侧是样品的名字,而后是两个数字,上面的以百分比形式出现的是P所占比重,下面的数字表明平均背景噪音。如果它们标记为红色,说明存在质量问题。

如果图中出现红色的BioB字样,说明该样品嵌入探针未能检测到BioB。

actin和GAPDH 3’/5’比值 也分别以△和○表示出来。对于actin的3’/5’应该落在3以内,而对于GAPDH应该落在1左右。如果超过了设定的标准,就会以红色显示。

简单地讲,如果标记为蓝色,说明正常,如果标记为红色,说明可能存在质量问题。

Pages: 1 2 3 4 5 6 7 8 9

37 thoughts on “bioconductor系列教程之一分析基因芯片中(质量控制)

  1. Reply joyce 12月 8,2010 1:14 上午

    多谢了 话说您啥时候出bioconductor系列教程之一分析基因芯片下呀~O(∩_∩)O~

  2. Reply Meixi Ai 5月 20,2011 12:57 下午

    多谢分享,一定认真拜读!

  3. Reply bai 7月 17,2011 3:59 上午

    上面说的MCF7数据我怎么下载不了啊,博主能不能发给我邮箱啊,昨天通宵学习您的博客,中间卡壳了。。
    谢谢。。

  4. Reply keke 8月 14,2012 10:41 上午

    请问:我的实验数据结果
    PCA分析结构不能将各组区分开来,如何理解?是否说明各组之间基因表达差异不明显?
    图片网址如下,能不能帮我分析一下
    http://leweibo.blog.163.com/album/#m=2&aid=235405074&pid=7813856673

  5. Reply kain 11月 2,2013 10:31 下午

    > Data.qc = qc(Data)
    > Data.qc
    请问这里面的qc是哪个函数?我输入完之后提示没有qc这个函数~
    谢谢解答~

  6. Reply ZiSu 5月 10,2014 8:18 下午

    3端和5端的比值不是应该用3端除以5端吗,为什么根据以上数据是3端减去5端?

    • Reply admin 5月 11,2014 10:34 上午

      你很细心。这里需要注意的是,表达值不一定都是实值,很有可能是log2转化后的值。所以,这里的3’/5’因为是对数转换过的,依据公式log2(A/B) = log2(A) – log2(B),应该就是减一下。

  7. Reply ZiSu 5月 13,2014 5:21 上午

    欧博士你好!
    我非常好奇bioB的强度表达值是否只用AFFX-r2-Ec-bioB-3_at这个探针组来计算,于是我直接打开version 3的CEL文件,用型号对应的CDF文件来给探针定位,先做了2组实验,分别把AFFX-r2-Ec-bioB-M_at和AFFX-r2-Ec-bioB-5_at这两个探针组的11个PM探针(各11个)的强度修改为0(原本有几位数就保留几位数,补0就行),再用R来计算bioB的强度,发现计算结果和修改之前有细微的差别,这是否能说明M端和5端与bioB强度的计算有一定的关系?后来再做一组实验,只把AFFX-r2-Ec-bioB-3_at的11个PM探针强度置0,用R算出了-5.469394这个数,2^(-5.469394)只是约等于0,但不等于0。
    欧博士能为我解答上述问题吗?

    • Reply admin 5月 13,2014 10:42 上午

      对于bioB的强度表达值,很多都会使用3’端的值。当然,也可以综合其它的探针。但是依据RNA会从5′->3’降解来看,使用3’端的值会尽可能的排除降解这一因素的干扰。因为我没有对CEL文件做过你这样的修改,所以只能是猜测一下。你可以查看一下你所有的探针,在读入R之后的最小值是多少。是否可能系统为了避免log2(0)这种错误而对所有的值都加上了一个基数?

  8. Reply ZiSu 5月 13,2014 5:55 上午

    还有就是,博文中提到:
    探针的排序以组为单位,随机排列。而每一组,都由20对探针组成。这一组探针被称为探针组(probeset)。
    但是根据我的了解,类似AFFX-BioB-5_at这种探针组有20对探针,但是AFFX-r2-Ec-bioB-5_at这种有11对探针,而计算的话应该是使用有r2的那组探针组

    • Reply admin 5月 13,2014 10:43 上午

      现在,对探针数的概念已经变化了。已经不要求每组都有20对探针了。所以我原文里的部分是不准确的。谢谢指正。

  9. Reply ZiSu 5月 18,2014 11:27 上午

    欧博士你好,我又来问问题了。
    上次说到我直接修改CEL文件来做对照实验,在只修改与BioB相关的探针组的强度的情况下,发现BioC,BioD,CreX的强度表达值也受影响了(影响很小),所以我怀疑是不是先对做原始数据一个统一的处理,然后再用于计算。就是说,先要把探针水平的数据(CEL水平)变成表达水平的数据,再用于计算。这似乎是预处理的内容,难道是先进行预处理,再做质量控制?

    • Reply admin 5月 19,2014 8:13 上午

      这个我没有实验过。你很有钻研精神。我猜想,当你修改了BioB的值之后,会影响背景噪音的估计,从而影响其它的强度表达值。但这一点不能肯定。另外,不需要预处理再做质量控制。

  10. Reply ZiSu 6月 10,2014 7:25 上午

    你好,
    以前我总认为MA图里的R是红色,G是绿色,怎么想都想不通红色和绿色是怎么来的。后来再看看你上述的例子(MVA plot),六个样品,右上部分有15张图,C(6,2)=15,所以后来想是不是两个样品对应一个图

    • Reply admin 6月 12,2014 6:22 下午

      你的理解本身没有什么问题,因为MA plot最开始就是你所谓的R是红色,G是绿色, 它们本身代表两种荧光(Cy5(红), Cy3(绿))的颜色,而这两种荧光就分别代表了两组样品的杂交强度。而后来就直接跳出了荧光的颜色了。

  11. Reply jxu 6月 26,2014 4:52 上午

    欧博士,您好,想问您一个问题,
    基因探针中的序列除了基因的序列,为什么有时候也有基因上游的序列和基因间的区段?可否将答复发送到我的邮箱xujun_njupt@126.com,万分感谢。

  12. Reply jxu 6月 27,2014 6:06 上午

    欧博士,您好,
    基因芯片平台GPL8434(http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?view=data&acc=GPL8434&id=6113&db=GeoDb_blob33),其中有一些探针是这样的:UP_SOXXXX,或IG_SOXXXX_SOXXXX,对这些探针的描述分别是Upstream sequence 和Intergenic sequence。

    我在做基因差异表达分析的时候得到的差异表达基因有时候出现了这些基因,虽然都被我忽略了,但是我很好奇为什么在设计基因芯片平台GPL8434的时候要用到这些序列呢,而其它的一些平台中并没有这些序列。

    祝好,谢谢

    • Reply admin 6月 30,2014 7:28 下午

      这应该是一个自定义的芯片。我猜它的设计初衷是为了尽可能多的覆盖整个基因组(实际上它的基因组很小)。一方面可能可以当成对照,另一方面有可能会发现新的转录本。但真实原因如何,我就不清楚了。

  13. Reply jshang 9月 17,2014 8:46 下午

    博主上面的MCF7数据下载不了,能不能重新提供以下链接呢?万分感谢阿!!

  14. Reply hufanglq 11月 9,2014 4:23 上午

    您好,看您的博客很受用。由于刚开始学R,很多地方不太清楚,我用R加载.db包时总提示无法打开数据库文件,例如library(org.Hs.eg.db)时,提示
    Error : loadNamespace()里算’org.Hs.eg.db’时.onLoad失败了,详细内容:
    调用: .local(drv, …)
    错误: Could not connect to database:
    unable to open database file
    错误: ‘org.Hs.eg.db’程辑包或名字空间载入失败,
    试了很多方法都没解决,您能指出到底是什么问题,我要怎么做呢!谢谢!

  15. Reply 杨建课 8月 13,2016 11:53 上午

    请问:怎么查询一个函数在哪个包里呢?

  16. Reply Maxerlei 2月 20,2017 2:56 上午

    为什么我看不到教程的代码呢?迷之疑惑

  17. Reply wfang 7月 2,2017 7:20 上午

    今天下载GEO里边的数据用simpleaffy包进行质控分析时,发生错误,麻烦您看看怎么处理?data是我把cel数据下载到本地,用readaffy读入的。
    >library(“affy”)
    >library(“simpleaffy”, lib.loc=”~/R/win-library/3.3″)
    >qc_data<- qc(data)
    Error in setQCEnvironment(cdfn) :
    Could not find array definition file ' hugene10stv1cdf.qcdef '. Simpleaffy does not know the QC parameters for this array type.
    See the package vignette for details about how to specify QC parameters manually.

    • Reply admin 7月 6,2017 9:23 上午

      simpleaffy并不是针对这一芯片设计的,simpleaffy要求有PM和MM,以及spikeIn,但是新的芯片很可能没有MM探针了。

  18. Reply wangxuanyi 1月 20,2018 9:16 下午

    老师你好,我想请问一下,在有的GEO数据中是没有CEL文件,或者它的RAW文件是txt格式的。如果没有RAW文件或者文件是txt格式的话,是不是不能做芯片的质量分析呢?

    • Reply admin 1月 22,2018 12:48 下午

      准确地说是不能按照本文的方法来对非Affymetrix的芯片来做质量分析。不同公司的芯片,分析流程也是不一样的。

Leave a Reply

  

  

  

%d 博主赞过: