MACS(Model-based Analysis of ChIP-Seq)使用说明

在使用Bowtie比对于完Chip-Seq的结果后,就需要用到MACS或者ERANGE来找出峰所在的位置了。但是由于ERANGE的设置比较复杂,所以最为流行的还是MACS。

我们首先来了解一下MACS的工作流程(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2592715/),否则的话,许多参数都无法理解。

MACS工作流程
MACS工作流程

从这个工作流程中,我们可以看出,MACS首先的工作是要确定一个模型,这个模型最关键的参数就是峰宽d。这个d就是bw(band width),而它的一半就是shiftsize。而后就是依据峰高值来确定是否是一个峰。如果有对照的话,那么,对照当中也出现的峰就会被扣除。

我们现在来了解如何设置参数。

-t TFILE, –treatment=TFILE 输入文件名

-c CFILE, –control=CFILE 输入阴对文件名

-n NAME, –name=NAME 输入出文件名前缀

-f FORMAT, –format=FORMAT 输入文件格式,默认值为AUTO,可选的值为”BEG”,”ELAND”,”ELANDMULTI”,”ELANDMULTIPER”,”ELANDEXPORT”,”SAM”,”BAM”,”BOWTIE”等。

-g GSIZE, –gsize=GSIZE 比对模板大小。格式可以是:1.0e+9,或者1000000000,也可以缩写:’hs’ for 人类 (2.7e9), ‘mm’ for 大鼠(1.87e9), ‘ce’ for 线虫 (9e7) and ‘dm’ for 果蝇 (1.2e8), 默认值:hs

-s TSIZE, –tsize=TSIZE 设置为短序列的长度,默认值为25

-p PVALE, –pvalue=PVALUE 非峰可能性截取值,默认值为1e-5,这个值不能大太,超过0.9的话,可能无法输出正确的结果

-m MFOLD, –mfold=MFOLD 峰值高度相对于本底的比值,默认值为10,30。也就是说,最低值不能少于10,但比值超过30也不认为它是正常的一个峰。一般而言,低值设置为10是一个很好的区分点。如果这个值还是无法得到满意的结果,那么可以设置得更低,但最好还是使用–nomodel参数,使–nomodel设置为True,然后再传递–shiftsize及–bw参数给MACS。–shiftsize默认值为100,而–bw的默认值为300。

–diag 生成完整报表,会包括是否为真峰的可能性,但会严重拖累运算速度。

例:

macs –gsize=hs –tsize=28 –format=BOWTIE –name=Pol2 –diag –mfold=5,50 -t Pol2ChIP.map -c Pol2ChIP.control.map

参见更多:http://liulab.dfci.harvard.edu/MACS/00README.html

4 thoughts on “MACS(Model-based Analysis of ChIP-Seq)使用说明

  1. 欧老师请问MACS是最值得推荐的做peak-calling的软件么?之后下游有啥需要做的?比如peak annotation或者Differential Binding Analysis?老师能否有啥软件推荐呢?谢谢!

  2. 博主,您好!我最近用MACS分析线虫组蛋白H3K4me3,以下是简明的样本信息。
    实验组:total tags 1.3千万,redudant rate 0.49, 实际使用tags 670万。
    对照组:total tags 1.2千万,redudant rate 0.71, 实际使用tags 350万。
    主要修改参数:–nomodel –shiftsize 73 -m 5,50,其他为默认参数。
    结果:peaks 8, negative peaks 369。
    问题:
    1. redudant rate很高,是什么原因造成?是样本准备有问题吗?(PS:实验组是敲除某基因后,用H3K4me3单抗拉下来的,对照组是直接全基因组超声片段化后得到的)
    2. 结果得到的peaks很少,negative peaks很多,是不是和实验设计有关系?且peaks的FDR都为100%,是不是结果不可信?
    3. 后续想用MACS实验室的另一款软件CEAS进行注释,您是否用过?同样遇到一些问题想请教您。

    1. 关于问题1,通常而言是library做的太小了。是样本准备的原因。
      关于问题2,你实际可用的reads数并不是特别多,如果能有10M就好了。你可以把bam文件放在IGV里看一下,看看测到的peak附近的情况,是不是实验组的和对照组的用肉眼几乎无法分辨。对于H3K4me3的峰,你在使用MACS的时候,参数十分重要,因为它的峰比较宽,不是典型意义上的窄峰,你的shiftsize是不是你实际片断大小的一半?你可以试着再设置宽一些。-m值按理来说已经设置的很宽了,但上限还可以再调高一点。对于FDR,超过10%就非常不可信了,5%以下可以接受,最好是1%以下。但对于这样的宽峰,其实还是应该以自己眼睛检查的结果为准。还有就是你可以试试其它针对宽峰的工具,看看有没有好一些的结果。ChIP-seq的分析要的是耐心。
      关于问题3,我没有用过,我没有理由不用自己写的代码而用别人的软件啊,对不对?

super进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注