motif搜索的两个工具介绍

之前的博文《DNA motif 搜索算法总结》对motif搜索做了一些介绍,提到了诸如YMF, MEME, AlignACE, MotifSampler, BioProspector等算法。但是,随着科研的发展,又有了许多新的工具纷纷出现。本文就介绍两个新的motif搜索工具: XXmotif以及GADEM。

GADEM
Li, Leping,GADEM: a genetic algorithm guided formation of spaced dyads coupled with an EM algorithm for motif discovery.
Journal of computational biology : a journal of computational molecular cell biology. 2009 16(2):317-29

GADEM是一个高效的motif搜索算法。它首先以不同宽度(k=3,4,5,6)为单位对输入序列进行扫描,找到出现次数排序最高的小片断。这些小片断为定义为word,然后两两随机组合,中间以不同宽度为间隔插入N,形成W1n…n…nW2这样的小片段(这一过程作者称为generates spaced dyads). 将这个拼接的小片断转换成PWM,而后再使用遗传算法(内嵌了EM算法)在提供的序列堆中去对其进行优化,看是否可以生成一个可供报告的motif。

很明显,GADEM的运算速度会较MEME等算法快很多,因为它首先生成了可信度较高的种子。在可重复性上,也表现得比较好。但是它的算法本身并不适合比较小的motif的搜索。

它的算法已经被bioconductor整合,可以使用rGADEM包在单机上快速实现对ChIP-seq的motif搜索工作。

source("http://bioconductor.org/biocLite.R")
biocLite("rGADEM")
library(rGADEM)
library(BSgenome.Hsapiens.UCSC.hg18)
pwd<-"" #INPUT FILES- BedFiles, FASTA, etc.
path<- system.file("extdata/Test_100.bed",package="rGADEM")
BedFile<-paste(pwd,path,sep="")
BED<-read.table(BedFile,header=FALSE,sep="\t")
BED<-data.frame(chr=as.factor(BED[,1]),start=as.numeric(BED[,2]),end=as.numeric(BED[,3]))
##Create the RD Files
rgBED<-IRanges(start=BED[,2],end=BED[,3])
Sequences<-RangedData(rgBED,space=BED[,1])
## rGADEM analysis
gadem<-GADEM(Sequences,verbose=1,genome=Hsapiens)
##plot the results and get the details of results
nMotifs(gadem)
plot(gadem)
getPWM(gadem)
nOccurrences(gadem)

XXmotif
Luehr S, Hartmann H, and Söding J. The XXmotif web server for eXhaustive, weight matriX-based motif discovery in nucleotide sequences, Nucleic Acids Res. 40: W104-W109 (2012)
http://xxmotif.genzentrum.lmu.de/index.php

XXmotif是一个web应用, 它的输入一fasta文件,之后经过masking stage(去除同源序列,低复杂度区域以及高度重复序列),计算富集的5-mer或者6-mer片断,然后去优化这些片断,经过合并后生成motif报告文件。

home

2 thoughts on “motif搜索的两个工具介绍

  1. 新手入门,请教这两个工具是否同样适用于RNA-seq差异表达基因的启动子motif分析?谢谢

    1. 我只能说你可以去尝试,但是这一定无法写在文章里,因为它说明不了任何问题。还是需要ChIP-chip, ChIP-seq这样子的实验才行。

发表评论

电子邮件地址不会被公开。 必填项已用*标注