多版本R并存

如果你现在安装了R 3.0.1,你还需要安装R development version的时候,应该怎么做呢?

http://r.research.att.com/提供了每日更新的R-dev版本。但是如果你直接使用它编译好的文件,可能会让你在后期的工作中有无穷的困扰,我就深入其害。我的做法是下载R-dev的原代码,然后通过:

./configure
make
make install[......]

Read more

为R/Bioconductor开发调整RStudio

RStudio默认的是R。但是在很多情况下,我们需要使用到R-dev的这样的开发版本,应该怎么办呢?本文就讲解如何指定RStudio调用R-dev版本。

如果你安装的是windows,那么你只能重新安装一个新的RStudio,在安装的过程中,选择不同的R版本。
versions_windows

如果你的系统是MAC OSX,那么你的任务就简单得多了。首先你需要安装好开发版本的RFramework。可以从http:/[……]

Read more

使用bioconductor的BiocStyle书写package vignettes

Bioconductor core推出了BiocStyle软件包,很快这一规范会应用至大多数的bioconductor的软件包。

vignettes文件就很好地示例了如何使用及其显示结果。

BiocStyle提供了一些很好的宏,这其中就包括在Rd文件中常常使用到的\Rpackage, \Rfunction等。BiocStyle还为插入图象提供了很好的支持,我们只需要使用

550a4[……]

Read more

短序比对工具简介bowtie vs BWA vs Subread vs SOAP vs NovoAlign

有趣的是,大部分的short read比对工具都是由中国人写出来的。因此可以说华大基因(BGI, Beijing Genomics Institute, Chinese Academy of Science)是中国NGS测序技术的摇篮。

速度上较有优势的short read(短序)比对工具最早出现的是SOAP(表1)。它很好地解决了一个问题,那就是如何在小内存(4G)的机器上将短序比对至人类[……]

Read more

使用pathview图形化显示KEGG富集结果

pathview是一个新推出的Bioconductor软件包,可以用于图形化显示KEGG富集分析的结果。

这里我就来示例一下如何使用pathview以及其输出图形的效果:

> library("org.Hs.eg.db")
> frame <- toTable(org.Hs.egPATH)
> keggframeData <- data.frame(frame$path_id, frame$gene_id)
> keggFrame=KEGGFrame(keggframeData,organism="Homo sapiens")
> library("GSEABase")
> library("GOstats")
> gsc <- GeneSetCollection(keggFrame, setType = KEGGCollection())
> universe = Lkeys(org.Hs.egGO)
> library(GeneAnswers)
> data("humanExpr")
> genes <- as.character(humanExpr$GeneID)
> kparams <- GSEAKEGGHyperGParams(name="My Custom GSEA based annot Params",
+  geneSetCollection=gsc,
+  geneIds = genes,
+  universeGeneIds = universe,
+  pvalueCutoff = 0.05,
+  testDirection = "over")
> kOver <- hyperGTest(kparams)
> kOver <- summary(kOver)
> library(pathview)
> gene.data <- humanExpr$Ctrl1
> names(gene.data) <- humanExpr$GeneID
> pv.out <- pathview(gene.data=gene.data, pathway.id=kOver$KEGGID[1], species="hsa", out.suffix="pathview.hsa04110.Ctrl1", kegg.native=TRUE)

hsa04110.pathview.hsa04110.Ctrl1

使用RStudio结合devtools开发bioconductor扩展包

在之前的博文如何创建一个R扩展包, 以及R扩展包的写作规范对如何写R扩展包有了初步的介绍。但是当我们需要开发大型的扩展包的时候,完全依靠之前的介绍会让人觉得有些力不从心。并且在扩展包提交给bioconductor之后的2次或者3次开发也并不是那么容易。为此,本文进一步介绍如何使用RStudio结合devtools来开发及维护bioconductor扩展包。

事前依照之前的博文准备好hello[……]

Read more

使用xps分析affymetrix genechip

在之前的博文《使用xps和oligo分析Affymetrix Exon/Gene ST Arrays》中有介绍如何使用xps来分析affymetrix GeneChip的部分。写本文的目的是为了更好的给出如何使用xps的方法。

使用xps的基础是root。root有它的优点,也有它的缺点。其优势是一旦生成了root文件,就可以反复使用。其缺点就是文件的前期整理制作让新手会因为陌生而产生抵抗,[……]

Read more

R中如何读取大数据

这个是一个复杂的问题。但是本文只是给出一点点小经验。

假设我们有一个大文件需要读入R,但是我们不太确定文件是什么样子的,或者说,我们很确定文件是什么样子的,但是我们只想读入其中某些列,应该怎么办呢?

如果你的足够的内存和耐心,你可以按常规:

data <- read.table("datatable.txt")
head(data)

如果你在列表表头时发现数据并不是你想象的格式,这无疑是让人很难受的[……]

Read more

在选择性剪接事件描述中的外显子序数是如何得来的?How are exons numbered when people describe alternative splicing events

我们在文章中经常看到某一个外显子被选择性剪接掉了时它所使用的描述并不是外显子的位置或者其它,而是一个数字,比如说exon6, exon2, exon4a 这样子。那么这些序数是如何得来的呢?我们又如何才能通过这些数字准确地找到其所描述的外显子呢?

通常,这种描述都来自于refSeq的定义。在refSeq的定义中,是这样描述的:(http://www.ncbi.nlm.nih.gov/book[……]

Read more