使用R图形化显示不同组数据之间的相互关系 Graphically analyzing variable interactions in R

假设我们有多组数据,需要两两比较它们之间的相关性,并使用图形将它们显示出来。

这个问题可以分为几种情况,第一,每组数据数据量都很小,比如只有三个或者四个。第二,每组数据都有一定的数据量,比如十几二十甚至更多,并且成对出现。第三,每组数据都有一定数据量,但没有一一对应的关系,等等。

对于一和三两种情况,我们可以考虑柱状图并连线的方式显示相关性,对于第二种情况,考虑采用pair plot的[……]

Read more

bioconductor基础IRanges/GenomicRanges

随着next-generation-sequence技术的不断完善,bioconductor的开发重心也由microarray转移至NGS的应用中来。越来越多的软件包针对NGS。而这些针对NGS的软件包,大多数都是基于IRanges或者GenomicRanges这两个包的。它俩与Biostrings一起,成为了NGS数据结构的基础。

IRanges定义了IRanges类,它的构建函数为:[……]

Read more

升级完R后如何快速安装所有安装过的包

R3.0已经发布了。很多人在升级前最担心的是安装了很多包,每次大版本升级都需要一个一个全新安装一遍,很是折磨人啊。

如果你在安装升级之前就看到这里,那么你可以按照如下操作完成自动安装所有安装过的包:
首先在旧版本下运行

##-run in the old version of R 
setwd("path/to/save/the/package/list/") 
olib <- installed.packages()[,"Package"] 
save(olib, file="oldRpackages")

这一步是为了把所有的包都保存下来。然后在安装了新版本后运行

85ec736d13f0e64[……]

Read more

如何计算cuffdiff中的FPKM值

FPKM, 是expected number of fragments per kilobase of transcript sequence per millions base pairs sequenced缩写。直译过来就是每百万测序碱基中每千个转录子测序碱基中所包含的测序片断数。与RPKM不同的是,RPKM是直接使用的reads数,而对于FPKM,如果是pair-end的话有可能有些mapp[……]

Read more

关于R当中的mapply

之前的博客《R数据分析当中的化整为零(Split-Apply-Combine)策略》以及《关于R当中的tapply》有提到一些关于lapply, sapply, vapply和tapply的内容。对于mapply只是粗粗带过。但很多时候,使用mapply可以帮助我们大大提高效率。我们先来看一个非常时用的函数yapply。

yapply <- function(X,FUN, ...) { 
  index <- seq(length.out=length(X)) 
  namesX <- names(X) 
  if(is.null(namesX)) 
    namesX <- rep(NA,length(X))
 
  FUN <- match.fun(FUN) 
  fnames <- names(formals(FUN)) 
  if( ! "INDEX" %in% fnames ){ 
    formals(FUN) <- append( formals(FUN), alist(INDEX=) )   
  } 
  if( ! "NAMES" %in% fnames ){ 
    formals(FUN) <- append( formals(FUN), alist(NAMES=) )   
  } 
  mapply(FUN,X,INDEX=index, NAMES=namesX,MoreArgs=list(...)) 
}

[……]

Read more

使用Bioconductor画染色体示意图ideograms

之前介绍过如何使用circos来画染色体示意图ideograms。那么,在bioconductor中是否可以实现呢?肯定的说,是可以的,但是其生成的图像却有些差强人意。不过,总好过没有,而且,它还有很大的成长空间。

在Bioconductor中,用于画染色体示意图的有三种工具,它们分别是:quantsmooth,GenomeGraphs,以及ggbio。

首先介绍quantsmooth[……]

Read more

NGS分析入门:在基因组浏览器中图型化显示结果

图型化显示NGS结果不但是分析的需要,在很多文章的发表中也会用于部分结果的重点展示。

最为顶顶大牛的就是UCSC Genome Browser。它本身不但可以显示用户上传的NGS结果,还自带有很多已经发表的研究结果以及ENCODE的数据。但是因为它是基于网络的服务,所以在速度上会有不足。而本地安装的IGV(Integrative Genome Viewer)就会好很多了。很多文章中的图就是从[……]

Read more

NGS分析入门:操作SAM/BAM文件

当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B取自binary)。

那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档。SAM由头文件和map结果组成。头文件由一行行以@起始的注释构成。而map结果是[……]

Read more