使用R图形化显示不同组数据之间的相互关系 Graphically analyzing variable interactions in R

假设我们有多组数据,需要两两比较它们之间的相关性,并使用图形将它们显示出来。

这个问题可以分为几种情况,第一,每组数据数据量都很小,比如只有三个或者四个。第二,每组数据都有一定的数据量,比如十几二十甚至更多,并且成对出现。第三,每组数据都有一定数据量,但没有一一对应的关系,等等。

对于一和三两种情况,我们可以考虑柱状图并连线的方式显示相关性,对于第二种情况,考虑采用pair plot的[……]

Read more

升级完R后如何快速安装所有安装过的包

R3.0已经发布了。很多人在升级前最担心的是安装了很多包,每次大版本升级都需要一个一个全新安装一遍,很是折磨人啊。

如果你在安装升级之前就看到这里,那么你可以按照如下操作完成自动安装所有安装过的包:
首先在旧版本下运行

##-run in the old version of R 
setwd("path/to/save/the/package/list/") 
olib <- installed.packages()[,"Package"] 
save(olib, file="oldRpackages")

这一步是为了把所有的包都保存下来。然后在安装了新版本后运行

cfb6832f1682cfc[……]

Read more

如何计算cuffdiff中的FPKM值

FPKM, 是expected number of fragments per kilobase of transcript sequence per millions base pairs sequenced缩写。直译过来就是每百万测序碱基中每千个转录子测序碱基中所包含的测序片断数。与RPKM不同的是,RPKM是直接使用的reads数,而对于FPKM,如果是pair-end的话有可能有些mapp[……]

Read more

使用Bioconductor画染色体示意图ideograms

之前介绍过如何使用circos来画染色体示意图ideograms。那么,在bioconductor中是否可以实现呢?肯定的说,是可以的,但是其生成的图像却有些差强人意。不过,总好过没有,而且,它还有很大的成长空间。

在Bioconductor中,用于画染色体示意图的有三种工具,它们分别是:quantsmooth,GenomeGraphs,以及ggbio。

首先介绍quantsmooth[……]

Read more

NGS分析入门:在基因组浏览器中图型化显示结果

图型化显示NGS结果不但是分析的需要,在很多文章的发表中也会用于部分结果的重点展示。

最为顶顶大牛的就是UCSC Genome Browser。它本身不但可以显示用户上传的NGS结果,还自带有很多已经发表的研究结果以及ENCODE的数据。但是因为它是基于网络的服务,所以在速度上会有不足。而本地安装的IGV(Integrative Genome Viewer)就会好很多了。很多文章中的图就是从[……]

Read more

NGS分析入门:操作SAM/BAM文件

当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B取自binary)。

那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档。SAM由头文件和map结果组成。头文件由一行行以@起始的注释构成。而map结果是[……]

Read more

NGS分析入门:fastq文件的处理

拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份,并将其md5信息及实验信息写在readme文件中。

第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段,使用不同的barcode,就可以将不同来源的样品区分出来。barcode是一段很短的oligo,比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为ba[……]

Read more

NGS分析入门:测序原始数据操作

我们在完成了测序之后的第一步工具就是把测序的结果拷贝到指定的地方去,有很多种方法,比如:

  • 使用scp命令进行拷贝。其格式为:
    scp [options] username1@source_host:directory1/filename1 username2@destination_host:directory2/filename2
  • 使用ftp,http, smb工具进行拷贝。比[……]

Read more

NGS分析入门:设置运行环境

首先的问题的是,我们需要什么样的计算机。
关于硬件,

  • 需要至少4G内存,最好可以达到16G以上内存;
  • 至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
  • CPU,至少2核。因为你在运行程序时,通常100%占到CPU,[……]

Read more