3 thoughts on “几个关于癌症基因的数据库(TCGA)

  1. 博主您好:
    我买了您编写的“R与bioconductor…”的书,最近在弄TCGA的数据,有一个问题非常困惑。我下载了TCGA的miRNA的3级数据,里面包括“read_count”和“reads_per_million_miRNA_mapped”,我只想从每个样本的数据中选出一个我研究的miRNA的RPKM值,但是在挑选我想要的RPKM值之前要对数据做标准化,请问博主应该用什么方法做标准化?是对“read_count”还是对“reads_per_million_miRNA_mapped”做标准化?非常感谢博主。

    1. 直接使用RPKM值既可。它是一个已经标准化过的值。如果你需要使用自己的标准化办法,请使用read_count,并且需要收集整个基因组的read_count,然后再自己行标准化。这时可以使用DEseq/DEseq2或者edgeR来进行标准化。

发表评论

电子邮件地址不会被公开。 必填项已用*标注