如何从SRA文件中分离出从对短序paired-end reads 5

很多时候我们从NCBI的SRA文档中分离paired-end sequencing数据。但是当我们使用SRA toolkit的fastq-dump工具时,往往只能得到一个文件,而不是两个文件。如何才能将这个文件分离成两个或者更多的文件呢?需要我们自己写代码吗?

答案是不一定。首先我们可以试试使用fastq-dump的–split-3参数。如果它不行,再自己考虑写代码。对于–split-3参数,是这样介绍的:
Legacy 3-file splitting for mate-pairs: first biological reads satisfying dumping conditions are placed in files *_1.fastq and *_2.fastq If only one biological read is present it is placed in *.fastq. Biological reads and above are ignored

也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq, *_2.fastq这样分开。如果还有出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。

5 thoughts on “如何从SRA文件中分离出从对短序paired-end reads

  1. Reply arvin 12月 22,2014 11:16 上午

    你这个说错了,pair-end是用参数–split-files,而参数–split-3是用来分mate-pair的。

  2. Reply admin 11月 3,2015 4:30 下午

    对于fastq-dump,今天又有一个心得,这也是读文明文件不仔细啊。
    当下载SOLiD平台的数据时,会得到一堆数字,而不是碱基,比如
    /Applications/sratoolkit.2.5.4-mac64/bin/fastq-dump -X 1 -Z -B SRR331948
    Read 5 spots for SRR331948
    Written 5 spots for SRR331948
    @SRR331948.1 1_2_3_7_9_11_12_13_20090223_1_Sample4_1327_30_1882 length=35
    CGCGCGGAGGTCTCTAAAGTCCTTTTTTTTAGTTC
    +SRR331948.1 1_2_3_7_9_11_12_13_20090223_1_Sample4_1327_30_1882 length=35
    ###*%*)%#%%('.#&#$&)$#%),%6()%#'(,'

    这是因为对于SOLiD平台,fastq-dump默认是下载的color space,而不是base space。因为对于SOLiD平台,可能还需要color space key来进行翻译,所以默认值才设置成color space。还有,fastq-dump可能有时候不能正确的翻译color space,对于无法翻译的,它都会设置成N。当你看到异常多的N的时候,就要小心了。
    如果想直接下载成base space,可以试一下-B参数。

    /Applications/sratoolkit.2.5.4-mac64/bin/fastq-dump -B SRR331948

  3. Reply Kangli 3月 13,2017 3:59 上午

    @arvin说–split-3是对mate-pair分隔,–split-files是对pair-end,但是我对pair-end文件分别使用这两个参数,分割出来的文件没有差别。

Leave a Reply

  

  

  

%d 博主赞过: