illumina NGS常见问题 2

1. 毫无经验,从哪里开始呢?
答:待回答

2. NGS需要多少样品?
答:一般要求25ul,10nM的library溶液,片段长度为50-bp(+/- 25-nt)。对于Pacific Bioscience (PacBio)需要大于1ug样品

3. 如果确认样品质量呢?
答:有三种方式:

  1. Standard sequence analysis of library aliquot post-Topo-cloning
  2. Library quantitation- Nanovue™, Nanodrop™, spectrophotometer readings, etc.
  3. Library profile-Bioanalyzer assays


上图中,最上面是ladder对照,中间是一个不错的样品,下面的就不好了。

上图中,是上面是非常棒的样品,中间的应该说可以去试一下NGS,但是结果并不一定会好,最下面是很差。

4. 应该期待拿到什么样的结果呢?
答:以下是Illumina GAIIx, Hi-Seq 2000以及PacBio RS的结果比较。

Illumina GAIIx Illumina Hi-Seq 2000 PacBio RS
平均每条肋或者格的测序数 8~18 million 80~120 million 约50,000
测序长度 36-nt (SR) or 36-nt (PE) 50-nt (SR) or 50-nt (PE)
100-nt (SR) or 100-nt (PE)
2,100-nt at 45 min
4,150-nt at 90 min
输出文件格式 fastq fastq fasta, fastq, bam, sam
应用 small RNA profiling
Amplicon pools
ChIP-Seq
ChIP-Seq
Transcriptome
Genomes
Amplicon pools
cDNA profiling
Genomes
Assembly scaffolds
DNA modification
SNP detection
主要优点 对于小样品库,siRNAs比较经济,高保守扩增 混合样品,高保守扩增 测序长,无需要扩增,测序高度可靠。
主要缺点 样品是短序 样品是短序 对大于3KB的样品的可靠性下降

文件大小依平台不同。
36-nt SR 40 to 85 MB
36-nt PE 70 to 130 MB
100-nt 12 to 16 GB (compressed, zipped for manageability)
100-nt 20 to 28 GB (compressed, zipped for manageability)

5.测序深度、覆盖率如何?
答:以下是估计值:

基因组大小
1 X Coverage 10 X Coverage 25 X Coverage
H. sapien 3.4 Billion bases 34.0 Billion bases 85.0 Billion bases
S. cervisiae 12.5 Million bases 125.0 Million bases 312.5 Million bases
C. elegans 100.0 Million bases 1.0 Billion bases 2.5 Billion bases
HIV-1 9.9 Kilobases 99.0 Kilobases 2.48 Million bases
覆盖率
Illumina H.sapien S.cervisiae C.elegans HIV-1 E.coli
36-nt SR run 15 million reads 540 Million bases 0.16 X 43.20 X 5.40 X 55.00K X
100-nt PE run 120 million reads 24 Billion bases 7.00 X 1.90K X 240.00 X mulitiplexed
PacBio: 90′ data collection 55K reads 255 Million bases 13.40 X 1.67 X 17K X 31~36 X

一个好的覆盖率应该是双链都被多次测序。对于没有模板基因组的测序,最好有40X至50X的覆盖率。对于有模板基因组的测序,一般地10X覆盖率就可以了。当然还有很多其它因素地影响。

6. 多少钱做一次?
答:依照实验室不同。有些地方可能便宜些,有些地方贵些。但大约应该包括这些步骤:QC分析,测序,数据分析。
完整的走下来比较经济的价格约为(参考值):
GAIIx, 8-20 million reads
Single Read 36-nt $ 750
Paired Read 36-nt $1,150
Single Read 75-nt $ 975
Hi-Seq 2000, 70-125 million reads
Single Read 50-nt $1,250
With Multiplex $1,650
Paired End 50-nt $2,250
With Multiplex $2,650
Single Read 100-nt $1,475
With Multiplex $1,875
Paired End 100-nt $2,650
With Multiplex $3,050

7. 做一次的时间周期是多少?
答:只测序的话应该是1.5天做QC,0.5天+过夜分簇,2.5天(GAIIx SR 36-nt)/11.5天(Hi-Seq 2000, PE 100-nt)测序。如果加上下游的数据分析(至少两天,多则一至数月)。所以完整的算下来,短则一至两周,长则几个月才能拿到有生物学注释的结果。

8. 如何做测序后的QC?
答:最简单易用的是FastQC.

2 thoughts on “illumina NGS常见问题

  1. Reply Han 1月 10,2014 9:13 下午

    版大您好,上次版大的幫忙受益良多,今天有個地方無法釐清,就是對於一個已知物種,或是未知物種,在做NGS前如何評估定序規格(Gb)?小弟的認知應該是與测序深度及覆盖率有關,但是不瞭解之間的關係,還是有甚麼簡易的估算方法??

    • Reply admin 1月 13,2014 9:08 上午

      以我的了解,当前主要的估计还是本文中提到的测序深度、覆盖率。比如人类基因组为3.4B,如果你的测序长度平均为100base,那么当达到1X测序深度时,你需要3.4e+09/100个reads = 34M reads. 而Illumina的100nt测序pair-ends时,一个lane可以测240M reads,大约为7X的测序深度。对于深度测序而言,理想的情况是10X测序深度。由于技术的提高,我通常拿到的一个lane的数据往往是500M reads,所以还是一个lane就可以满足深度测序的需要的。对于未知基因组,至少应该首先估算出基因组大小,测序深度应该达到40X以上,才可以比较好的完成拼接。对于mRNA-seq,其transcriptome大小会小于genome的大小,所以在计算覆盖度上,会有变化。

Leave a Reply

  

  

  

%d 博主赞过: