首页 > 其他 > 详细

【只要有ENA千万别用NCBI】拆分SRA文件,通过SRAtoolkits

时间:2018-07-13 13:04:48      阅读:17      评论:0      收藏:0      [点我收藏+]

标签:后来   注意   工具集   工作   格式   解包   fix   rwx   双端   

只要有ENA千万别用NCBI!!!!

 

最近开始分析网上Download的数据,一开始用人家现成的GWAS数据,后来觉得反正自己的数据到手该做的也是要做的,出来混早晚是要还的,所以就开始从头分析一些SRA的数据,我以为会很简单,事实证明是我简单了。

 

首先我们下了这样的一串数据,*.sra格式:

-rwxrwxrwx 1 genomics genomics  3446649216 6月  17 12:17 SRR1206512.sra
-rwxrwxrwx 1 genomics genomics  2137350143 6月  17 12:13 SRR1206514.sra
-rwxrwxrwx 1 genomics genomics 34161688171 6月  17 17:05 SRR1206516.sra
-rwxrwxrwx 1 genomics genomics 32445878937 6月  17 17:11 SRR1206517.sra
-rwxrwxrwx 1 genomics genomics 31358768652 6月  17 16:40 SRR1206518.sra
-rwxrwxrwx 1 genomics genomics 35372407493 6月  17 17:55 SRR1206519.sra

 

这些数据需要把他们变成fastq格式我们才好下手,这些数据是双端有150,也有200bp的重测序,也就是说这里的数据是被称为paired-end的格式,我们在解包的时候就需要注意,一个不小心就把fastq的head弄得乱七八糟没法往下进行。

sratoolkit

在NCBI里下这个工具集,这里的工具都是分开的,也就是用哪个把路径复制到哪就可以了,而且需要make一下,安装完我们就可以用这个来进行SRA的解包工作了。

 

代码如下:

这里要注意使用--split-3 这个参数,只有用这个才能正确解开双端测序的包。

/home/genomics/sratoolkit.2.9.1-1-ubuntu64/bin/fastq-dump.2.9.1 --split-3 <prefix>.sra

【只要有ENA千万别用NCBI】拆分SRA文件,通过SRAtoolkits

标签:后来   注意   工具集   工作   格式   解包   fix   rwx   双端   

原文:https://www.cnblogs.com/muuyouzhi/p/9304307.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号