高通两数据测序之后要map到基因组上,我通常用bwa bowtie和tophat 。其实我知道sam 文件有好几个field,每个field代表不同的意思,但是由于各种格式的文件确实太多了,我也记不住每个field具体的意思。每次要用的时候都是上网再去找,或者把相关的资料下载下来,再现学。
今天,我和一个同学讨论我们数据的情况。他们都是用bowtie 去map 的,我之前写了个脚本,是用bwa 做的map,我有点懒散,也懒得再去修改了,于是也没想着要再写一个用bowtie 做map的脚本。与同学的讨论中,我发现我之前对sam 文件的了解确实很肤浅,这是一个教训,以后每一步都要走踏实才好。
sam 文件中第二列的信息是FLAG 标签
0x0001 reads is paired in sequence, no matter whether it is mapped in pair
0x0002 the reads is mapped in a proper pair
0x0004 the query sequence itself is unmapped
0x0008 the mate sequence is unmapped
0x0010 strand of the query is reverse complement
……
……
……
可以通过按位运算操作符筛选出特定的reads。
0x0001 1
0x0002 10
0x0004 100
0x0008 1000
……
……
原文:http://www.cnblogs.com/jipin/p/3903395.html