简介
1、概述
BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而genomicfeatures通常使用Browser Extensible Data (BED) 或者 General Feature Format(GFF)文件表示,用UCSC Genome Browser进行可视化比较。
2、与BEDTools使用相关的基本概念
已有的一些genome features信息一般由BED格式或者GFF格式进行存储。
3、BED和GFF文件的一个差异
BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
安装
注意:下面的代码中是需要下载的工具的版本号
1 | curl http://bedtools.googlecode.com/files/BEDTools.******. tar .gz>BEDTools. tar .gz |
2 | tar -zxvfBEDTools. tar .gz |
3 | cd BEDTools |
4 | make clean |
5 | make all |
6 | ls bin |
7 | cp /bin/*usr/ local /bin/ |
一些简单的使用
1、从两个BED文件中得到genome feature的交集
intersectBed -a reads.bed -b genes.bed
2、从两个BED文件中得到只在第一个文件中有而不在第二个文件中的genome features
intersectBed -a reads.bed -b genes.bed -v
相关格式
1) BED format
BEDTools主要使用BED格式的前三列,BED可以最多有12列。BED格式的常用列描述如下:
2) BEDPE format
可以用于描述不连续的genome features, 例如structural variations或者paired-endsequence alignments。和BED文件格式相比,就是一个记录中要有两个chrom, start,end
3) GFF format
类似于BED
4) genome files
BEDTools中的一些工具(genomeCoverageBed, complementBed,slopBed)需要物种的染色体大小的信息,genomefile一般就是每行都是tab隔开,两列,一列为染色体的名字,第二列为这个染色体的大小。一般常用物种的genomefile在BEDTools安装目录的/genome里面。
5) SAM/BAM format
BEDTools的两个工具:intersectBed, pairToBed支持BAM格式的输入和输出。有两个工具有助于:
BEDTools suite使用详细
1、intersectBed
用来求两个BED或者BAM文件中的overlap,overlap可以进行自定义是整个genomefeatures的overlap还是局部。
加-wa参数可以报告出原始的在A文件中的feature,
加-wb参数可以报告出原始的在B文件中的feature, 加-c参数可以报告出两个文件中的overlap的feature的数量,参数-s可以得到忽略strand的overlap。
示例:
intersectBed -a A.bed -b B.bed intersectBed -a A.bed -b B.bed -wa intersectBed -a A.bed -b B.bed -wb intersectBed -a A.bed -b B.bed -wa -wb intersectBed -a A.bed -b B.bed -c intersectBed -a A.bed -b B.bed -f 0.50 -r -wa -wb
2、pairToBed
将BEDPE或者paired-end的BAM文件与BED文件进行比较,搜索overlaps。
加-type both报告A中两个end都在B中存在overlap的;加-typenotboth报告A中任一end都在B中存在overlap的; -typeispan报告A的pair是否是横跨B的两侧,还有类似的-type ospan, -typenotispan;加参数-f可以指定最小的overlap的比例,超过这个比例则报告;参数-s可以得到忽略strand的overlappairToBed -a A.bedpe -b B.bed -type bothpairToBed -a A.bedpe-b B.bed -f 0.5pairToBed -abam pairedReads.bam -b simreps.bed-bedpe
比较BEDPE文件搜索overlaps, 类似于pairToBed。
将BAM文件转换为BED文件或者BEDPE文件。bamToBed -i reads.bam
类似于intersectBed, 但是可以指定一个数字,让A中的genome feature增加上下游去和B中的genomefeatures进行overlap。默认情况这个值为1000,可以使用-w加定义,可以用-l指定是上游,用-r指定下游windowBed-a A.bed -b B.bed -w 5000
windowBed -a A.bed -b B.bed -l 200 -r 20000
在A中去除掉B中有的genome features
加-s参数表明根据正负链计算
coverageBed computes both thedepth andbreadth of coverageof features in file A acrossthe features in file B. Forexample, coverageBed can compute the coverage of sequencealignments (file A) across 1 kilobase (arbitrary)windows (fileB) tiling agenome ofinterest. Oneadvantage thatcoverageBed offersis that itnot onlycounts thenumber offeatures thatoverlap aninterval infile B, italso computes thefraction ofbases in Binterval thatwere overlappedby one ormore features.Thus, coverageBed also computes thebreadth of coverage for eachinterval in B.
genomeCoverageBed
genomeCoverageBed computes ahistogram offeature coverage(e.g., alignedsequences) for agiven genome. Optionally, byusing the –d option, it willreport the depth of coverageat each baseon each chromosome in the genome file (-g ).
软件相关论文:
Quinlan, A.R. & Hall, I.M. BEDTools: a flexiblesuite of utilities for comparing genomic features. Bioinformatics26, 841-842 (2010).
参考来源:http://caoyaqiang.diandian.com/post/2012-09-12/40039807769