对于sff 文件
> sffinfo(sff=*.sff)
会生成两个文件*.fasta和*.qual,但不是所有生成的文件都会在下一步用上,有时只用到其中之一,有时会在以后用到
接下来要去除barcode和引物
参考mothur Wiki 即可,注意barode 文件的内容格式
用到trim.seqs 等命令
生成的文件带着trim后缀,比如1.trim.fasta
> unique.seqs(fasta=1.trim.fasta)
>align.seqs(template=silva.bacteria.fasta,candidate=1.trim.unique.fasta,ksize=10,processors=2)#CPU是几核,这个processors就写几
>screen.seqs(fasta=1.trim.unique.align,name=1.trim.names)
> filter.seqs(fasta=1.trim.unique.good.align)
>dist.seqs(fasta=1.trim.unique.good.filter.fasta,calc=onegap,countends=F,cutoff=0.03,processors=2,output=lt)
>cluster(phylip=1.trim.unique.good.filter.phylip.dist,method=furthest,cutoff=0.10)
>rarefaction.single(list=1.trim.unique.good.filter.phylip.fn.list,label=unique-0.03-0.05-0.10)
最后一个命令就是生成rarefaction curve的基本数据的,文件名叫unique.good.filter.unique.fn.1.rarefaction
这个数据用excel 打开,绘制成曲线
更多方案和流程,参考:http://www.mothur.org/wiki/Costello_stool_analysis
其中在dist.seqs 这个步骤之后
如果用clearcut 可以生成一个tre
mothur >clearcut(phylip=stool.final.phylip.dist)
对生成的tre 可以用 UniFrac 进行β diversity分析
mothur > unifrac.unweighted(distance=lt,processors=2, random=F)
mothur > unifrac.weighted(distance=lt, processors=2,random=F)
参考:http://www.mothur.org/wiki/Unifrac.weighted
对于需要的groups文件,需要不同样品的序列合并而成。
方法如下:
用make.group命令生成
比如 mothur >make.group(fasta=1.fasta-2.fasta-3.fasta-4.fasta,groups=A-B-C-D)
就生成一个 mergegroups的文件,里面的的内容是各种序列分别来自A,B,C,D四个group
感谢浙大杨海水同学提供的教程,我从他那里学到了很多。
虽然不认识他,但是很向他的分享精神致敬。
Mouthur图形用户界面
http://www.mothur.org/wiki/Download_mothur在页面最下方
其他Mothur数据处理流程:
http://www.douban.com/note/258493418/