一、gff文件中重要的feature我们主要需要:gene、CDS、region、exon、tRNA、rRNA、ncRNA。
在细菌里一般重要的exon是gbkey=misc_RNA的exon。在做的过程中,把不是misc_RNA的exon记录一下,写到一个log文件里。
gbkey=misc_RNA的exon和那几个RNA,都可以我们自己做个分类叫RNA。可以把这个RNA组成一个trackgroup,其中每个是一个track。
region主要是对CDS描述的比较多。region描述CDS中功能区域,例如跨膜区,结构域等注释信息。这些也比较重要。region主要是被注释的功能信息,pfam等
exon主要记录除了编码蛋白和已知的一些rna外的其他misc-rna,但是如果要处理exon的话,就要把gff文件的最后一列做详细处理,把可能的rna描述提取出来
我们在提供browse注释的时候,不可能告诉使用者,某段序列是个exon,而要告诉他们这段序列是XXRNA。
一般都是 gene-->rna/transcript-->exon?
例子:
NC_017627.1RefSeqgene8279482889.+.ID=gene97;Name=finP;Dbxref=GeneID:12703501;gbkey=Gene;gene=finP;locus_tag=EC042_pAA161
NC_017627.1RefSeqtranscript8279482889.+.ID=rna0;Parent=gene97;Note=antisenseRNAoftraY-ZmRNA;Dbxref=GeneID:12703501;gbkey=misc_RNA
NC_017627.1RefSeqexon8279482889.+.ID=id176;Parent=rna0;Note=antisenseRNAoftraY-ZmRNA;Dbxref=GeneID:12703501;gbkey=misc_RNA
二、利用gff文件解释细菌的基因组情况,我们分成三个层次做track:
gene作为一个层次;
转录层包括那一堆RNA,CDS;
注释层包括region的一些注释信息。
例子:
7627.1RefSeqregion8240482718.-.ID=id175;Note=HMMPfamhit to PF00989, PAS, score2.3e-20;Dbxref=GeneID:12703500;gbkey=misc_feature
这个例子表明,此区域为一个pfam结构域。以及计算打分score都在。
三、exon的二级parent结构例子:NC_017627.1 RefSeq gene 82794 82889 . + .ID=gene97;Name=finP;Dbxref=GeneID:12703501;gbkey=Gene;gene=finP;locus_tag=EC042_pAA161NC_017627.1 RefSeq transcript 82794 82889 . + .ID=rna0;Parent=gene97;Note=antisense RNA of traY-ZmRNA;Dbxref=GeneID:12703501;gbkey=misc_RNA
NC_017627.1 RefSeq exon 82794 82889 . + .ID=id176;Parent=rna0;Note=antisense RNA of traY-ZmRNA;Dbxref=GeneID:12703501;gbkey=misc_RNA
其中,exon的parent=rna0
transcript的ID=rna0
transcript的parent=gene97这是二级parent
这个exon和transcript都是gene97的
exon是孙子