最近一直在思考这个问题,稀有等位基因到底是如何定义的?对于bi-allelic的标记如SNP、AFLP(严格的来说AFLP不应该属于bi-allelic,只是一种无可奈何的结果),最小等位基因频率MAF至多等于0.5。换言之,如果对于tri-allelic标记,其MAF是否应该小于或等于1/3,即推而广之,对于多multiple-allelic标记,MAF应该是小于或等于1/n(n=allelicnumber)。
有文献上称,multiple-allelic标记比bi-allelic标记用于评价LD的结果要大,那到底是allelenumber还是MAF在里面起作用呢?其实二者是有关系的,等位基因数目愈大,各等位基因频率都会相对较小,但这些绝对频率absolutefrequency较小的是否在统计上属于MAF,这些等位基因是否就属于rareallele,我个人是倾向于否定的,依据来源于下面这篇文献:
Stich B, Maurer HP, Melchinger AE, Frisch M, HeckenbergerM, van der Voort JR, Peleman J, Sorensen AP, Reif JC (2006)Comparison of linkage disequilibrium in elite European maize inbredlines using AFLP and SSR markers. Molecular Breeding17:217-226
常识告诉我们,当allelefrequency均匀分布时,LD应该是大的,换言之,当存在MAF时,LD较小,这或许也是rare allele导致detectingpower低的原因。但是,对于多等位基因标记,低频等位基因的存在并不能代表各等位基因数目(频率)分布不均与,即这种情况下的低频等位基因频率是否应该被称作MAF,我认为还有待商榷!否则的话,多等位SSR比双等位AFLP的LD程度要高,就很难解释。
我也曾尝试用纯数学方法去证明当标记等位基因均匀分布时,标记之间的LD最高。可惜高阶偏微商的运算技巧忘光光了,完全是解不出来。看来我非常有必要把微积分再好好复习一遍了。