==========
sufficientstatistic 充分统计量
对于一个未知分布而言,充分统计量sufficient statistic,顾名思义,就是当知道这些量的时候,这个分布就可以确定了,所以这些量才有sufficient的意思,足够的意思。有了这些量,即便丢失掉样本的其他信息也对于估计未知的分布而言也是无关紧要了,所以那些量才能成为是sufficient的。维基上的解释最经典,没有任何其他来自同样样本的统计量能够比充分统计量提供更多关于未知参数的信息(我是这么理解的)。原句如下:Instatistics,asufficient statisticisastatisticwhichhas the propertyofsufficiencywithrespect to astatisticalmodeland its associatedunknownparameter,meaning that "no other statistic which can be calculated from thesamesampleprovidesany additional information as to the value of theparameter".
比如,对于一些来自未知分布的样本,对于参数估计而言,就是可以把这个未知的分布表示成p(theta)的形式,样本的分布就可以表示为p(x|theta); 而充分统计量,假设为q,它的存在意义是当我们比较难以推导出theta时,如果由这些样本能比较容易的决定q,那此时p(x|theta)就等同于p(x|q),我们就由比较容易得出的充分统计量来代替了原来难以直接推导出的参数q。
对于大家熟知的正态分布而言,如果有很多样本抽样自正态分布,那我们知道当确定了分布的均值和方差后,对于这些样本的很多信息就都可以忽略了,比如他们出现的先后顺序,比如有些样本可能比其他样本的值大很多。这个时候可以理解为均值和方差就是正态分布的充分统计量,就是sufficient 统计量。
(更多更详细的介绍,可以参考维基百科:http://en.wikipedia.org/wiki/Sufficient_statistic)
理解了上面的概念,就不难理解说dirichletdistribution有有限维的sufficient statistic有什么好处了。