卡方分布,是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布。假设检验和置信区间的计算。由卡方分布延伸出来皮尔森卡方检定常用于: (1)样本某性质的比例分布与总体理论分布的拟合优度;(2)同一总体的两个随机变量是否独立;(3)二或多个总体同一属性的同素性检定。
卡方分布_卡方分布 -简介
卡方分布
若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和
构成一新的随机变量,其
分布规律称为
分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个
分布。记为
或者
.
卡方分布
卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,
分布近似为正态分布。
对于任意正整数k, 自由度为 k的卡方分布是一个随机变量X的机率分布。
卡方分布_卡方分布 -特点
概率密度函数
卡方分布
卡方分布
其中,
是伽玛函数。
期望和方差
卡方分布
分布的均值为自由度 n,记为 E(
) = n。
卡方分布
分布的方差为2倍的自由度(2n),记为 D(
) = 2n。
性质
卡方分布
1)
分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,
分布趋近于正态分布;卡方分布密度曲线下的面积都是1.
卡方分布
2)
分布的均值与方差可以看出,随着自由度n的增大,χ2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。
3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
卡方分布
4) 若
互相独立,则:
卡方分布
服从
分布,自由度为
;
卡方分布
服从
分布,自由度为
。
卡方分布_卡方分布 -概率表
卡方分布
分布不象正态分布那样将所有正态分布的查表都转化为标准正态分布去查,在
分布中得对每个分布编
制相应的概率值,这通过
分布表中列出不同的自由度来表示,在
分布表中还需要如标准正态分布表中给出不同 P 值一样,列出概率值,只不过这里的概率值是
值以上
分布曲线以下的概率。由于
分布概率表中要列出很多
分布的概率值,所以
分布中所给出的 P 值就不象标准正态分布中那样给出了400个不同的 P 值,而只给出了有代表性的13个值,因此
分布概率表的精度就更差,不过给出了常用的几个值,足够在实际中使用了。
卡方分布
查
分布概率表时,按自由度及相应的概率去找到对应的
值。如上图所示的单侧概率
0.05(7)=14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1。
卡方分布
表中所给值直接只能查单侧概率值,可以变化一下来查双侧概率值。例如,要在自由度为7的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为
0.05/2(7)=16。下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为
1-0.05/2(7)=1.69。
卡方分布
当然也可以按自由度及
值去查对应的概率值,不过这往往只能得到一个大概的结果,因为
分布概率表的精度有限,只给了 13 个不同的概率值进行查表。例如,要在自由度为 18 的
分布查找
=30 对应的概率,则先在第一列找到自由度 18,然后看这一行可以发现与 30 接近的有28.9与31.5,它们所在的列是0.05与0.025,所以要查的概率值应于介于0.05与0.025之间,当然这是单侧概率值,它们的双侧概率值界于0.1与0.05之间。如果要更精确一些可以采用插值的方法得到,这在正态分布的查表中有介绍。
卡方分布
为什么从正态总体中抽取出的样本的方差服从
分布
卡方分布
在抽样分布理论一节里讲到,从正态总体进行一次抽样就相当于独立同分布的 n 个正态随机变量ξ1,ξ2,…,ξn的一次取值,将 n 个随机变量针对总体均值与方差进行标准化得(i=1,…,n),显然每个都是服从标准正态分布的,因此按照
分布的定义,应该服从参数为 n 的
分布。
卡方分布
如果将总体中的方差σ 用样本方差 s代替,它是否也服从
分布呢?理论上可以证明,它是服从
分布的,但是参数不是 n 而是 n-1 了,究其原因在于它是 n-1 个独立同分布于标准正态分布的随机变量的平方和
我们常常把一个式子中独立变量的个数称为这个式子的“自由度”,确定一个式子自由度的方法是:若式子包含有 n 个变量,其中k 个被限制的样本统计量,则这个表达式的自由度为 n-k。比如中包含ξ1,ξ2,…,ξn这 n 个变量,其中ξ1-ξn-1相互独立,ξn为其余变量的平均值,因此自由度为 n-1。
卡方分布_卡方分布 -应用软件
STATA, SAS, MATLAB, R, Excel, SPSS, EViews