计量经济学中,如果我们拥有极其多和优质的数据,那么如果所有的变量没有违反经典假设。得到的估计参数将是无偏的,在大样本之下将是一致的估计。我们来看一看经典假设:
ols1:模型关于待估计的参数是线性的。
ols2:模型的数据来源问题。对于一般的横截面数据是独立同分布的。
ols3:E(u|X)=0。无内生性假定。
ols4:X之间没有完全多重的共线性。
ols5:Var(u|X)=a^2(a是一个常数)。
ols6:残差服从独立的相同的正态分布。
其中的ols1----ols4都是要保证估计的参数是一致的。其中的第三个假定就是内生性假定。
现实情况的描述:关于计量经济学中,我们需要估计偏效应。也就是说某一个自变量对因变量的影响问题。如果这个自变量和随机误差不相关,那么我们得到的这个ols的估计参数将是一致的,也可以说是效果良好的。但是现实情况并不是这样的,现实中的变量一般都是内生变量,也就是说两个变量不是单方面的决定作用,而是相互决定的作用。那么一般而言,只要我们测量有误差或者是遗漏变量,那么就可能存在内生性的问题,也就是我们没有办法得到一个一致性的估计。
代理变量和工具变量:
什么是代理变量?——遗漏变量的解决方法。在一个方程中,假设:y=b0+b1*x1+……+bn*xn+u。方程中的变量x和随机误差不相关,或者是我们可以容忍某种程度上的相关性,那么我们可以说我们对于参数的ols地估计值是满意的,但是如果在u中我们能知道某些变量和x相关,而且这个遗漏的变量是比较重要的,那么我们怎么才能得到一个更加好的参数的估计量呢?我们如果能找到一个变量和在u中的遗漏的变量q相关,而且这个变量要和x不相关,那么我们就可以把这个遗漏的变量加入到方程中进行回归。假设我们找到可以在某种程度上反映q的一个变量,或者是一组变量z,那么我们就可以把这个z放到方程中去做ols。得到的参数的估计值要比原先的好一些。但是这里存在问题,也就是z始终不是q,那么在某种程度上没有办法完全代表q。这样也会导致估计的参数存在一定的不一致,但是总是比原来那个没有z条件下估计出来的参数要好一些。但是在一定的情况之下,我们能知道到底是过高的估计,还是过低的估计。因为q=a0+a1*x1+a2*x2……+an*xn+c1*z1+c2*z2……+ck*zk。把这个方程带到原来的方程中(y=b0+b1*x1+……+bn*xn+c*q+u)。那么我们可以得到关于bi的估计值是bi+ai。实际上这个估计值也是有偏的。
实际上参数的估计值的偏向取决于两个因素,第一:遗漏变量q和z之间的关系,也就是协方差是正的还是负的。第二:取决于q和y的关系。如果:cov(q,z)>0且cov(q,y)>0,向上偏误。如果:cov(q,z)>0且cov(q,y)<0,向下偏误。如果cov(q,z)<0且cov(q,y)>0,向下偏误。cov(q,z)<0且cov(q,y)<0,向上偏误。
工具变量方法:工具变量法和代理变量方法是不同的,这个区别千万要注意,理念也是不同的。一般而言,工具变量方法可以解决遗漏变量问题,也可以解决测量误差问题。
现在先说测量误差的解决方法:比如在一个回归中,我们认为其中的一个变量xi有测量误差,而且这个测量误差和u相关,此时我们要找到一个变量z,满足两个条件:1、cov(xi,z)>0,2、cov(z,u)=0。满足这两个条件的情况之下,我们就是使用2sls方法进行回归。首先xi对X(不包括xi)和工具变量集合进行回归(工具变量不一定是一个,可能十多个,那么工具变量就可能是一个集合),进行回归,得到一个拟和的xi。此时做y对X(其中的xi用刚才那个回归中的得到的拟和值来替代)。此时做出的回归是一致的。
现在讨论隐性变量的问题:如何利用工具变量的方法来解决隐性变量的问题?
隐性变量的问题一般而言可以用上面说过的代理变量来解决,但是那样的结果是有偏的,并且是不一致的。尽管比没有用的时候好,但是如果条件允许,那么我们可以用工具变量的方法来得到一个比代理变量还要好的结果。这个条件就是:如果知道隐性变量q没有办法准确测量或者没有一个公认的测评标准,那么我们可以利用其他与q相关的指标来进行工具变量,但是必须有两个相关的可测的观测值,并且这两个观测值不能有测量误差。此时我们随便利用一个观测指标带到方程中,就可以得到一个有测量误差的回归模型,此时问题就如同测量误差的解决方法一样来解决,假设q1,q2是不同的指标观测值。那么我们可以1、做q1对X和q2的回归,得到拟和值。2、在做y对X和q1的拟和值回归。此时的得到的就是一致估计量。