误用模型是分析师常见的挑战,即使我们最常见也最看不上眼的回归模型,实际上也常被误用误读,但是如果用的好,其实一类模型可能基本上可以解决90%的数据挖掘问题,记得当年看《数据挖掘实战》一书时就感觉作者活用一个LOGISTIC模型就能搞定几乎所有的挖掘模型,但前提还是你吃透了它,知道其长处和局限在哪里。
自从Tobin(1958)研究了被解释变量有上限、下限或者存在极值等问题以来,这类研究受到学者们的广泛关注。人们为了纪念Tobin对这类模型的贡献,把被解释变量取值有限制、存在选择行为的这类模型称之为TOBIT模型。这类模型实际上包含两种方程,一种是反映选择问题的离散数据模型;一种是受限制的连续变量模型。
TOBIT模型不同于离散选择模型和一般的连续变量选择模型,它的特点在于因变量是受限变量,模型实际上由两类方程组成,主要研究在某些选择行为下,连续变量如何变化的问题。当前,这种模型已经引入了更复杂的形式,面板数据、半参数等形式的TOBIT模型在研究中广泛应用。国外这种模型已经陆续在各领域内广泛使用,国内也有一些实证分析的论文用到了这种模型。但是人们在应用这些模型分析问题时还存在一些误区,如误认为离散选择模型就是TOBIT
模型,无法解释样本选择性偏差的经济含义,不区分所建立的模型是否是联立方程,对估计结果的性质不进行检验等。
TOBIT模型和常见的PROBIT和LOGIT模型同属于一个体系,即由于解决的是因变量为定性变量的问题,但是前两者解决的主要是LPM模型的不足,即条件概率模型的取值超出了(0,1)的范围,而发展的两个技术,一个是概率单位模型,一个是对数单位模型,前者的CDF使用的累积正态函数,后者使用的累积逻辑函数。前两者有一个共同点是因变量的取值可以获得,无论是发生还是没有发生都可以取得到,而且关心的是事件的发生概率,而不是实质的经济变量(如买房子花费的金额大小),TOBIT则恰恰相反。至于TOBIT模型则是只对于可观测因变量的样本的信息进行处理,对于没有观测的因变量的信息则不处理,认定为0,也称为受限值因变量模型,或者截取回归模型。