Login    Register account      
    
  


News Message

离散选择模型



离散选择模型





1. 为什么是Logistic回归?

在分析变量之间的相关关系的时候,一般最先想到的是线性回归模型。例如,图1展示了气温(X)和冰淇淋的销量(Y)之间的关系:


图1:气温(X)和冰淇淋的销量(Y)之间的关系


线性回归模型可以描述因变量Y和自变量X之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第i次观测到的样本为X_i,则:

Y_i=\beta_0+\beta_1 X_i+\varepsilon _i

\beta_0Y轴上的截距,\beta_1为斜率,\varepsilon 为误差项。为什么需要将误差项\varepsilon 包含在模型中?

  • 有些变量是观测不到或者无法度量的,又或者影响因变量的因素太多,无法一一度量
  • 外界随机因素对的影响很难模型化,如自然灾害、恐怖时间、设备故障等
  • 在度量的过程中会发生偏差

给定n组观测值(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n),我们就可以用最小二乘法得到参数\beta_0\beta_1的估计值。

现实情况中经常会遇到因变量是二分类变量的情形。例如——

  • 顾客是否会购买某种商品:Y=1购买,Y=0不买
  • 选民是否会投票给某位候选人:Y=1投票,Y=0不投票
  • 求职者决定是否在某企业入职:Y=1入职,Y=0不入职
  • 交通事故中是否有人员伤亡:Y=1有人员伤亡,Y=0无人员伤亡

若因变量为二分类变量(Y只能取0或1),在建模分析与Y相关的影响因素的时候,使用Logistic回归可能是一个较好的选择;而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件


2. 线性回归模型的假设

线性回归模型的成立需满足以下几条假设[1]:

Y_i=\beta_0+\beta_1 X_i+\varepsilon _i ...... (1)

E(\varepsilon _i )=0  ...... (2)

Var(\varepsilon _i )=\sigma ^2 ...... (3)

Cov(\varepsilon _i,\varepsilon _j )=0 ...... (4)

\varepsilon _i \sim Normal ...... (5)

条件(1)为线性假设,即自变量X每增加一个单位对Y的影响都是一样的(Y的值增加\beta_1);

条件(2)-(5)均和误差项\varepsilon 有关。假设(2)表示对任意X的取值,误差项\varepsilon 是一个期望为零的随机变量(即\varepsilon X不相关)。这意味着在式Y_i=\beta_0+\beta_1 X_i+\varepsilon _i中,由于\beta_0\beta_1都是常数,因此对于一个给定的X_i的值,Y_i的期望值为:

E(Y_i )=\beta_0+\beta_1 X_i ...... (6)

假设(3)表示对任意X的值,误差项\varepsilon 的方差都相同(都是\sigma ^2)。

假设(4)和(5)说明误差项\varepsilon 是一个服从正态分布的随机变量(\varepsilon \sim N(0,\sigma ^2)),且相互独立(即\varepsilon _iX_i不相关)。图2展示了误差项\varepsilon 在线性回归模型中的影响。


图2:误差项在线性回归模型中的影响


只有当以上5个基本条件都满足时,利用最小二乘法得出的参数的估计值才是无偏的。不幸的是,因变量是二分类变量时,无法满足条件(3)和(5)。以下分别予以说明。


首先考虑假设条件(5)。

当因变量Y_i=1时,根据条件(1)则有:

\varepsilon _i=1-\beta_0-\beta_1 X_i ...... (7)

当因变量Y_i=0时有:

\varepsilon _i=-\beta_0-\beta_1 X_i ......(8)

也就是说,对任意的X_i,误差项\varepsilon _i只能取两个固定的值:1-\beta_0-\beta_1 X_i或者-\beta_0-\beta_1 X_i——而非如图2中所示的正态分布。因此条件(5)不满足。


再考虑假设条件(3)。

若记Y_i=1的概率值为p_i,则相应的 Y_{i}=0 的概率为 \left( 1-p_{i} \right) ,如下表所示:

Y_i的均值为:

E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i ...... (9)

带入(6)可得:

p_i=\beta_0+\beta_1 X_i ...... (10)

Y_i的方差为:

Var(Y_i )=E[(Y_i )^2 ]-[E(Y_i )]^2

=p_i-p_i^2=p_i (1-p_i )

=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i ) ...... (11)

当 X 在 X_{i} 处固定时, \varepsilon_{i} 方差等于相应的 Y_{i} 的方差(见(1)式)。也是说,\varepsilon_{i}的方差随着X_i的改变而改变——这与(3)式相矛盾!


由此可见,直接套用(1)式中的线性回归模型对二分类变量(Y_i=0 or 1)进行拟合时,自变量的系数估计值会存在偏差。更为关键的一点是:从(10)中可以看出,当假设条件(1)、(2)成立时,Y_i=1的概率值(p_i)和自变量X_i成线性关系——这就意味着概率值p_i可能会出现大于1(或者小于0)的情形(如图3)——这一点无论是在理论上还是在实际计算的过程都行不通!因此,在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。


图3:线性概率模型



预告:下一篇讲Logistic模型中的一个核心概念——Odds。



3. 参考文献:

[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.


1. 为什么是Logistic回归?

在分析变量之间的相关关系的时候,一般最先想到的是线性回归模型。例如,图1展示了气温(X)和冰淇淋的销量(Y)之间的关系:


图1:气温(X)和冰淇淋的销量(Y)之间的关系


线性回归模型可以描述因变量Y和自变量X之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第i次观测到的样本为X_i,则:

Y_i=\beta_0+\beta_1 X_i+\varepsilon _i

\beta_0Y轴上的截距,\beta_1为斜率,\varepsilon 为误差项。为什么需要将误差项\varepsilon 包含在模型中?

  • 有些变量是观测不到或者无法度量的,又或者影响因变量的因素太多,无法一一度量
  • 外界随机因素对的影响很难模型化,如自然灾害、恐怖时间、设备故障等
  • 在度量的过程中会发生偏差

给定n组观测值(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n),我们就可以用最小二乘法得到参数\beta_0\beta_1的估计值。

现实情况中经常会遇到因变量是二分类变量的情形。例如——

  • 顾客是否会购买某种商品:Y=1购买,Y=0不买
  • 选民是否会投票给某位候选人:Y=1投票,Y=0不投票
  • 求职者决定是否在某企业入职:Y=1入职,Y=0不入职
  • 交通事故中是否有人员伤亡:Y=1有人员伤亡,Y=0无人员伤亡

若因变量为二分类变量(Y只能取0或1),在建模分析与Y相关的影响因素的时候,使用Logistic回归可能是一个较好的选择;而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件


2. 线性回归模型的假设

线性回归模型的成立需满足以下几条假设[1]:

Y_i=\beta_0+\beta_1 X_i+\varepsilon _i ...... (1)

E(\varepsilon _i )=0  ...... (2)

Var(\varepsilon _i )=\sigma ^2 ...... (3)

Cov(\varepsilon _i,\varepsilon _j )=0 ...... (4)

\varepsilon _i \sim Normal ...... (5)

条件(1)为线性假设,即自变量X每增加一个单位对Y的影响都是一样的(Y的值增加\beta_1);

条件(2)-(5)均和误差项\varepsilon 有关。假设(2)表示对任意X的取值,误差项\varepsilon 是一个期望为零的随机变量(即\varepsilon X不相关)。这意味着在式Y_i=\beta_0+\beta_1 X_i+\varepsilon _i中,由于\beta_0\beta_1都是常数,因此对于一个给定的X_i的值,Y_i的期望值为:

E(Y_i )=\beta_0+\beta_1 X_i ...... (6)

假设(3)表示对任意X的值,误差项\varepsilon 的方差都相同(都是\sigma ^2)。

假设(4)和(5)说明误差项\varepsilon 是一个服从正态分布的随机变量(\varepsilon \sim N(0,\sigma ^2)),且相互独立(即\varepsilon _iX_i不相关)。图2展示了误差项\varepsilon 在线性回归模型中的影响。


图2:误差项在线性回归模型中的影响


只有当以上5个基本条件都满足时,利用最小二乘法得出的参数的估计值才是无偏的。不幸的是,因变量是二分类变量时,无法满足条件(3)和(5)。以下分别予以说明。


首先考虑假设条件(5)。

当因变量Y_i=1时,根据条件(1)则有:

\varepsilon _i=1-\beta_0-\beta_1 X_i ...... (7)

当因变量Y_i=0时有:

\varepsilon _i=-\beta_0-\beta_1 X_i ......(8)

也就是说,对任意的X_i,误差项\varepsilon _i只能取两个固定的值:1-\beta_0-\beta_1 X_i或者-\beta_0-\beta_1 X_i——而非如图2中所示的正态分布。因此条件(5)不满足。


再考虑假设条件(3)。

若记Y_i=1的概率值为p_i,则相应的 Y_{i}=0 的概率为 \left( 1-p_{i} \right) ,如下表所示:

Y_i的均值为:

E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i ...... (9)

带入(6)可得:

p_i=\beta_0+\beta_1 X_i ...... (10)

Y_i的方差为:

Var(Y_i )=E[(Y_i )^2 ]-[E(Y_i )]^2

=p_i-p_i^2=p_i (1-p_i )

=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i ) ...... (11)

当 X 在 X_{i} 处固定时, \varepsilon_{i} 方差等于相应的 Y_{i} 的方差(见(1)式)。也是说,\varepsilon_{i}的方差随着X_i的改变而改变——这与(3)式相矛盾!


由此可见,直接套用(1)式中的线性回归模型对二分类变量(Y_i=0 or 1)进行拟合时,自变量的系数估计值会存在偏差。更为关键的一点是:从(10)中可以看出,当假设条件(1)、(2)成立时,Y_i=1的概率值(p_i)和自变量X_i成线性关系——这就意味着概率值p_i可能会出现大于1(或者小于0)的情形(如图3)——这一点无论是在理论上还是在实际计算的过程都行不通!因此,在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。


图3:线性概率模型



预告:下一篇讲Logistic模型中的一个核心概念——Odds。



3. 参考文献:

[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.














请输入评论