离散选择模型--Intelligent technology investment network-上海优钧机械设备科技

News Message

离散选择模型

by wittx 2020-09-04

离散选择模型

1. 为什么是Logistic回归？
在分析变量之间的相关关系的时候，一般最先想到的是线性回归模型。例如，图1展示了气温（）和冰淇淋的销量（）之间的关系：

图1：气温（）和冰淇淋的销量（）之间的关系

线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为，则：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$
$\beta_0$ 为轴上的截距， $\beta_1$ 为斜率， $\varepsilon$ 为误差项。为什么需要将误差项 $\varepsilon$ 包含在模型中？
有些变量是观测不到或者无法度量的，又或者影响因变量的因素太多，无法一一度量
外界随机因素对的影响很难模型化，如自然灾害、恐怖时间、设备故障等
在度量的过程中会发生偏差
给定组观测值 $(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n)$ ，我们就可以用最小二乘法得到参数 $\beta_0$ 和 $\beta_1$ 的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
顾客是否会购买某种商品：Y=1购买，Y=0不买
选民是否会投票给某位候选人：Y=1投票，Y=0不投票
求职者决定是否在某企业入职：Y=1入职，Y=0不入职
交通事故中是否有人员伤亡：Y=1有人员伤亡，Y=0无人员伤亡
若因变量为二分类变量(Y只能取0或1)，在建模分析与Y相关的影响因素的时候，使用Logistic回归可能是一个较好的选择；而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。

2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ ...... (1)
$E(\varepsilon _i )=0$ ...... (2)
$Var(\varepsilon _i )=\sigma ^2$ ...... (3)
$Cov(\varepsilon _i,\varepsilon _j )=0$ ...... (4)
$\varepsilon _i \sim Normal$ ...... (5)
条件(1)为线性假设，即自变量每增加一个单位对的影响都是一样的（的值增加 $\beta_1$ ）；
条件(2)-(5)均和误差项 $\varepsilon$ 有关。假设(2)表示对任意的取值，误差项 $\varepsilon$ 是一个期望为零的随机变量（即 $\varepsilon$ 和不相关）。这意味着在式 $Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ 中，由于 $\beta_0$ 和 $\beta_1$ 都是常数，因此对于一个给定的的值，的期望值为：
$E(Y_i )=\beta_0+\beta_1 X_i$ ...... (6)
假设(3)表示对任意的值，误差项 $\varepsilon$ 的方差都相同（都是 $\sigma ^2$ ）。
假设(4)和(5)说明误差项 $\varepsilon$ 是一个服从正态分布的随机变量（ $\varepsilon \sim N(0,\sigma ^2)$ ），且相互独立（即 $\varepsilon _i$ 和不相关）。图2展示了误差项 $\varepsilon$ 在线性回归模型中的影响。

图2：误差项在线性回归模型中的影响

只有当以上5个基本条件都满足时，利用最小二乘法得出的参数的估计值才是无偏的。不幸的是，因变量是二分类变量时，无法满足条件(3)和(5)。以下分别予以说明。

首先考虑假设条件(5)。
当因变量时，根据条件(1)则有：
$\varepsilon _i=1-\beta_0-\beta_1 X_i$ ...... (7)
当因变量时有：
$\varepsilon _i=-\beta_0-\beta_1 X_i$ ......(8)
也就是说，对任意的，误差项 $\varepsilon _i$ 只能取两个固定的值： $1-\beta_0-\beta_1 X_i$ 或者 $-\beta_0-\beta_1 X_i$ ——而非如图2中所示的正态分布。因此条件(5)不满足。

再考虑假设条件(3)。
若记的概率值为，则相应的 $Y_{i}=0$ 的概率为 $\left( 1-p_{i} \right)$ ，如下表所示：
的均值为：
$E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i$ ...... (9)
带入(6)可得：
$p_i=\beta_0+\beta_1 X_i$ ...... (10)
的方差为：
$=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i )$ ...... (11)
当在 $X_{i}$ 处固定时， $\varepsilon_{i}$ 方差等于相应的 $Y_{i}$ 的方差（见(1)式）。也是说， $\varepsilon_{i}$ 的方差随着的改变而改变——这与(3)式相矛盾！

由此可见，直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时，自变量的系数估计值会存在偏差。更为关键的一点是：从(10)中可以看出，当假设条件(1)、(2)成立时，的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1（或者小于0）的情形（如图3）——这一点无论是在理论上还是在实际计算的过程都行不通！因此，在处理因变量为二分类变量的情形时，较线性模型而言，Logistic模型的统计特性更好、计算更为方便。

图3：线性概率模型

预告：下一篇讲Logistic模型中的一个核心概念——Odds。

3. 参考文献：
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.

1. 为什么是Logistic回归？
在分析变量之间的相关关系的时候，一般最先想到的是线性回归模型。例如，图1展示了气温（）和冰淇淋的销量（）之间的关系：

图1：气温（）和冰淇淋的销量（）之间的关系

线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为，则：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$
$\beta_0$ 为轴上的截距， $\beta_1$ 为斜率， $\varepsilon$ 为误差项。为什么需要将误差项 $\varepsilon$ 包含在模型中？
有些变量是观测不到或者无法度量的，又或者影响因变量的因素太多，无法一一度量
外界随机因素对的影响很难模型化，如自然灾害、恐怖时间、设备故障等
在度量的过程中会发生偏差
给定组观测值 $(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n)$ ，我们就可以用最小二乘法得到参数 $\beta_0$ 和 $\beta_1$ 的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
顾客是否会购买某种商品：Y=1购买，Y=0不买
选民是否会投票给某位候选人：Y=1投票，Y=0不投票
求职者决定是否在某企业入职：Y=1入职，Y=0不入职
交通事故中是否有人员伤亡：Y=1有人员伤亡，Y=0无人员伤亡
若因变量为二分类变量(Y只能取0或1)，在建模分析与Y相关的影响因素的时候，使用Logistic回归可能是一个较好的选择；而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。

2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ ...... (1)
$E(\varepsilon _i )=0$ ...... (2)
$Var(\varepsilon _i )=\sigma ^2$ ...... (3)
$Cov(\varepsilon _i,\varepsilon _j )=0$ ...... (4)
$\varepsilon _i \sim Normal$ ...... (5)
条件(1)为线性假设，即自变量每增加一个单位对的影响都是一样的（的值增加 $\beta_1$ ）；
条件(2)-(5)均和误差项 $\varepsilon$ 有关。假设(2)表示对任意的取值，误差项 $\varepsilon$ 是一个期望为零的随机变量（即 $\varepsilon$ 和不相关）。这意味着在式 $Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ 中，由于 $\beta_0$ 和 $\beta_1$ 都是常数，因此对于一个给定的的值，的期望值为：
$E(Y_i )=\beta_0+\beta_1 X_i$ ...... (6)
假设(3)表示对任意的值，误差项 $\varepsilon$ 的方差都相同（都是 $\sigma ^2$ ）。
假设(4)和(5)说明误差项 $\varepsilon$ 是一个服从正态分布的随机变量（ $\varepsilon \sim N(0,\sigma ^2)$ ），且相互独立（即 $\varepsilon _i$ 和不相关）。图2展示了误差项 $\varepsilon$ 在线性回归模型中的影响。

图2：误差项在线性回归模型中的影响

只有当以上5个基本条件都满足时，利用最小二乘法得出的参数的估计值才是无偏的。不幸的是，因变量是二分类变量时，无法满足条件(3)和(5)。以下分别予以说明。

首先考虑假设条件(5)。
当因变量时，根据条件(1)则有：
$\varepsilon _i=1-\beta_0-\beta_1 X_i$ ...... (7)
当因变量时有：
$\varepsilon _i=-\beta_0-\beta_1 X_i$ ......(8)
也就是说，对任意的，误差项 $\varepsilon _i$ 只能取两个固定的值： $1-\beta_0-\beta_1 X_i$ 或者 $-\beta_0-\beta_1 X_i$ ——而非如图2中所示的正态分布。因此条件(5)不满足。

再考虑假设条件(3)。
若记的概率值为，则相应的 $Y_{i}=0$ 的概率为 $\left( 1-p_{i} \right)$ ，如下表所示：
的均值为：
$E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i$ ...... (9)
带入(6)可得：
$p_i=\beta_0+\beta_1 X_i$ ...... (10)
的方差为：
$=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i )$ ...... (11)
当在 $X_{i}$ 处固定时， $\varepsilon_{i}$ 方差等于相应的 $Y_{i}$ 的方差（见(1)式）。也是说， $\varepsilon_{i}$ 的方差随着的改变而改变——这与(3)式相矛盾！

由此可见，直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时，自变量的系数估计值会存在偏差。更为关键的一点是：从(10)中可以看出，当假设条件(1)、(2)成立时，的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1（或者小于0）的情形（如图3）——这一点无论是在理论上还是在实际计算的过程都行不通！因此，在处理因变量为二分类变量的情形时，较线性模型而言，Logistic模型的统计特性更好、计算更为方便。

图3：线性概率模型

预告：下一篇讲Logistic模型中的一个核心概念——Odds。

3. 参考文献：
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=135

©2021 上海优钧机械设备科技有限公司
沪ICP备19012247号-2

Best Last Month

2020/11/03 金融行情

2020/11/03 金融行情
Information industry

by wittx

A robotic platform for the synthesis of colloidal nanocrystals

A robotic platform for the synthesis of colloidal nanocrystals
Information industry

by wittx

新加坡量子通信芯片开发完成

新加坡量子通信芯片开发完成
Information industry

by wittx

机器人运动控制算法4

机器人运动控制算法4
Mechanical electromechanical

by wittx

警惕思维陷阱

警惕思维陷阱
Information industry

by wittx

Method for converting gravity force, spring force and force of permanent magnets in a rotary motion.

Method for converting gravity force, spring force and force of permanent magnets in a rotary motion.
Information industry

by wittx

模拟退火算法

模拟退火算法
Information industry

by show

让自己更优秀的16条成长法则

让自己更优秀的16条成长法则
Information industry

by wittx

储备池计算新突破：神经元更少，计算速度提升百万倍

储备池计算新突破：神经元更少，计算速度提升百万倍
Information industry

by wittx

量化投资策略与Smart Beta

量化投资策略与Smart Beta
Information industry

by wittx