第四章多元线性回归模型

第四章多元线性回归模型

第一节多元线性回归模型的概念 • 在许多实际问题中，我们所研究的因变量的变动可能不仅与一个解释变量有关。因此，有必要考虑线性模型的更一般形式，即多元线性回归模型： • t=1,2,…,n • 在这个模型中，Y由X1、X2、X3、… XK所解释，有K+1个未知参数β0、β1、β2、…βK 。 • 这里，“斜率”βj的含义是其它变量不变的情况下，Xj改变一个单位对因变量所产生的影响。

例1： 其中，Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数用美国1959-1983年的数据，得到如下回归结果（括号中数字为标准误差）： Y和X的计量单位为10亿美元 (按1972不变价格计算).

多元线性回归模型中斜率系数的含义 • 上例中斜率系数的含义说明如下： • 价格不变的情况下，个人可支配收入每上升10亿美元（1个billion），食品消费支出增加1.12亿元（0.112个 billion）。 • 收入不变的情况下，价格指数每上升一个点， • 食品消费支出减少7.39亿元（0.739个billion）

例2： • 其中，Ct=消费，Dt=居民可支配收入 • Lt=居民拥有的流动资产水平 • β2的含义是，在流动资产不变的情况下，可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。 • 收入变动对消费额的总影响=直接影响+间接影响。 • （间接影响：收入影响流动资产拥有量影响消费额） • 但在模型中这种间接影响应归因于流动资产，而不是收入，因而，β2只包括收入的直接影响。 • 在下面的模型中： • 这里，β是可支配收入对消费额的总影响，显然β和β2的 • 含义是不同的。

回到一般模型 t=1,2,… ，n 即对于n组观测值，有

其矩阵形式为： 其中

第二节多元线性回归模型的估计 • 多元线性回归模型的估计与双变量线性模型类似，仍采用OLS法。当然，计算要复杂得多，通常要借助计算机。理论推导需借助矩阵代数。下面给出普通最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。 • 一．假设条件 • （1）E(ut)=0, t=1,2,…,n • （2）E(ui uj)=0, i≠j • （3）E(ut2)=σ2, t=1,2,…,n • （4）Xjt是非随机量， j=1,2, … k t=1,2, … n

除上面4条外，在多个解释变量的情况下，还有两个条件需要满足：除上面4条外，在多个解释变量的情况下，还有两个条件需要满足： • （5）（K+1）< n; • 即观测值的数目要大于待估计的参数的个数 • （要有足够数量的数据来拟合回归线）。 • （6）各解释变量之间不存在严格的线性关系。 • 上述假设条件可用矩阵表示为以下四个条件：

A1. E(u)=0 • A2. • 由于 • 显然，仅当 • E(ui uj)=0 , i≠j • E(ut2) = σ2, t=1,2,…,n • 这两个条件成立时才成立，因此，此条件相当前面条件(2), (3)两条，即各期扰动项互不相关，并具有常数方差。

A3. X 是一个非随机元素矩阵。 • A4. Rank(X) = (K+1) < n.------相当于前面 (5) • 、 (6) 两条 • 即矩阵X的秩 =（K+1)< n • 当然，为了后面区间估计和假设检验的需要，还要加上一条： • A5. ～，t=1,2,…n

二．最小二乘估计 • 我们的模型是： • t=1,2,…n • 问题是选择，使得残差平方和最小。 • 残差为：

要使残差平方和 为最小，则应有：我们得到如下K+1个方程（即正规方程）：

按矩阵形式，上述方程组可表示为：

三. 最小二乘估计量的性质 我们的模型为估计式为 1．的均值

（由假设3） (由假设1) 即这表明，OLS估计量是无偏估计量。

2．的方差 为求Var( )，我们考虑

不难看出，这是 的方差-协方差矩阵，它是一个(K+1)×(K+1)矩阵，其主对角线上元素为各系数估计量的方差，非主对角线上元素为各系数估计量的协方差。

由上一段的(4.5)式，我们有 因此

请注意，我们得到的实际上不仅是 的方差，而且是一个方差-协方差矩阵，为了反映这一事实，我们用下面的符号表示之：为方便起见，我们也常用Var( )表示的方差-协方差矩阵，因此上式亦可写作：需要注意的是，这里不表示方差向量，而是方差-协方差矩阵。

3． 2的估计 • 与双变量线性模型相似， 2的无偏估计量是 • 分母是的自由度，这是因为我们在估计 • 的过程中，失去了（K+1）个自由度。 • 4．高斯-马尔科夫定理 • 对于以及标准假设条件A1－A4， • 普通最小二乘估计量是最佳线性无偏估计量（BLUE）

我们已在上一段中证明了无偏性，下面证明线性和最小方差性。证明的路子与双变量模型中类似，只不过这里我们采用矩阵和向量的形式。我们已在上一段中证明了无偏性，下面证明线性和最小方差性。证明的路子与双变量模型中类似，只不过这里我们采用矩阵和向量的形式。 • 由OLS估计量的公式 • 可知, 可表示为一个矩阵和因变量观测值向量的乘积： • 其中是一个 (K+1)*n 非随机元素矩阵。 • 因而是线性估计量。

现设为 的任意一个线性无偏估计量，即其中是一个(K+1)*n非随机元素矩阵。则显然，若要为无偏估计量，即，只有，为（K+1）阶单位矩阵。

的方差为： 我们可将写成从而将的任意线性无偏估计量与OLS估计量联系起来。

由可推出： 即因而有由从而，因此上式中间两项为0，我们有

因此最后的不等号成立是因为为半正定矩阵。这就证明了OLS估计量是的所有线性无偏估计量中方差最小的。至此，我们证明了高斯-马尔科夫定理。

第三节拟合优度 • 一．决定系数R2 • 对于双变量线性模型 • Y=α+βX + u • 我们有 • 其中， =残差平方和

对于多元线性模型 我们可用同样的方法定义决定系数：为方便计算，我们也可以用矩阵形式表示R2

我们有：残差其中， 残差平方和：

而将上述结果代入R2的公式，得到：这就是决定系数 R2 的矩阵形式。

二．修正决定系数： 残差平方和的一个特点是，每当模型增加一个解释变量，并用改变后的模型重新进行估计，残差平方和的值会减小。由此可以推论，决定系数是一个与解释变量的个数有关的量：解释变量个数增加 减小 R2增大也就是说，人们总是可以通过增加模型中解释变量的方法来增大 R2的值。因此，用 R2来作为拟合优度的测度，不是十分令人满意的。为此，我们定义修正决定系数（Adjusted）如下：

是经过自由度调整的决定系数，称为修正决定系数。是经过自由度调整的决定系数，称为修正决定系数。我们有：（1）（2）仅当K=0时，等号成立。即（3）当K增大时，二者的差异也随之增大。（4）可能出现负值。

三．例子 • 下面我们给出两个简单的数值例子，以帮助理解这两节的内容. • 例1 Yt = 1 + 2X2 t + 3X3 t + u t • 设观测数据为：Y： 3 1 8 3 5 • X2：3 1 5 2 4 • X3：5 4 6 4 6 • 试求各参数的OLS估计值，以及。 • 解：我们有

例2. 设 n = 20, k = 3, R2 = 0.70 ，求。 解：下面改变n的值，看一看的值如何变化。我们有若n = 10，则 = 0.55 若n = 5，则 = - 0.20 由本例可看出，有可能为负值。这与R2不同（）。

第四节非线性关系的处理 迄今为止，我们已解决了线性模型的估计问题。但在实际问题中，变量间的关系并非总是线性关系，经济变量间的非线性关系比比皆是。如大家所熟悉的柯布-道格拉斯生产函数: 就是一例。在这样一些非线性关系中，有些可以通过代数变换变为线性关系处理，另一些则不能。下面我们通过一些例子来讨论这个问题。

一. 线性模型的含义 • 线性模型的基本形式是: • 其特点是可以写成每一个解释变量和一个系数相乘的形式。 • 线性模型的线性包含两重含义： • （1）变量的线性 • 变量以其原型出现在模型之中，而不是以X2或Xβ之类的函数形式出现在模型中。 • （2）参数的线性 • 因变量Y是各参数的线性函数。

二．线性化方法 • 对于线性回归分析，只有第二种类型的线性才是重要的，因为变量的非线性可通过适当的重新定义来解决。例如，对于 • 此方程的变量和参数都是线性的。

参数的非线性是一个严重得多的问题，因为它不能仅凭重定义来处理。可是，如果模型的右端由一系列的Xβ或eβX项相乘，并且扰动项也是乘积形式的，则该模型可通过两边取对数线性化。参数的非线性是一个严重得多的问题，因为它不能仅凭重定义来处理。可是，如果模型的右端由一系列的Xβ或eβX项相乘，并且扰动项也是乘积形式的，则该模型可通过两边取对数线性化。例如，需求函数其中，Y=对某商品的需求 X=收入 P=相对价格指数 ν=扰动项可转换为：

用X,Y,P的数据，我们可得到logY,logX和logP,从而可以用OLS法估计上式。用X,Y,P的数据，我们可得到logY,logX和logP,从而可以用OLS法估计上式。 logX的系数是β的估计值，经济含义是需求的收入弹性，logP的系数将是γ的估计值，即需求的价格弹性。弹性（elasticity）是一变量变动1%所引起的另一变量变动的百分比。其定义为本例中，需求的收入弹性是收入变化1%，价格不变时所引起的商品需求量变动的百分比。需求的价格弹性是价格变化1%，收入不变时所引起的商品需求量变动的百分比。

三．例子 • 例1 需求函数 • 本章§1中，我们曾给出一个食品支出为因变量，个人可支配收入和食品价格指数为解释变量的线性回归模型例子（例4.1）。现用这三个变量的对数重新估计（采用同样的数据），得到如下结果（括号内数字为标准误差）： • 回归结果表明，需求的收入弹性是0.64,需求的价格弹性是-0.48，这两个系数都显著异于0。

例2．柯布-道格拉斯生产函数 • 用柯布和道格拉斯最初使用的数据（美国1899-1922年制造业数据）估计经过线性化变换的模型 • 得到如下结果（括号内数字为标准误差）： • 从上述结果可以看出，产出的资本弹性是0.23，产出的劳动弹性为0.81。

例3．货币需求量与利率之间的关系 • M = a(r - 2)b • 这里，变量非线性和参数非线性并存。 • 对此方程采用对数变换 • logM=loga+blog(r-2) • 令Y=logM, X=log(r-2), β1= loga, β2=b • 则变换后的模型为： • Yt=β1+β2Xt + ut

将OLS法应用于此模型，可求得β1和β2的估计值 ，从而可通过下列两式求出a和b估计值： • 应当指出，在这种情况下，线性模型估计量 • 的性质（如BLUE,正态性等）只适用于变换后的参数估计量，而不一定适用于原模型参数的估计量和。

例4．上例在确定货币需求量的关系式时，我们实际上给模型加进了一个结束条件。根据理论假设，在某一利率水平上，货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件，而是从给定的数据中估计该利率水平的值，则模型变为：例4．上例在确定货币需求量的关系式时，我们实际上给模型加进了一个结束条件。根据理论假设，在某一利率水平上，货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件，而是从给定的数据中估计该利率水平的值，则模型变为： • M = a(r - c)b • 式中a,b,c均为参数。仍采用对数变换，得到 • log(Mt) = loga + blog(rt - c) + ut t=1,2,…,n • 我们无法将log(rt-c)定义为一个可观测的变量X, 因为这里有一个未知量c。也就是说，此模型无法线性化。在这种情况下，只能用估计非线性模型参数值的方法。

第四章 多元线性回归模型