870 likes | 971 Vues
第九章 线性回归分析与方差分析. 第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析. 第一节 一元线性回归分析. 在许多实际问题中,我们常常需要研究多个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流 I 电压 V 电阻 R 之间有关系式 V=IR 。 另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。.
E N D
第九章 线性回归分析与方差分析 第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析 在许多实际问题中,我们常常需要研究多个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流I电压V电阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。
例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。 又如,人的身高与体重之间存在一种关系,一般来说,人身高越高,体重越大, 但同样高度的人,体重却往往不同。这种变量之间的不确定性关系称之为相关关系。 对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律, 数理统计中研究变量之间相关关系的一种有效方法就是回归分析。
一、 一元线性回归模型 假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普通的变量。由于自变量x给定后,因变量Y并不能确定,从而Y是一个与x有关的随机变量 我们对于可控制变量x取定一组不完全相同的值x1,…,xn,作n次独立试验,得到n对观测结果: (x1,y1) ,(x2,y2),…,(xn, yn) 其中yi是x=xi时随机变量Y的观测结果.将n对观测结果(xi,yi)(i=1,…,n)在直角坐标系中进行描点,这种描点图称为散点图.散点图可以帮助我们精略地看出Y与x之间的某种关系.
例1对某广告公司为了研究某一类产品的广告费x用与其销售额Y之间的关系,对多个厂家进行调查,获得如下数据 广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。
这样,Y可以看成是由两部分叠加而成,一部分是x的线性函数a+bx,另一部分是随机因素引起的误差 ,即 y 这就是所谓的 一元线性回归模型 500 L * * 400 * * 300 * * 200 Y=a+bx+ * 100 * * x o 20 40 60 100 80 120 画出散点图如图9-1所示.从图中可以看出,随着广告投入费x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响. 图9-1
为随机误差且 未知, 此时 (1) 一般地,假设x与Y之间的相关关系可表示为 其中:a, b为未知常数 x与Y的这种关系称为一元线性回归模型 y=a+bx称为回归直线 b称为回归系数 对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
如果由样本得到式(1)中,a, b的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计 一元线性回归主要解决下列一些问题: (1)利用样本对未知参数a、b、 进行估计; (2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间估计.
记 最小二乘法就是选择a,b的估计 ,使得 Q(a, b)为最小(图9-2) 二、 参数a、b、 的估计 现在我们用最小二乘法来估计模型(1)中的未知参数a,b. 称Q(a, b)为偏差平方和
(2) 为了求Q(a, b)的最小值,分别求Q关于a,b的偏导数,并令它们等于零: 经整理后得到 式(2)称为正规方程组.
由正 规方程组解得 其中
用最小二乘法求出的估计 、分别称为a、b的最小二乘估计 此时,拟合直线为 下面再用矩法求 的估计 由于 由矩估计法,可用 估计 ,a、b分别由 、 代入 而 作估计 故 可用
对于估计量 、 、 的分布,有: (1) (2) (3) (4) 分别与 、 独立。 定理1
例2在例1中可分别求出a、b、 的估计值为: 故经验回归直线为: Y=4.37+0.323x
在实际问题中,事先我们并不能断定Y与x确有线性关系,Y=a+bx+ 只是一种假设. 三、线性回归的显著性检验 当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断. 但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验. 下面说明这一检验的方法.
若假设Y=a+bx+ 符合实际,则b不应为零 因为如果b=0,则Y=a+ 意味着Y与x无关 H0: b=0 所以Y=a+bx是否合理,归结为对假设: 进行检验 下面介绍检验假设H0的二种常用方法.
且 与 独立 1.t检验法 若H0成立,即b=0,由定理7.1知,
因而 故 为显著性水平 即得H0的拒绝域为
相关系数检验法是工程技术中广泛应用的一种检验方法相关系数检验法是工程技术中广泛应用的一种检验方法 可以推出:在显著性水平 下,当 时拒绝H0 其中临界值 在附表8中给出 2.相关系数检验法 取检验统计量 通常称R为样本相关系数. 类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系.
当假设 被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著; 若接受H0,则认为Y与x的关系不能用一元线性回归模型来描述,即回归效果不显著. (1)x对Y没有显著影响; (2)x对Y有显著影响,但这种影响不能用线性相关关系来描述; (3)影响Y取值的,除x外,另有其他不可忽略的因素. 此时,可能有如下几种情形: 因此,在接受H0的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用.
四、 预测 当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测. 即当x=x0时,对Y作区间估计. 设当x=x0时Y的取值为y0,有 可以取经验回归值
作为y0的预测值.可以证明 从而可得
所以,给定置信概率 ,Y0的置信区间为 可以看出在x0处y的置信区间的长度为 当 时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差。 其中
当n很大且x0位于 附近时,有 于是y0的置信概率为 的预测区间近似为
例3检验例2中的回归效果是否显著,当x0=80时,求出Y0的预测区间。例3检验例2中的回归效果是否显著,当x0=80时,求出Y0的预测区间。 于是,当x0=80时,y0的预测值为 解 经计算 T=16.9 r=0.98 查表,得 t0.025(9)=2.26 r0.05=0.602 易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。 y0的95%的预测区间为(24.73,35.69)
第二节 可线性化的非线性回归 在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围: 或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系. 下面举例说明对这类问题用线性化处理的方法。
图9-3 例1在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中11个样本数据如下所示: 解 根据这11个样本数据点 (xi,yi)作出散点图(图9-3). 从散点图上看出,这些数据点在一条曲线L周围.
令 即有: 根据有关的专业知识,结合散点图,可以认为曲线L大致为: 对上式两边取对数:
于是数据( )相应地变换成( ) 20.00 16.67 14.29 10.00 7.14 5.00 4.00 3.23 2.63 2.33 2.13 将变换后的数据点( )画出散点图(图9-4) -2.30 -1.97 -1.47 -0.99 -0.53 -0.24 0.00 0.11 0.17 0.22 0.25 从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析. 利用一元线性回归的方法可以计算出 与 的经验回归方程为 图9-4
这里a=0.58,b= -0.15 所以 可求得x与y之间相关关系的一个经验公式:
例2赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:例2赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录: 距离x(米) 100 200 400 800 1000 1500 时间t(分′秒″) 9.95″ 19.72″ 43.86″ 1′42.4″ 2′13.9″ 3′32.1″ 试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。
图9-5 解 根据记录数据点(xi,ti)作出散点图(图9-5) 从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。 我们用一无线性回归分析,可计算出x与t间的线性回归模型为 t=-99.9+0.1455x
由此模型,当x=100,200,400,800,1000,1500(米)时, t的理论值分别为: 4.56″, 19.10″,48.20″,1'46.4″,2'15.5″,3'28.2″ 可以看出t的理论值与实际记录数据多数都比较接近。 仔细分析,可发现线性回归模型的一些不合理之处。 如:当赛跑距离小于68米时,所需时间为负值; 当赛跑距离为100米时所需时间只须4.56″. 再仔细分析,发现:短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值. 它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:t=axb
令 t′=lnta′=lnax′=lnx 得 t′= a′+bx 为一线性关系 它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。 具有这种性质的最简单曲线当属幂函数: t=axb 对上式二边取对数 lnt=lna+blnx
用一元线性回归分析估计a′、b,从而算出 最后可得t与x间的幂函数模型: t=0.48x1.145 当x=100,200,400,800,1000,1500(米)时, 利用幂函数模型算出t的理论值分别为: 9.39″,20.78″,45.96″,1'41.68″, 2'11.29′,3'28.88″ 比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系。
设 其中b0,b1,…,bp, 为与x1,…,xp无关的未知参数。 第三节 多元线性回归简介 假定要考察p个自变量x1,x2,…,xp与因变量Y之间的相关关系。 这就是p元线性回归模型
( ) i=1,…,n 对变量x1,…xp,Y作n次观测得到样本值: 这里y1,…,yn独立、同分布,且有 为了简化数学处理,引进矩阵表示,记
i=1,…,n 用最小二乘法求未知参数的估计,即参数 应使 则等式 可表示为 为最小
根据高等数学中求最小值的方法,可求得b0,b1,…,bp的估计:根据高等数学中求最小值的方法,可求得b0,b1,…,bp的估计: 从而得到Y与x1,…,xp的经验回归方程:
类似于一元线性回归,多元线性回归模型的假设是否符合实际,同时需要进行假设检验。 另外,在实际问题中,影响因变量Y的因素往往很多.如果将它们都取作自变量,必然会导致所得到的回归方程很复杂。 因而,我们应剔除那些对Y影响较小的自变量,保留对Y有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识。 在此我们对多元性回归分析作一简单介绍.在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍。
习题9—1、2、3 1.在一元线性回归模型中,试证:未知参数a、b的最小二乘估计恰是极大似然估计. 2.通过原点的一元线性回归模型为 试由独立样本观测值(xi, yi)(i=1,2,…,n),采用最小二乘法估计b.
3.为了研究钢线含碳量(单位:%)x对于电阻(单位:微欧)Y在20℃下的效应,作了7次试验,得数据如下:3.为了研究钢线含碳量(单位:%)x对于电阻(单位:微欧)Y在20℃下的效应,作了7次试验,得数据如下: ① 画出散点图; ② 求出经验回归方程; ③ 试求相关系数R的值,并在显著性水平 下检验 。
4.某种产品在生产时产生的有害物质的重量(单位:克)Y与它的燃料消耗量(单位:千克)x之间存在某种相关关系。由以往的生产记录得到如下数据。4.某种产品在生产时产生的有害物质的重量(单位:克)Y与它的燃料消耗量(单位:千克)x之间存在某种相关关系。由以往的生产记录得到如下数据。 ① 求经验回归方程; ② 试进行线性回归的显著性检验( ); ③ 试求x0=340时Y0的预测区间( )。
5.气体的体积(单位:立方米)v在压力(单位:标准大气压)p之间的一般关系为pvk=c. 今对某种气体测试到下列数据: 试对参数k,c进行估计.
6.今有4个物体,按下述方法称重,得到如下数据:6.今有4个物体,按下述方法称重,得到如下数据: 其中1表示该物体放在天平左端,-1表示该物体放在天平右端,Y是使天平达到平衡时,在天平右端所加砝码的重量。试用最小二乘法估计这4个物体的重量。
第四节 方差分析 一、单因素方差分析 在实际问题中,影响一事物的因素往往是很多的。 例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、反映时间等因素,每一因素的改变都有可能影响产品的质量。 有些因素影响较大,有些影响较小. 方差分析就是根据试验的结果进行分析,鉴别各有关因素对试验结果影响的有效方法。
在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为因素在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为因素 因素所处的状态称为该因素的水平 如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验. 我们先讨论单因素试验
例1某消防队要考察4种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器5个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下:例1某消防队要考察4种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器5个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下: 这里,试验的指标是报警器的反应时间,报警器为因素。
4种不同型号的报警器是因素的4个不同水平。这是一个单因素试验.4种不同型号的报警器是因素的4个不同水平。这是一个单因素试验. 我们要考察: ①各种型号的报警器的反应时间有无显著性差异? ②如果各种型号的报警器的反应时间有显著性差异,那么何种型号的报警器最优?