290 likes | 441 Vues
四、拟合优度的度量. 用最小二乘法求得的回归直线方程,确定了 和 的具体变动关系,但实际观测值是不是紧密分布在其两侧?其紧密程度如何?这都关系到回归模型的预测值。因此,必须对回归直线的 拟合优度加以 测定。可决系数 便是测定直线回归模型拟合优度的一个重要指标。 拟合优度( Goodness of Fit ): 样本回归 直线 对样本观测值拟合的优劣程度 。. 拟合优度度量的基本思想. 样本 回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线 。从散点图上看,样本回归直线与样本观测值总是一定程度上存在或正或负的偏离。
E N D
四、拟合优度的度量 • 用最小二乘法求得的回归直线方程,确定了和的具体变动关系,但实际观测值是不是紧密分布在其两侧?其紧密程度如何?这都关系到回归模型的预测值。因此,必须对回归直线的拟合优度加以测定。可决系数便是测定直线回归模型拟合优度的一个重要指标。 • 拟合优度(Goodness of Fit): • 样本回归直线对样本观测值拟合的优劣程度。
拟合优度度量的基本思想 • 样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。从散点图上看,样本回归直线与样本观测值总是一定程度上存在或正或负的偏离。 • 样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上。
总离差平方和的分解 • 因变量的取值是不同的,取值的这种波动称为变差或离差。 • 变差来源于两个方面: • 自变量的取值不同造成的 • 除以外的其他因素(如对的非线性影响、测量误差等)的影响 • 对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差来表示。
总离差平方和的分解 (三个平方和的关系) • 从图上看有 • 两端平方后求和有 残差平方和SSE 回归平方和SSR 总离差平方和SST 由回归线未作出解释的离差平方和 由回归线作出解释的离差平方和
将式子 • 两边同除以,得 可决系数 未由回归线作出解释的离差平方和在总离差平方和中的比重 由样本回归作出解释的离差平方和在总离差平方和中的比重
对可决系数的理解 • 可决系数 • 衡量的是回归方程整体的拟合度,是表达因变量与所有自变量之间的总体关系。 或
可决系数的特点 • 可决系数是非负的统计量; • 可决系数取值范围: • 可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量; • 在一元线性回归中,可决系数在数值上是简单线性相关系数的平方: • 所以,可决系数也可以表示为:
可决系数与相关系数的区别 • 可决系数是就估计的回归模型而言,度量回归模型对样本观测值的拟合程度;相关系数是就两个变量而言,说明两个变量的线性依存程度。 • 可决系数度量的是自变量与因变量不对称的因果关系;相关系数度量的是不考虑是否有因果关系的相关关系。 • 可决系数具有非负性,取值范围是;相关系数可正可负,取值范围是。
可决系数与估计标准误差 • 二者之间的关系 其中: 返回7.2目录
7.3教学要求 • 掌握回归系数显著性的𝒕检验; • 理解回归系数的值的意义; • 会用一元线性回归模型进行预测。
回归系数显著性的𝒕检验 一元线性回归模型的预测 7.3 线性回归的显著性检验与回归预测 一 二 TO:本章内容
一、回归系数显著性的检验 • 目的 • 根据样本回归估计的结果对总体回归函数的回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。 • 思想 • 是未知的,而且不一定能获得大样本,这时可以用的无偏估计代替去估计参数的标准误差。
用估计的参数标准误差对估计的参数作标准化变换,所得的统计量将不再服从正态分布,而是服从分布用估计的参数标准误差对估计的参数作标准化变换,所得的统计量将不再服从正态分布,而是服从分布 • 可利用分布进行有关的假设检验。通常更关注对参数的检验。
回归系数显著性 检验的步骤 • 提出假设 • 一般假设: • 常用假设: • 计算统计量 其中:
给定显著性水平,确定临界值 • 检验结果判断 • 若,则拒绝原假设 • 若,则不拒绝原假设
回归系数显著性的值检验——值的意义 • 在既定原假设下计算出回归系数的统计量以后,由分布的性质可求得统计量大于的概率: • 这里的是统计量大于值的概率,是尚不能拒绝原假设的最大显著水平,称为所估计的回归系数的值。
回归系数显著性的值检验——检验方法 • 将所取的显著性水平与值对比 • 若,就可在显著性水平下拒绝 • 若,应在显著性水平下不拒绝 返回7.3目录
二、一元线性回归模型预测 • 对平均值的点预测值 • 的个别值的置信度为的预测区间 其中:
因变量的区间预测的特点 • 个别值的预测区间大于平均值的预测区间 • 的均值的预测值与其真实均值有误差,主要是受抽样波动影响;的个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响 • 对的预测区间随变化而变化 • 时,,此时预测区间最窄; • 越是远离,越大,预测区间越宽。
预测区间与样本容量有关 • 样本容量越大,越大,预测误差的方差越小,预测区间也越窄。 • 当样本容量趋于无穷大(即)时, 不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只取决于随机扰动的方差。
一元线性回归模型预测例题 • 抽测10名15岁男生的身高()与体重()数据如下表所示,试作回归分析,并计算身高时,体重的95%预测区间。
解:(1)相关分析 • 计算相关系数 • 对相关系数进行显著性检验 (体重与身高之间线性相关性不显著) (体重与身高之间线性相关性显著) 由于,所以体重与身高之间线性相关性显著
(2)建立一元线性回归方程 求得: • (3)回归系数的显著性检验 提出假设: 以下过程略
(3)区间预测 其中:
根据已知条件计算得: ,, • 查表得: 返回7.3目录
总结:一元线性回归预测法的步骤 • 准备工作:确定预测目标;寻找影响因素;收集整理资料 • 进行相关分析 • 利用相关图或相关表,判断相关关系,计算相关系数 • 建立回归模型: • 求解模型参数和 • 线性回归的各项基本假定 • 一元线性回归的最小二乘估计 • 对回归预测模型进行检验 • 拟合优度检验:可决系数与估计标准误差 • 显著性检验:检验 • 利用回归模型进行预测:点预测和区间预测
相关分析和回归分析时应注意的问题 • 对变量进行相关与回归分析,要有实际意义。 • 先作相关分析,相关显著时,再建立回归方程。 • 回归方程的运用范围为自变量的原取值范围,不可随意外推。 • 对的回归方程与对的回归方程是不同的方程,不可互推。 • 相关分析与回归分析只适用于正态分布或近似正态分布的变量。
Thanks. Any questions?