550 likes | 820 Vues
第七章 主成分分析. 第一节 引言. 主成分分析(或称主分量分析)是一种通 过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。. 主成分分析的一般目的是: (1) 变量的降维; (2) 主成分的解释。. 为便于对主成分分析的理解,我们考虑(间隔) 变量个数 的情形,假设共有 n 个样品, 每个样品都测量了两个变量( ),它们 大致分布在一个椭圆内,如图 7.1.1 所示。显然 在坐标系 中, n 个点的坐标 和 呈现
E N D
第七章 主成分分析 第一节 引言 主成分分析(或称主分量分析)是一种通 过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。 主成分分析的一般目的是: (1)变量的降维; (2)主成分的解释。
为便于对主成分分析的理解,我们考虑(间隔)为便于对主成分分析的理解,我们考虑(间隔) 变量个数 的情形,假设共有n个样品, 每个样品都测量了两个变量( ),它们 大致分布在一个椭圆内,如图7.1.1所示。显然 在坐标系 中,n 个点的坐标 和 呈现 某种线性相关性。我们将该坐标系按逆时针方 向旋转某个角度 变成新坐标系 。
是椭圆的长轴方向, 是短轴方向。 旋转公式为 . 图 7.1.1
设 为一个 维随机向量, 并假设二阶矩存在,记 。 考虑如下的线性变换 第二节 总体的主成分 一、主成分的定义及导出
将 限制为单位向量,即 , 希望在此约束条件下寻求向量 ,使得 达到最大, 就称为第一主 成分。 由于对任意的常数k ,有 如果不对 加以限制,就不能保证 是 的一切线性函数中方差最大的。
设 (因为 非负定) 为 的特征值, 为相应的单位特 征向量,且相互交叉。则由(1.6.1)式知, 其中 为正交矩阵。
当取 时,有 所以, 就是所求的第一主成分,它的方差具有最大值 。 由于
如果第一主成分所含信息不够多,还不足以 代表原始的 个变量,则需考虑使用 ,在 约束条件 和 下寻求向 量 ,使得 达到最大,所求 得 称为第二主成分。 类似的,我们可以再定义第三个主成分, ,第 个主成分。
一般来说, 的第 个主成分 是指: 在约束条件 和 下寻求 ,使得 达到最大。 现在来求第二主成分,有(7.2.5)式知 于是
若取 ,则有 所以, 就是所求的第二主成分,具有方差 。 从而
由于 故 二、主成分的性质 1、主成分的均值和协方差矩阵 记
由于 所以 或 由此可以看出,主成分分析把 个原始变量 的总方差 分解成了 个不 相关变量 的方差之和 。 2、主成分的总方差
总方差属于第 个主成分 (或被 所解释)的比例为 称为主成分 的贡献率。第一主成分 的贡 献率最大,表明它解释原始变量 的能力最强,而 的解释能力依 次递减。
前 个主成分的贡献率之和 称为主成分 的累积贡献率,它 表明 解释 的能力。 通常取(相对于 )较小的 ,使得累计 贡献达到一个较高的百分比(80%~90%)。
3、原始变量 与主成分 之间的相关系数 由(7.2.7)式知 即 所以
4、 个主成分对原始变量的贡献率 与 的复相关系数的平方、 称为 个主成分 对原始变量 的贡献率,记为 。 由(3.3.15)式知
由 式知, 对 的贡 献率 ,所以
例 7.2.1 设 的协方差矩阵为 其特征值为 相应的特征向量为
若只取一个主成分,则贡献率为 进一步计算主成分对每一个原始变量的贡献率,并列于表7.2.1中。 表7.2.1
可见, 对第三个变量的贡献率为零,这 是因为 与 和 都不相关,在 中未包 含一点有关 的信息,这时仅取一个主成分 就显得不够了,故应再取 ,此时累积贡献 率为: 对每一个变量 贡献率分别为 , 都比较高。
(7.2.7)式也可以表达为 称 为第 主成分 在第 个原始变量 上的载荷,它度量了 对 的重要程度。 在解释主成分时,我们需要考察载荷,同时 也应考察一下相关系数。由(7.2.14)式知, 相关系数 是与载荷 成正比的。 5 、 原始变量对主成分的影响
由于 ,故 实际上是 的 加权平均,大的 倾向于 中前几个有较小的绝对值;相反, 小的 倾向于 中前几个有较 小的绝对值,而后几个有较大的绝对值。 由(7.2.16)式知
因此,从 式可见,方差大的那些变 量与具有大特征值的主成分有较密切的联系, 而方差小的另一些变量与具有小特征值的主 成分有较强的联系。通常我们取前几个主成 分,因此所取主成分会过于照顾方差大的变 量,而对方差小的变量却照顾的不够。
因此,当 在总方差 中占有 大的比例时,第一主成分 将有(更加)大 的贡献率。 从(7.2.17)式容易看出
例 7.2.2 设 的协方差矩阵为 经计算, 的特征值及特征向量为
可见,方差大的原始变量 在很大程度上控制 了第一主成分 ,方差小的原始变量 几乎完 全控制了第三主成分 ,方差介于中间的 则基本控制了第二主成分 。 相应的主成分分别为
的贡献率为 这么高的贡献率首先归因于 的方差比 和 的方差大得多,其次是 相互 之间存在着一定的相关性。 的特征值相对 较小,表明 之间有这样一个线性依 赖关系: 其中 为一常数
显然 , 的协方差矩阵 就是 的相关矩阵 。 三、从相关矩阵出发求主成分 为使主成分分析能够均等的对待每一个原始变量,(单位不全相同时)消除由于单位的不同而可能带来的一些不合理的影响,常常将各原始变量作标准化处理,即令
设 为 的 个特征 值, 为相应的单位特征向量,且 相互正交,则 个主成分为 记 于是
即有 上述主成分具有的性质可概括如下:
因此,在解释主成分 时,由相关矩阵 求得的载荷 和相关系数 所起的作用 是完全相同的。
例 7.2.3 在例7.2.2中, 的相关矩阵 的特征值及特征向量为
的贡献率为 和 累积贡献率为 相应的主成分分别为
设数据矩阵为 第三节 样本的主成分
其中 为样本均值。可以用 代替 。用 代替 ,然后从 或 出发按类 似于上一节的方法求得样本主成分。 则样本协方差矩阵和样本相关矩阵分别为
一、从 出发求主成分 设 为 的特征值, 为相应的单位特征向量,且彼此 正交。则第 样本主成分为 ,它具 有样本方差 ,各主成分之间 的样本协方差为零。
与 的样本相关系数 其中 此外,样本总方差
在实际应用中,常常让 减去 ,使样本数据中心化。这不影响样本协方差矩阵 ,在前面的论述中唯一需要变化的是,将第 主成分改写成中心化的形式,即 若将各观察值 代替上式中的观察值向量 ,则第 主成分的值 称之为观察值 的第 主成分得分。
二、从 出发求主成分 设样本相关矩阵 的 个特征值为 为相应 的正交单位特征向量,则第 个样本主成分 其中 是各分量经(样本)标准化了的向量, 即
令 这是 的各分向量数据经标准化后的数据向 量,将其代替(7.3.6)式中的 ,即得观察 值 在第 主成分上的得分 所有观察值的平均主成分得分
例7.3.1 在制定服装标准的过程中,对128 名成年男子的身高进行了测量,每人测得的 指标中含有这样六项:身高 、坐高 、 胸围 、手臂长 、肋围 和腰 围 。所得样本相关矩阵列于表7.3.1 。
经计算,相关矩阵 的前三个特征值、相应的特征向量以及贡献率列于表7.3.2 表7.3.1 男子身材六项指标的样本相关矩阵
表7.3.2 的前三个特征值、特征向量以及贡献率
由于 非常小,所以存在这样一个共线性关系: 为了研究六个原始变量间是否存在共线性,我 们需要看一下最后一个主成分,计算结果为
例 7.3.2 对例6.3.3中的数据从相关矩阵出发进 行主成分分析。经计算, 的样本 相关矩阵 列于表7.3.3。 的前三个特征值、 特征向量以及贡献率列于表7.3.4。
表7.3.4 的前三个特征值、特征向量以及贡献率