第八章

第八章 方差分析

本章主要介绍方差分析的基本原理，单因子资料的方差分析方法，两因子资料的方差分析方法，方差分析的基本假定和数据转换本章主要介绍方差分析的基本原理，单因子资料的方差分析方法，两因子资料的方差分析方法，方差分析的基本假定和数据转换

第一节方差分析的基本概念

第六章中，我们已经介绍了两个样本所属总体平均值的假设检验可用 t-test 或 u-test来检验其差异性但在大多数情况下，我们的试验有 3 个或 3个以上的样本需要进行比较如果这许多样本都只和对照组相比，我们仍然可以使用t-test或 u-test进行，但如果需要样本之间两两相比较的话，就不能使用 t-test或 u-test进行了其理由有以下几个：

1、当有 k个样本所属总体的平均值相互两两比较，就需作次比较，即作假设检验例如有 10 个样本平均值相比较，即需作次比较，其工作量相当繁琐 2、假定每一样本的容量均为 n，那么如果我们用t-test 来作两两比较时，每一差数的标准误就都只能由 2(n-1)来估计，而不能用总自由度 k(n-1)来估计总的标准误，这就使得误差估计的精确度受到一定的损失，即我们不能充分使用试验中所有的信息量，这是十分可惜的

3、这种两两比较会随着样本组数的增加而加大犯Ⅰ型错误的概率3、这种两两比较会随着样本组数的增加而加大犯Ⅰ型错误的概率假定我们要比较 5 个样本平均数，两两比较就会有个差数，对这10个差数如果我们都以进行假设检验，单独对每一差数进行检验时，每一差数获得正确结论的概率就是但这 10 个差数在一起进行比较、且都获得正确结论的概率就只有因此在 10 次比较中至少出现一个错误结论的概率就不再是

而是这么大的犯错率无论如何是不能容忍的这说明，当有多个样本相比较时，如果仍然采用 t-test 法，就大大地增加了犯Ⅰ型错误的概率因此此时再用 t-test法进行检验就不恰当了如何对个样本进行假设检验？这就是本章所要讨论的方差分析

什么叫方差？ 方差是对数据（或称资料）变异的度量方差的公式：总体：样本：一般总体方差称方差，样本方差称均方能使变量发生变异的原因很多，这些原因我们都将其称为变异因素或变异来源

方差分析就是发现各类变异因素相对重要性的一种方法方差分析就是发现各类变异因素相对重要性的一种方法方差分析的思路就是：把整个试验（设有 k 个总体）的样本资料作为一个整体来考虑把整个试验的总变异按照变异的来源分解成不同因素的变异由于方差等于平方和除以自由度，因此总方差分解成各因素的方差，就是将形成总方差的平方和和自由度分解为各因素的平方和和自由度然后对各个因素的方差作出数量上的估计，从而发现各个因素的方差的相对重要程度

从总方差中除去各可控因素所引起的方差后，剩余方差又可以准确地估计试验误差，作为统计假设检验的依据从总方差中除去各可控因素所引起的方差后，剩余方差又可以准确地估计试验误差，作为统计假设检验的依据因此，方差分析可以帮助我们抓住试验的主要矛盾和技术关键，发现主要的变异来源，从而抓住主要的、实质性的东西因此，方差分析是一种十分重要的统计工具此外，方差分析还有其他十分重要的用途，例如用于遗传分析，估计参数等方差分析中F分布的复习：

在一个总体中每次抽取两个样本，这两个样本的容量分别为 和，每个样本计算其均方，不断地抽样，就可以得到一系列的，这些 F值就形成了一个分布 F 分布是一簇曲线，每条曲线仅决定于和 F分布的平均数为，其分布范围为本书附表 6 是不同自由度、下的右尾概率0.05、0.01 的概率值下面我们按不同的数据结构来介绍方差分析方法

第二节方差分析的基本假定和数据转换

一、方差分析的基本假定 方差分析是建立在一些基本假定的基础上的这些基本假定是：（一）处理效应、误差效应是可加的，即方差分析是建立在线性可加模型的基础上的：（二）试验误差是独立的随机变量，且呈正态分布：（三）所有处理的误差方差均为同质：

即：数据的可加性 数据的正态性方差的同质性

二、数据的转换 一般情况下，我们所取得的数据能满足或基本满足这三个基本假定，但当数据不能或基本不能满足这三个基本假定时，就应当进行数据转换，使其满足这三个基本假定

数据转换有以下几种方法： （一）平方根转换法（square root transformation）当数据的平均值与均方成比例关系时，可将每一观测值 x 作此类转换，即当数据中有 0 或有接近于 0 的值时，取如数据为间断性变量，或成数、且其中有 >0.8、<0.2 的值时平方根转换的作用是减小极端大、或极端小的变量对均方的影响

（二）对数转换（logarithmic transformation） 数据表现为倍性、可乘性、或有比例关系（即非加性），为了消除这种倍性，可采用对数转换法对数转换的作用是将这种倍性转换成加性即或

（三）反正弦转换法（arc sine transformation） 当资料为百分率，呈二项分布、且其中有些值>0.7、或 <0.3时，应作反正弦转换，即但如果一批百分率均在 0.3~0.7之间，就不必转换我们前面有几个例题就是经过了这一转换后才进行方差分析的

将数据资料作上述转换后进行方差分析，得出结果以后应将数据再反转换回来：将数据资料作上述转换后进行方差分析，得出结果以后应将数据再反转换回来：

（四）采用小样本平均值作原始数据进行方差分析（mean of small sample）由于小样本平均数比单个观测值更易于服从正态分布，因而采用小样本平均值作为观测值进行方差分析可有效地减小数据不符合基本假定对方差分析的影响但这一方法必须在试验设计时即考虑到，即在试验时，将2至 4个试验动物同一性状的数值组成一个平均值，当作一个原始数据来使用，因此每一水平或每一组合应当有若干个这样的小群体

（五）数据方差的同质性检验 两个样本的方差相比较时，采用 F-test：当样本组数时，可用 -test完成：其中，为合并均方自由度为为校正值

当值显著时，即否定无效假设，表示各样本的均方间有显著或极显著的差异当一批资料的方差不同质（即异质）时，这批资料就不能进行方差分析，而必须将数据分为几个同质的部分分别进行方差分析

例：某些生殖激素影响鳙鱼的产卵量，得如下一级数据（此处平均数略去） ：组别（<100ng/mL） 31 8.06 64.9636 （100~118） 33 17.62 310.4644 （>118ng/mL） 32 4.98 24.8004 93 怀疑该批资料的方差不齐性，因此应作方差齐性的检验：

这批资料不同质，因此不能进行方差分析，即不能得到一个合并均方作为方差分析的误差均方这批资料不同质，因此不能进行方差分析，即不能得到一个合并均方作为方差分析的误差均方又由于资料本身仅为 3个水平，找不到同质的部分，因此这批资料只能作废，试验宣告失败应寻找原因，以利下次重做同类试验

第三节 单向分类资料的方差分析及其基本原理

所谓单向分类资料是指试验时仅考虑一个因素 A，除这一个被考虑的因素 A之外，其余因素都控制在同一个水平上这一个因素 A被分出若干个等级（又称为组），每一个等级就称为因素 A内的一个水平例如我们考察不同蛋白质种类的饲养效果，其余营养物质如能量、矿物质等试验者将其控制在同一个水平上，试验时仅选择几种需要考察的蛋白质进行比较这里，蛋白质种类就是因素 A，所选择的几种蛋白质就是水平：A1、A2、A3、…

又如，如果我们仅考察土霉素的疗效，那么其余药物我们都不考虑，仅将土霉素分为几种不同的剂量，那么土霉素就是因素A，不同的土霉素剂量就是水平，如 A1：0g、A2：0.1g、A3：0.2g、A4：0.3g、… 再如，考察不同品种鲤鱼的适应能力，其余条件如水温、饲料、药物、管理等都一样，但鲤鱼的品种不同，鲤鱼的品种就是所考察的因素 A，被我们所考察的每一个鲤鱼品种就是水平，如A1：黄河鲤、A2：荷元鲤、A3：锦鲤、A4：建鲤、… 这样的试验就是单向分组，所得到的结果就是单向分类资料（数据）

因素可以是数量型的，也可以是质量型的，如第一例中所考察的蛋白质种类和第三例中鲤鱼的品种就是质量型的，其划分的水平也是质量型的因素可以是数量型的，也可以是质量型的，如第一例中所考察的蛋白质种类和第三例中鲤鱼的品种就是质量型的，其划分的水平也是质量型的第二例中土霉素的剂量就是数量型的，其划分的水平也是数量型的单向分类资料又可以分为组内样本容量相等与组内样本容量不等两种情况

一、组内样本容量相等的单向分类资料 当每一组（每一个水平）内的试验动物相等，同时试验结束后每一组内的数据资料相等，这就是组内样本容量相等的情况（一）数据结构和数学模型方差分析是建立在一定的线性数学模型基础上的，所谓线性模型就是指每一个观测值都可以分割成若干个线性部分，这是方差分析中平方和、自由度剖分的理论依据

设从一个 中随机抽取一个样本，容量为，这一样本中每一观测值都可以写成：其中，为一随机误差，且如对这一总体施加效应为的处理，则总体平均值为，方差仍为，因此，这时，无偏估计，无偏估计

如果将的总体分成 个亚总体，每一亚总体给与一个效应为的处理。则每一亚总体的平均值就是：从每一亚总体中抽取样本容量均为的样本，则我们有个样本，这个样本的数据结构为：样本观测值和总和总平均 1 … … 2 … … …… … … …… … …

上表中任一观测值均具有线性模型： 且，，而（二）平方和及自由度的剖分对于整批资料来讲，可以得到一个总的方差：其中，称为总平方和称为总自由度

在第1个样本中，我们可得到： 在第2个样本中，我们可得到：在第个样本中，我们可得到：在第个样本中，我们可得到：这个平方和、自由度相加，就是误差项平方和、自由度：

样本间（或称处理间、组间）的变异就是这 个平均值的变异，其平方和、自由度就是：由于估计的是，而估计的是为了正确地进行 F检验，必须使这两个均方都估计同一个因此样本间的平方和应为：

这样，我们就有三个均方：总的、组间、组内 现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系

先考察第一个样本中每一观测值与总平均值的离差平方和：先考察第一个样本中每一观测值与总平均值的离差平方和：同理：第 2 个样本、…、第个样本、…、第个样本也有类似的等式：

将这个样本的平方和加起来，就得到： 即：总平方和 = 组内平方和 + 组间平方和或：总平方和 = 误差平方和 + 处理平方和同理：

在实际计算时（中间过程请同学们自行推导）：在实际计算时（中间过程请同学们自行推导）：其中：

（三）F检验 由于这两个均方同时独立地估计着总体方差因此可用来进行两个均方大小的检验如果对各亚总体各施加的效应不够大，间的距离就拉不开，组间均方就不会显著大于组内均方，F 值就达不到显著水平因此，可用来检验无效假设得到三个平方和、三个自由度后，可用表格的形式列出相应的均方（这就是方差分析表）：

方差分析表 变异来源处理间误差总变异这张方差分析表中，总变异的作用不大，因此不需要写出校正值需要注意的是：但

例：设计5种不同的饲料剂型饲养鲫鱼，每种饲料剂型饲喂6网箱鲫鱼（每网箱鱼规格、数量相同），试验结束后，统计每网箱鲫鱼的增重情况，得如下数据，试分析哪种饲料剂型的饲喂效果好？例：设计5种不同的饲料剂型饲养鲫鱼，每种饲料剂型饲喂6网箱鲫鱼（每网箱鱼规格、数量相同），试验结束后，统计每网箱鲫鱼的增重情况，得如下数据，试分析哪种饲料剂型的饲喂效果好？剂型观测值 Ⅰ 23 17 20 20 21 21 Ⅱ 18 16 19 18 14 21 Ⅲ 24 25 26 25 28 22 Ⅳ 27 21 23 19 24 23 Ⅴ 16 15 18 16 14 13

经计算，得一级数据如下： 剂型 Ⅰ 122 2500 20.33 3.88 Ⅱ 106 1902 17.67 5.86 Ⅲ 150 3770 25.00 4.00 Ⅳ 137 3165 22.83 7.34 Ⅴ 92 1426 15.33 3.06

设不全相等画方差分析表，将三个平方和、三个自由度填入表中：

方差分析表 变异来源不同剂型间 4 360.54 90.135 18.65 2.76 4.18 误差 25 120.83 4.830 总的（T） 29 481.37 在方差分析表中，“不同剂型间”也可以写成“组间”、“处理间”等；“误差”也可以写成“剂型内”等总的 MS一般不必写出，因为总 MS没有用如果所得 F 值不显著，就不需要打什么标记

（四）多重比较 当所得 F值显著、或极显著，表示从整体来讲剂型间存在着极显著的差异，但是不是所有的剂型都有极显著的差异？有没有差异不显著的两种剂型？如何才能知道是哪两种剂型间存在显著或极显著的差异？因此我们必须进行多重比较多重比较的方法很多，但总原则是：首先构造比较用的显著尺度第二步是将两个平均值的差数与相应的尺度相比较凡差值大于尺度的就是显著或极显著

多重比较的方法主要有：PLSD法、Q法、NK法、SSR法等多重比较的方法主要有：PLSD法、Q法、NK法、SSR法等 PLSD法就是在方差分析保护下的最小显著差数法，实际上就是 t-test法，但它是在方差分析显著的基础上进行的两两比较，它所使用的是方差分析中得到的组内均方，因此其尺度值公式是：其中，为组内自由度下水平的临界值为组内均方，为每组样本容量

求得后，将样本平均值两两求得差值，每一差值都与相比较

Q法，又称固定极差法 其中，为表中组内自由度下与样本组数相对应的值，求得值后，将样本平均数两两差数与之比较即可

NK 法，又称 q法，这一方法是公认比较客观的方法其中，又常写为为组内均方，为每组样本容量为组内自由度下不同极差值下的值 Q 法与 NK 法的共同点是都使用 q 表，计算公式相同，其不同点是 Q法只求一个最大的值，因此比较时仅有一个标准而NK法则根据平均数距离的远近分别设置不同的值，因此不同距离的平均数之差的比较标准不同

我们以上面的这一例题来说明具体的比较方法 第一步，我们求 SE 值：以误差项自由度查 q 表，该例题共有 5个处理（药物配伍），因此应从 2，一直查到 5的和值将 SE 值和这些值相乘，得相应的值，即：并建表各样本平均数的比较，有好多种方法，这里主要介绍上三角形表示法和字母表示法

第八章

第八章

Presentation Transcript

Sea Ice

Sea Ice