第八章假设检验的基本概念

第八章 假设检验的基本概念

第一节 检验假设与P值

假设检验基本思想 假设检验过去称显著性检验。它是利用小概率反证法思想，从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量，最后获得P值来判断。

问题实质上都是希望通过样本统计量与总体参数的差别，或两个样本统计量的差别，来推断总体参数是否不同。这种识别的过程，就是本章介绍的假设检验(hypothesis test)。

例8–1通过以往大规模调查，已知某地一般新生儿的头围均数为34.50cm，标准差为1.99cm。为研究某矿区新生儿的发育状况，现从该地某矿区随机抽取新生儿55人，测得其头围均数为33.89cm，问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同？例8–1通过以往大规模调查，已知某地一般新生儿的头围均数为34.50cm，标准差为1.99cm。为研究某矿区新生儿的发育状况，现从该地某矿区随机抽取新生儿55人，测得其头围均数为33.89cm，问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同？

①抽样误差造成的； ②本质差异造成的。假设检验的目的——就是判断差别是由哪种原因造成的。

一种假设H0 一般新生儿头围 34.50cm 另一种假设H1 抽样误差矿区新生儿头围 34.50cm 33.89cn 总体不同

第二节 假设检验的基本步骤

例8–1通过以往大规模调查，已知某地一般新生儿的头围均数为34.50cm，标准差为1.99cm。为研究某矿区新生儿的发育状况，现从该地某矿区随机抽取新生儿55人，测得其头围均数为33.89cm，问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同？例8–1通过以往大规模调查，已知某地一般新生儿的头围均数为34.50cm，标准差为1.99cm。为研究某矿区新生儿的发育状况，现从该地某矿区随机抽取新生儿55人，测得其头围均数为33.89cm，问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同？

③H1的内容直接反映了检验单双侧。若H1中只是0 或 <0，则此检验为单侧检验。它不仅考虑有无差异，而且还考虑差异的方向。 ④单双侧检验的确定，首先根据专业知识，其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果，此时应该用单侧检验。一般认为双侧检验较保守和稳妥。

(3) 检验水准，过去称显著性水准，是预先规定的概率值，它确定了小概率事件的标准。在实际工作中常取 = 0.05。可根据不同研究目的给予不同设置。

2. 计算检验统计量 根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等（如数据的分布类型）选择相应的检验统计量。

3. 确定P值，下结论 如例8–1已得到P<0.05, 按所取检验水准0.05, 则拒绝H0，接受H1，差异有统计学意义（统计结论），可以认为矿区新生儿的头围均数与一般新生儿不同，矿区新生儿的头围小于一般新生儿（专业结论）。

若，不拒绝H0，但不能下“无差别”或“相等”的结论，只能下“根据目前试验结果，尚不能认为有差别”的结论。

第三节 大样本均数的假设检验

均数比较u检验的主要适用条件为： 1. 单样本数据，每组例数等于或大于60例；两样本数据，两组例数的合计等于或大于60例，而且基本均等。 2．样本数据不要求一定服从正态分布总体。 3．两总体方差已知。 4．理论上要求：单样本是从总体中随机抽取，两样本为随机分组资料。观察性资料要求组间具有可比性，即比较组之间除了研究因素以外，其他可能有影响的非研究因素均应相同或相近。

一、单样本均数的u检验(one-sample u-test)适用于当n较大(如n>60)或已知时。检验统计量分别为 P121 例8-2

例8–2（续例7-5） 1995年，已知某地20岁应征男青年的平均身高为168.5cm。2003年，在当地20岁应征男青年中随机抽取85人，平均身高为171.2 cm，标准差为5.3cm，问2003年当地20岁应征男青年的身高与1995年相比是否不同？ P121 例8-2

检验界值u0.05/2 = 1.96，u0.01/2 = 2.58，u >u0.01/2, 得P<0.01，按α=0.05水准，拒绝H0，接受H1，2003年当地20岁应征男青年与1995年相比，差别有统计学意义。可认为2003年当地20岁应征男青年的身高有变化，比1995年增高了。 P121 例8-2

由例7-5可知，2003年当地20岁应征男青年身高总体均数的95%的可信区间为170.1~172.3cm。该区间的下限已高于1995年身高的总体均数168.5cm，也说明2003年20岁应征男青年增高了。由例7-5可知，2003年当地20岁应征男青年身高总体均数的95%的可信区间为170.1~172.3cm。该区间的下限已高于1995年身高的总体均数168.5cm，也说明2003年20岁应征男青年增高了。 P121 例8-2

二、两样本比较的u检验(two-sample u-test)适用于两样本含量较大(如n1>30且n2>30)时。检验统计量为两均数之差的标准误的估计值 P122 例8-3

两均数之差的标准误的估计值 P122 例8-3

由于u0.05/2=1.96，u0.01/2=2.58，|u|>u0.01/2, 得P<0.01，按α=0.05水准，拒绝H0，接受H1，两组间差别有统计学意义。可以认为试验组和对照组退热天数的总体均数不相等，两组的疗效不同。试验组的平均退热天数比对照组短。例7-7已计算了的95%的可信区间：天，给出了两总体均数差别的数量大小。两均数之差的标准误的估计值 P122 例8-3

第四节大样本率的假设检验

率的u检验的应用条件： • 1、n较大，如每组例数大于60例。 • 2、样本p或1-p均不接近100%和0。 • 3、np和n(1-p)均大于5。

一、单样本率的 u检验 适用于样本率与已知的总体率的比较 P123例8-4

例8–4 已知某地40岁以上成年男性高血压患病率为8.5%（π0），经健康教育数年后，随机抽取该地成年男性1000名，查出高血压患者55例，患病率（p）为5.5%。问经健康教育后，该地成年男性高血压患病率是否有降低？

单侧界值u0.01=2.33，现 |u| > u0.01, 故P<0.01, 按α=0.05水准拒绝H0，接受H1，差异有统计学意义，可认为经健康教育后，该地成年男性高血压患病率有所降低。

二、两个率比较的u检验 推断两个总体率是否相同 P124例8-5

例8–5 某医院用黄芪注射液和胎盘球蛋白进行穴位注射治疗小儿支气管哮喘病人，黄芪注射液治疗117例，有效103例；胎盘球蛋白治疗55例，有效49例。试比较两种疗法有效率有无差别

u0.05/2=1.96，现|u|<u0.05/2 , 故P>0.05，按α=0.05检验水准接受H0，差异无统计学意义，尚不能认为两种疗法治疗小儿支气管哮喘的疗效有差别。

第五节 检验水准与两类错误

I型错误和II型错误 假设检验是利用小概率反证法思想，从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立，然后在假定H0成立的条件下计算检验统计量，最后根据P值判断结果，此推断结论具有概率性，因而无论拒绝还是不拒绝H0，都可能犯错误。详见表8-1。

I 型错误：“实际无差别，但下了有差别的结论”，假阳性错误。犯这种错误的概率是（其值等于检验水准） II型错误：“实际有差别，但下了不拒绝H0的结论”，假阴性错误。犯这种错误的概率是（其值未知）。但 n一定时， 增大， 则减少。

可能发生的两类错误

图8-2 I型错误与II型错误示意图(以单侧u检验为例)

1-：检验效能（power）:当两总体确有差别，按检验水准  所能发现这种差别的能力。

a 与 b 间的关系 减少（增加）I型错误，将会增加（减少）II型错误增大n 同时降低a 与 b b a

减少I型错误的主要方法：假设检验时设定值。减少I型错误的主要方法：假设检验时设定值。减少II型错误的主要方法：提高检验效能。提高检验效能的最有效方法：增加样本量。如何选择合适的样本量：实验设计。

第六节 单侧检验与双侧检验

单侧检验概念 • 图8–3 双侧u检验的检验水准α • 图8–4 单侧u检验的检验水准α

第七节 假设检验的统计意义与实际意义

1.要有严密的研究设计，尤其是下因果结论。 2.不同的资料应选用不同检验方法。 3.正确理解“显著性”一词的含义(用统计学意义一词替代)。

4.结论不能绝对化 ，提倡使用精确P值。5.注意统计“显著性”与医学/临床/生物学 “显著性” 的区别

6.可信区间与假设检验各自不同的作用，要结合使用。6.可信区间与假设检验各自不同的作用，要结合使用。一方面，可信区间亦可回答假设检验的问题，算得的可信区间若包含了H0，则按水准，不拒绝H0；若不包含H0，则按水准，拒绝H0，接受H1。

另一方面，可信区间不但能回答差别有无统计学意义，而且还能比假设检验提供更多的信息，即提示差别有无实际的专业意义。另一方面，可信区间不但能回答差别有无统计学意义，而且还能比假设检验提供更多的信息，即提示差别有无实际的专业意义。

第八章 假设检验的基本概念