1 / 59

第六章 非参数统计

第六章 非参数统计. 利用 P 值进行决策:. 假设检验 . P -Value. P- Value: 观察到的显著水平. 例题 :钻头寿命. 抽取一个随机样本 n = 25, H 0 :  = 32 H 1 :  < 32 (左尾检验) 观察到的 Z score 是 p-Value ( NORMSDIS ) : 这个概率值过分小了 . 因此我们拒绝 H 0. 非参数统计. 优点: ( 1 )对总体分布一般无特殊假设; ( 2 )适用于一些较低的计量标准(如顺序变量, 名义变量);.

Télécharger la présentation

第六章 非参数统计

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六章 非参数统计

  2. 利用P值进行决策: 假设检验.P-Value • P- Value:观察到的显著水平

  3. 例题 :钻头寿命 • 抽取一个随机样本 n = 25, • H0:  = 32 • H1:  < 32 (左尾检验) • 观察到的 Z score 是 • p-Value (NORMSDIS): • 这个概率值过分小了.因此我们拒绝 H0.

  4. 非参数统计 • 优点: • (1)对总体分布一般无特殊假设; • (2)适用于一些较低的计量标准(如顺序变量, • 名义变量); 数据计量的尺度 • 定性变量( Qualitative ):   名义变量( Nominal Scale ):2检验   顺序变量( Ordinal Scale ):符号检验、秩检验,等 • 定量变量( Quantitative ): Z检验,t检验(正态总体) • 非参数检验(总体分布未知)

  5. 6.1 拟合优度的2检验The Chi-Square Goodness -of- Fit Test • 检验目的:总体被分为K类; • 检验观测频次与期望频次是否吻合? • H0: 总体在第 1, 2, …, K 类中的比率分别是 p1, p2, …, pk . • H1:上述比率中至少有一个是不正确的.

  6. 例. 某小汽车经销商根据去年销售小汽车的颜色的百分率,认为今年顾客选择各颜色的数目仍将不变。他随机抽取了150名顾客询问: • color pi oi ei (oi-ei) (oi-ei)2/ei • yellow 0.2 35 30 5 0.83 • red 0.3 50 45 5 0.55 • green 0.1 30 15 15 15.00 • blue 0.1 10 15 -5 1.67 • white 0.3 25 45 -20 8.90 • Total 1.0 150 150 0 26.96 又例: 香皂的颜色, 牙膏的包装等

  7. 6.2 列联表独立性检验Test of Independence of Contingency Tables • 列联表( Contingency table ) • 两个定性变量的相关关系 • 例:对电视节目的选择与工资收入是否相关?

  8. H0: 对电视节目的选择与工资收入无关. • H1:对电视节目的选择与工资收入相关. • 取=0.05, df = (H-1)(K-1)=(3-1)(3-1)=4 • 查表: 2(4)=9.49 • 观察的2值为 : 2= 21.174>9.49 • 因此,拒绝 H0 . • 收入与电视选择具有相关性.

  9. 习惯 性别 男 女 xi• • 几乎天天看 a b a+b • 偶 尔 看 c d c+d • xj • a+c b+dn

  10. 例:在电视收视率调查中,得到性别与收视习惯的列联表如下。试分析性别与收视习惯的相互关系。例:在电视收视率调查中,得到性别与收视习惯的列联表如下。试分析性别与收视习惯的相互关系。 • 习惯 性别 男 女 xi• • 几乎天天看 38 24 62 • 偶 尔 看 31 7 38 • xj • 69 31 100 0.55 0.77 0.45 0.23

  11. 介绍几个比较重要的检验问题 参数检验(t-检验,z-检验) 1、关于总体均值的检验 2、两个总体的均值是否相等 (1)独立样本问题 (2)配对样本问题 非参数检验(符号检验、秩检验、游程检验) 1、关于总体中位数的检验 2、两个总体的中位数是否相等 (1)独立样本问题 (2)配对样本问题

  12. 6.3 符号检验 (Sign Test) • 一. 符号检验的基本原理 • Bernoulli试验: • 二项分布:n次独立的Bernoulli试验。S+表示成功的次数, S- 表示失败的次数 (S- = n  S+ ). • P(S+=k) =

  13. 如果实验了100次,只有一次成功,能否认为成功与失败的概率相同?如果实验了100次,只有一次成功,能否认为成功与失败的概率相同? 提出假设:成功的概率与失败的概率相等,即:p = 0.5  S+ S-

  14. n = 10 k = 4 提出假设:成功的概率与失败的概率相等 H0 : p = 0.5 H1 : p  0.5 • 如果H0 的假设为真,S+与 S- 的数量应该基本相等。 • S = min{S+ , S-} = k • 如果 S 过小,则H0 的假设是错误的。 P-Value:P(Sk)

  15. 二、单样本中位数的符号检验 例题:某企业生产一种钢管,规定长度的中位数是10米。现随机从生产线上选取10根进行测量,结果为: 9.8 10.1 9.7 9.9 9.8 10.0 9.7 10.0 9.9 9.8 问生产过程是否需要调整? 分析: n=8(与10的差值为0者不计) S+=1, S-= 7, 取=0.05 <0.05 结论: 拒绝 H 0,生产过程需要调整。

  16. SPSS软件使用说明 例16.1 (数据gs.sav)质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克): 样本中位数为:m=98.36 因此,人们怀疑厂家包装的西洋参片份量不足。 由于对于这些重量的总体分布不清楚,决定对其进行符号检验。需要检验的是:

  17. 99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37 软件使用说明:以数据gs.sav为例 SPSS选项: Analyze-Nonparametric Tests-Binomial 把变量gsweight选入 Test Variable List, 在Define Dichotomy的Cut point输入: 100(克) 在Test Proportion输入 p0=0.50(零假设大于100g的比例) 然后点击 OK即可得到前面显示的结果。 96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79 例16.1 (数据gs.sav)质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片称重,结果是样本中位数为m=98.36。 SPSS输出 双边检验的p-值=0.108;因此,单尾检验的p-值为0.05388。根据这个符号检验,我们还没有充分的证据拒绝零假设。

  18. 三、配对样本符号检验 • 配对样本问题 • 某香烟公司要了解消费者对其香烟的电视广告的态度,通过市场研究公司向一消费小组进行调查。该小组成员有24人。首先用一问卷,要求消费者回答若干有关该品牌香烟的问题,并给予相应的分数。然后,放映该牌香烟的电视广告片,看毕后再回答问卷询问。希望了解应答者在观看广告片前后的态度有无差异。 • 配对样本:两个样本中的个体均相同,但处理不同。判断总体分布是否发生变化。

  19. 数据:应答者 事前分数 事后分数 符号 • 1 80 90 + • 2 70 65 – • 3 75 80 + • 4 80 80 0 • 24 85 95 + • 总计 S+=19 • (注意:取消符号等于0 的样本点)S- = 4 • H0: 观看前后的态度无差异 n=23 • 选择S+ 与S- 中较小的一个作为检验统计量S, S = min{S+ , S-}; • 当H0为真时,S 在 n/2 附近。如果S过小,则说明H0不真。

  20. 检验过程: • (1) H0 : (事后分数  事前分数)的中位数 = 0 • H1 : (事后分数  事前分数)的中位数 > 0 • (2) S = min{S+, S-} = min{19,4} = 4 • (3) 在假设为真的前提下( p = 0.5),计算 • (4) 此为“小概率”事件,所以拒绝H0假设。 • 广告效果显著!

  21. SPSS软件使用:以”减肥数据” diet.sav为例 选项Analyze-Nonparametric Tests-Related Samples 把变量before和after同时选入Test Pair(s) List之中 在下面选Sign 在Exact中选Exact 然后回到主对话框,OK即可 例、采用例6.4的减肥数据(diet.sav)。有两列50对数据。其中一列数据(变量是before)是减肥前的重量,另一列(变量是after)是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为mD.则要检验的问题成为: 如果不知道总体的任何信息,则可利符号检验。 符号检验的SPSS的输出为: 显然单尾p-值小于0.05,拒绝零假设。 减肥前后体重有显著区别

  22. 四、 两个独立样本的符号检验 • 问题: • 例: 某公司拟调查两性购买者的态度有无差异。在男性中抽取n1=12的样本。在女性中抽取n2=9 的样本。检验这两个总体的中位数是否相同。 • 样本1:n1=12 • 10,10,10,12,15,17,17,19,20,22,25,28; • 样本2:n2=9 • 6,7,8,8,12,16,19,19,22;

  23. 检验方法 • (1)先将两组样本的观测值按统一顺序排列,找出中位数; • (2)将每一个观测值与它比较,大于该中位数的用正号表示,小于中位数的用负符号表示; • 如果 H0为真,则在两个样本中,其正负号的个数应该各占其总数的一半。 • +  行和 • 样本1 a b n1 • 样本2 c d n2 • 列和 S+ S – n1+ n2 可以利用列联表检验:

  24. – + 行和 样本1 5 7 12 样本2 5 3 8 列和 10 10 20 • 样本2 样本1 符号2 符号1 • 6 — – • 7 — – • 8 — – • 8 — – • — 10 – • — 10 – • — 10 – • — 12 – • 12 — – • — 15 – • 16 — 0 • — 17 + • — 17 + • — 19 + • 19 — + • 19 — + • — 20 + • 22 — + • — 22 + • — 25 + • — 28 + 所以,不拒绝H0。两总体中位数无显著差别。

  25. 6.4 秩检验(Rank Test) • 一. Wilcoxon test (配对样本的秩检验) • 双样本问题 • 例:某防晒美容霜制造者欲了解一种新配方是否有利于防止晒黑,对 7 个志愿者进行实验。在每个人脊背上一侧涂原配方的美容霜,另一侧涂新配方的美容霜,背部在太阳下暴晒后,按照预先给顶的标准测定晒黑程度,数据如下表。

  26. 编号 原配方yi新配方xi di= xi - yi 符号 的秩 • 1 42 46 4 + 4 2 + 2 • 2 51 49 - 2 - 2 1 - 1 • 3 31 26 -5 - 5 3 -3 • 4 61 52 -9 - 9 5 -5 • 5 44 33 -11 - 11 6 -6 • 6 55 49 -6 - 6 4 -4 • 7 48 36 -12 - 12 7 -7 (1)符号检验 H0: S+= S– ( 两种配方的防晒作用相同,即 p = 0.5) 不能拒绝H0? T+ = 2, T = 26

  27. (2)秩检验 • 运用更多的数据信息: • — 配对样本差距的方向(符号:正号、负号) • — 配对样本差距的大小 (秩:等级排序) • I. 计算配对样本的差距 di=xi - yi; • II. 求 ; • III. 按照 的值,对样本进行等级排序(求秩); • IV. 还原 的符号; • V. 求秩和: T+, T • T+ — 正等级的秩和 • T — 负等级的秩和

  28. 检验过程: • (1) H0 : T+ = T • H1 : T+ < T • (2) 取 T= min{T+ , T} = T= min{2, 26} = 2 • (3) 根据 n = 7, = 0.05,查 Wilcoxen检验表,得到拒绝域的边界值 : • T0.05 = 3 (单侧检验) • (4) 而现在有 • T = 2 < 3 • 所以,拒绝 H0 假设。 • 两种配方的防晒作用显著不同! • 与符号检验区别:应用了更多的原始数据信息。 Wilcoxon符号秩检验需要假定样本点来自连续对称总体分布;

  29. 例、采用例6.4的减肥数据(diet.sav)。有两列50对数据。其中一列数据(变量是before)是减肥前的重量,另一列(变量是after)是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为mD.则要检验的问题成为:例、采用例6.4的减肥数据(diet.sav)。有两列50对数据。其中一列数据(变量是before)是减肥前的重量,另一列(变量是after)是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为mD.则要检验的问题成为: 如果不知道总体的任何信息,则可利用符号检验 符号检验的SPSS的输出为: 显然单尾p-值小于0.05。我们可以拒绝减肥前后体重没有区别的零假设。

  30. 例、采用例6.4的减肥数据(diet.sav)。有两列50对数据。其中一列数据(变量是before)是减肥前的重量,另一列(变量是after)是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为mD.则要检验的问题成为:例、采用例6.4的减肥数据(diet.sav)。有两列50对数据。其中一列数据(变量是before)是减肥前的重量,另一列(变量是after)是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为mD.则要检验的问题成为: 如果总体分布是连续对称的,则可利用Wilcoxon符号秩检验。 Wilcoxon符号秩检验的结果输出为: SPSS软件使用:以数据diet.sav为例 选项Analyze-Nonparametric Tests-2Related Samples 把变量before和after同时选入Test Pair(s) List之中 在下面选Wilcoxon 在Exact中选Exact 然后回到主对话框,OK即可 单尾p-值小于0.05,拒绝零假设。 减肥前后体重有显著区别

  31. 二、单样本中位数检验(Wilcoxen检验) 某企业生产一种钢管,规定长度的中位数是10米。现随机从生产线上选取10根进行测量。问生产过程是否需要调整? 如果有观测值相等,则用它们的相应等级的平均数代替。 正秩和 T+ = 2,负秩和 T- = 34

  32. 检验过程: • (1) H0 : T+ = T • H1 : T+ < T • (2) 取 T= min{T+ , T} = T= min{2, 34} = 2 • (3) 根据 n = 8, = 0.05,查 Wilcoxen检验表,得到拒绝域的边界值 : • T0.05 = 4 (单侧检验) • (4) 而现在有 • T = 2 < 4 • 所以,拒绝 H0 假设。 • 钢管长度的中位数显然不是10。 Wilcoxon秩检验需要假定样本点来自连续对称总体分布;

  33. 99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37 96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79 例16.1 符号检验:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片称重,结果是样本中位数为m=98.36。 SPSS输出 双边检验的p-值=0.108;因此,单尾检验的p-值为0.05388。根据这个符号检验,我们没有充分的证据拒绝零假设。

  34. SPSS软件使用:以数据gs.sav为例 选项Analyze-Nonparametric Tests-2Related Samples 把变量 gsweight 和 m 同时选入Test Pair(s) List之中 在下面选Wilcoxon; 在Exact中选Exact 然后回到主对话框,OK即可 用例16.1 (西洋参重量)来说明Wilcoxon秩检验。假定例16.1的样本来自对称的连续总体分布。 Mean Rank Sum of Rank S- W- S+ W+ 225/17 n 利用Wilcoxon秩检验,可以在置信水平为0.05时拒绝零假设。可见,Wilcoxon秩检验比符号检验要更有效。

  35. 二. Mann-Whitney-Wilcoxen秩和检验 (U-检验) • 1. 目的:独立样本,比较两个总体的中位数 • 2. 工作步骤: • (1)将两个样本合并,按顺序从小到大排列,求秩。如果有观测值相等,则用它们的相应等级的平均数代替。 • (2)分别计算两个样本的等级总和: T1 ,T2 • 当 n1 = n2 时,如果两总体中位数无差异,则有 • T1 = T2 • 当n1 与n2差别较大时,T1 ,T2 的大小将受 n1 ,n2影响。

  36. Mann-Whitney 提出了“U-统计量”: • (1) • (2) • (3) 根据 n1 ,n2 查U- 检验表,找出U 的临界值U* 。 • (4) 判断:UU* , 拒绝 H0 • U > U* , 不拒绝 H0 该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。

  37. 例. • 某公司欲在市场上推销一种产品。在上市之前,拟做一调查,了解高收入消费者与低收入消费者对该产品的评估是否一致。市场调查公司在高收入消费者中随机抽取10 个人,在低收入消费者中抽14个人。将新产品免费增于两种消费者,试用后进行调查,结果两组消费者对该产品的评分如下表。

  38. 高收入组 低收入组 • 评分 等级 评分 等级 • 80 17 95 24 ( max ) • 75 13.5 40 1 ( min ) • 82 18 84 21 • 60 6 88 22 • 90 23 75 13.5 • 55 5 65 8 • 72 11 62 7 • 83 19.5 78 16 • 68 10 83 19.5 • 503 74 12 • 503 • 67 9 • 77 15 • 503 • n1=10T1= 126n2 =14T2= 174

  39. 解: • 查 U-检验表: U* = 36 • 因为 U> U*, 不拒绝H0。 • 两个消费组在对该新产品的态度上无显著差异。

  40. 地区1 1 1 1 1 1 1 1 1 1 1 人均GDP 3223 4526 3836 2781 5982 3216 4710 5628 2303 4618 地区2 2 2 2 2 2 2 2 2 2 2 人均GDP 5391 3983 4076 5941 4748 4600 6325 4534 5526 5699 地区2 2 2 2 2 2 人均GDP 7008 5403 6678 5537 5257 例16.4 、数据(GDP.sav)是地区1的10个城市和地区2的15个城市的人均GDP(元)。现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1和m2是否一样. H0: m1=m2 H1: m1≠m2(双尾检验)

  41. SPSS软件使用说明:GDP.sav数据 选项:Analyze-Nonparametric Tests-2 Independent Samples 把变量 GDP 选入Test Variable List; 把数据中用1和2分类的变量area输入进Grouping Variable 在Define Groups输入1和2 在Test Type选中Mann-Whitney 在点Exact对话框中选择 Exact 最后OK即可 可以拒绝原假设,即地区2的人均GDP的中位数明显更高一些

  42. 6.5 Kendall 一致性系数 • 例题:对某班级同学的若干科目学习成绩和办事能力进行评分。问:某门课程成绩高的学生,其他几门课程的成绩是否也高?学习成绩与办事能力是否相关? • 问题: • 分析学生在各方面的等级是否一致!

  43. 学生 动手实验 艺术 文学 音乐 数学 办事 Ti • 1 4 5 7 6 5 1 28 • 2 6 2 1 5 7 4 25 • 2 1 8 9 2 2 9 31 • 4 2 6 5 10 1 7 31 • 5 8 1 2 8 9 5 33 • 6 10 3 4 3 8 3 31 • 7 9 7 6 4 10 2 38 • 8 3 4 3 1 4 8 23 • 9 5 9 8 7 6 10 45 • 10 7 10 10 9 3 6 45 秩: 10个学生的分数排名(等级)

  44. n = 10 (学生), k = 6 (六科成绩) • 记:Ti为 i同学六门课程的等级总和(秩)。 • (1)10名学生在6门课程的秩的总和(行和): (每一个学生)

  45. (2)如果排序完全相关,即某同学在6 种能力上均排名第一,而有同学在6种能力上均排名第二,…,某同学均排在最后。 • 不妨记:T1=16 , T2=26 , …, T10=106 • 求离差平方和: 这时,离差平方和已达到最大值!

  46. (3)计算实际秩的离差平方和 学生在各科成绩及办事能力等方面相关度不高!

  47. 学校(下面是名次) S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 评估机构 A 2 4 14 11 10 9 6 13 12 5 3 8 7 1 15 B 3 5 11 8 12 14 1 13 7 9 6 4 2 10 15 C 2 12 13 6 5 11 10 3 7 8 14 4 9 1 15 D 10 13 12 14 9 6 2 7 3 5 8 4 11 1 15 例16.8(数据在school.sav)下面是4个独立的环境研究单位对15个学校排序的结果;每一行为一个评估机构对这些学校的排序。 H0:四个机构在15个学校的排序结果是随机的(不相关的); H1:四个机构在15个学校的的排序具有一致性(是相关的)。

  48. SPSS软件使用说明:使用school.sav数据 选项:Analyze-Nonparametric Tests-K Related Samples 把变量(这里是s1、s2、…、s15)选入Test Variable List 在下面Test Type选中Kendall’s W OK 计算结果为W=0.491,而近似的p-值为0.017; 若令显著性水平=0.05, 则拒绝零假设; 也就是说,这些评估机构的排序具有相关性。

  49. 6.6 Kolmogorov-Smirnov 检验 • K-S检验: 当有一个样本数据后,希望知道它的总体分布是不是服从某一个已知分布(比如正态分布). • 例题:检验一个车间生产的20个轴承外座圈的内径后得到下面数据(单位:mm). • 15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 • 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.95 • 按照设计要求,检验这组数据是否来自均值为   ,方差为      • 的正态分布?

More Related