1 / 32

第 四章 抽样与抽样分布

第 四章 抽样与抽样分布. 4.1 概率抽样方法 4.2 抽样分布. 4.1 概率抽样方法. 4.1.1 简单随机抽样 4.1.2 分层抽样 4.1.3 系统抽样 4.1.4 多阶段抽样. 抽样方法. 概率抽样 ( probability sampling ). 根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率.

riley-moon
Télécharger la présentation

第 四章 抽样与抽样分布

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第 四章 抽样与抽样分布 4.1 概率抽样方法 4.2 抽样分布

  2. 4.1概率抽样方法 4.1.1 简单随机抽样 4.1.2 分层抽样 4.1.3 系统抽样 4.1.4 多阶段抽样

  3. 抽样方法

  4. 概率抽样(probability sampling) • 根据一个已知的概率来抽取样本单位,也称随机抽样 • 特点 • 按一定的概率以随机原则抽取样本 • 抽取样本时使每个单位都有一定的机会被抽中 • 每个单位被抽中的概率是已知的,或是可以计算出来的 • 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

  5. 简单随机抽样(simple random sampling) • 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 • 抽取元素的具体方法有重复抽样和不重复抽样 • 特点 • 简单、直观,在抽样框完整时,可直接从中抽取样本 • 用样本统计量对目标量进行估计比较方便 • 局限性 • 当N很大时,不易构造抽样框 • 抽出的单位很分散,给实施调查增加了困难 • 没有利用其他辅助信息以提高估计的效率

  6. 分层抽样(stratified sampling) • 将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 • 优点 • 保证样本的结构与总体的结构比较相近,从而提高估计的精度 • 组织实施调查方便 • 既可以对总体参数进行估计,也可以对各层的目标量进行估计

  7. 系统抽样(systematic sampling) • 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 • 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位 • 优点:操作简便,可提高估计的精度 • 缺点:对估计量方差的估计比较困难

  8. 多阶段抽样(multi-stage sampling) • 先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查 • 群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样 • 具有整群抽样的优点,保证样本相对集中,节约调查费用 • 需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开 • 在大规模的抽样调查中,经常被采用的方法

  9. 非概率抽样(non-probability sampling) • 相对于概率抽样而言 • 抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查 • 有方便抽样、自愿样本、滚雪球抽样等方式

  10. 方便抽样 • 调查过程中由调查员依据方便的原则,自行确定入抽样本的单位 • 调查员在街头、公园、商店等公共场所进行拦截调查 • 厂家在出售产品柜台前对路过顾客进行的调查 • 优点:容易实施,调查的成本低 • 缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体

  11. 自愿样本 • 被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息 • 例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本 • 自愿样本与抽样的随机性无关 • 样本是有偏的 • 不能依据样本的信息推断总体

  12. 滚雪球抽样 • 先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应 • 适合于对稀少群体和特定群体研究 • 优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低

  13. 概率抽样与非概率抽样的比较 • 概率抽样 • 依据随机原则抽选样本 • 样本统计量的理论分布存在 • 可根据调查的结果推断总体 • 非概率抽样 • 不是依据随机原则抽选样本 • 样本统计量的分布是不确定的 • 无法使用样本的结果推断总体

  14. 4.2抽样分布 4.2.1 抽样分布的概念 4.2.2 抽样分布的形式 4.2.3 中心极限定理

  15. 总体 总体分布(population distribution) • 总体中各元素的观察值所形成的分布 • 分布通常是未知的 • 可以假定它服从某种分布

  16. 样本 样本分布(sample distribution) • 一个样本中各观察值的分布 • 也称经验分布 • 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布

  17. 抽样分布的概念 • 1、举个例子:丢骰子 • 2、结论:样本均值并不总是落在总体均值很近的位置。因此,我们不能仅仅根据一个样本得出总体的情况,需认识到样本统计量本身就是个随机变量,不同的样本会导致样本统计量取不同的值。 • 3、解决方法:在大量重复抽样试验的基础上,得出统计量取值的集合及相应的概率,进而作出判断和比较

  18. 总体 计算样本统计量 如:样本均值、比例、方差 样本 抽样分布的形成过程(sampling distribution)

  19. 抽样分布(sampling distribution) • 样本统计量的概率分布,是一种理论分布 • 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 • 随机变量是 样本统计量 • 样本均值, 样本比例,样本方差等 • 结果来自容量相同的所有可能样本 • 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

  20. 总体分布 .3 .2 .1 0 1 2 3 4 样本均值的抽样分布(例题分析) 【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下 均值和方差

  21. 所有可能的n = 2 的样本(共16个) • 第一个 • 观察值 • 第二个观察值 • 1 • 2 • 3 • 4 • 1 • 1,1 • 1,2 • 1,3 • 1,4 • 2 • 2,1 • 2,2 • 2,3 • 2,4 • 3 • 3,1 • 3,2 • 3,3 • 3,4 • 4 • 4,1 • 4,2 • 4,3 • 4,4 样本均值的抽样分布(例题分析) 现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为

  22. P( x ) • 16个样本的均值(x) 0.3 • 第一个 • 观察值 • 第二个观察值 0.2 • 1 • 2 • 3 • 4 • 1 • 1.0 • 1.5 • 2.0 • 2.5 0.1 • 2 • 1.5 • 2.0 • 2.5 • 3.0 0 • 3 • 2.0 • 2.5 • 3.0 • 3.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x • 4 • 2.5 • 3.0 • 3.5 • 4.0 样本均值的抽样分布 样本均值的抽样分布(例题分析)  计算出各样本的均值,如下表。并给出样本均值的抽样分布

  23. 抽样分布 P ( x ) .3 .3 .2 .2 .1 .1 0 0 1 2 3 4 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x 样本均值的分布与总体分布的比较(例题分析) 总体分布  = 2.5 σ2 =1.25

  24. 抽样分布的形式 • 1、样本均值抽样分布的形式与原有总体的分布和样本容量n的大小有关 • 2、如果原总体分布是正态分布,那么,无论样本容量的大小如何,样本均值的抽样分布都服从正态分布 • 3、如果原总体分布是非正态分布,即看样本容量的的大小,当样本容量大于30时,抽样分布将趋近正态分布,这就是著名的中心极限定理

  25. =10 n = 4 n =16  = 50 X 抽样分布 总体分布 x 样本均值的抽样分布与中心极限定理 当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)

  26. 一个任意分布的总体 当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布 x 中心极限定理(central limit theorem) 中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

  27. 样本均值的抽样分布例题分析 比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n

  28. 中心极限定理(central limit theorem) x 的分布趋于正态分布的过程

  29. 总体分布 正态分布 非正态分布 大样本 小样本 正态分布 正态分布 非正态分布 抽样分布与总体分布的关系

  30. 均值的抽样标准误差 • 测度所有样本均值的离散程度 • 也称标准误差,小于总体标准差 • 样本均值的标准差随着样本容量n的增大而变小。 • 4.计算公式为

  31. 中心极限定理的应用(例题分析) • 例:一个汽车电池的制造商声称其电池寿命分布均值为54个月,标准差为6个月。假设某一消费组织决定购买50个这种电池作为样本来检验电池的寿命,以核实这种申明。 • 1)假设这个制造商所言是真实的,试描述这50个电池样本的平均寿命的抽样分布 • 2)假设这个制造商所言是真实的,则消费组织的样本寿命均值小于或等于52个月的概率是多少?

  32. 中心极限定理的应用(课堂作业) • 某酒店电梯中质量标志注明最大载重为18人,1350kg。现已知该酒店旅客及其行李的平均重量满足正态分布N(70,36),试问随机进入18人,总重量超重的概率是多少?

More Related