320 likes | 582 Vues
第 四章 抽样与抽样分布. 4.1 概率抽样方法 4.2 抽样分布. 4.1 概率抽样方法. 4.1.1 简单随机抽样 4.1.2 分层抽样 4.1.3 系统抽样 4.1.4 多阶段抽样. 抽样方法. 概率抽样 ( probability sampling ). 根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率.
E N D
第 四章 抽样与抽样分布 4.1 概率抽样方法 4.2 抽样分布
4.1概率抽样方法 4.1.1 简单随机抽样 4.1.2 分层抽样 4.1.3 系统抽样 4.1.4 多阶段抽样
概率抽样(probability sampling) • 根据一个已知的概率来抽取样本单位,也称随机抽样 • 特点 • 按一定的概率以随机原则抽取样本 • 抽取样本时使每个单位都有一定的机会被抽中 • 每个单位被抽中的概率是已知的,或是可以计算出来的 • 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
简单随机抽样(simple random sampling) • 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 • 抽取元素的具体方法有重复抽样和不重复抽样 • 特点 • 简单、直观,在抽样框完整时,可直接从中抽取样本 • 用样本统计量对目标量进行估计比较方便 • 局限性 • 当N很大时,不易构造抽样框 • 抽出的单位很分散,给实施调查增加了困难 • 没有利用其他辅助信息以提高估计的效率
分层抽样(stratified sampling) • 将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 • 优点 • 保证样本的结构与总体的结构比较相近,从而提高估计的精度 • 组织实施调查方便 • 既可以对总体参数进行估计,也可以对各层的目标量进行估计
系统抽样(systematic sampling) • 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 • 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位 • 优点:操作简便,可提高估计的精度 • 缺点:对估计量方差的估计比较困难
多阶段抽样(multi-stage sampling) • 先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查 • 群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样 • 具有整群抽样的优点,保证样本相对集中,节约调查费用 • 需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开 • 在大规模的抽样调查中,经常被采用的方法
非概率抽样(non-probability sampling) • 相对于概率抽样而言 • 抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查 • 有方便抽样、自愿样本、滚雪球抽样等方式
方便抽样 • 调查过程中由调查员依据方便的原则,自行确定入抽样本的单位 • 调查员在街头、公园、商店等公共场所进行拦截调查 • 厂家在出售产品柜台前对路过顾客进行的调查 • 优点:容易实施,调查的成本低 • 缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体
自愿样本 • 被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息 • 例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本 • 自愿样本与抽样的随机性无关 • 样本是有偏的 • 不能依据样本的信息推断总体
滚雪球抽样 • 先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应 • 适合于对稀少群体和特定群体研究 • 优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低
概率抽样与非概率抽样的比较 • 概率抽样 • 依据随机原则抽选样本 • 样本统计量的理论分布存在 • 可根据调查的结果推断总体 • 非概率抽样 • 不是依据随机原则抽选样本 • 样本统计量的分布是不确定的 • 无法使用样本的结果推断总体
4.2抽样分布 4.2.1 抽样分布的概念 4.2.2 抽样分布的形式 4.2.3 中心极限定理
总体 总体分布(population distribution) • 总体中各元素的观察值所形成的分布 • 分布通常是未知的 • 可以假定它服从某种分布
样本 样本分布(sample distribution) • 一个样本中各观察值的分布 • 也称经验分布 • 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布
抽样分布的概念 • 1、举个例子:丢骰子 • 2、结论:样本均值并不总是落在总体均值很近的位置。因此,我们不能仅仅根据一个样本得出总体的情况,需认识到样本统计量本身就是个随机变量,不同的样本会导致样本统计量取不同的值。 • 3、解决方法:在大量重复抽样试验的基础上,得出统计量取值的集合及相应的概率,进而作出判断和比较
总体 计算样本统计量 如:样本均值、比例、方差 样本 抽样分布的形成过程(sampling distribution)
抽样分布(sampling distribution) • 样本统计量的概率分布,是一种理论分布 • 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 • 随机变量是 样本统计量 • 样本均值, 样本比例,样本方差等 • 结果来自容量相同的所有可能样本 • 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
总体分布 .3 .2 .1 0 1 2 3 4 样本均值的抽样分布(例题分析) 【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下 均值和方差
所有可能的n = 2 的样本(共16个) • 第一个 • 观察值 • 第二个观察值 • 1 • 2 • 3 • 4 • 1 • 1,1 • 1,2 • 1,3 • 1,4 • 2 • 2,1 • 2,2 • 2,3 • 2,4 • 3 • 3,1 • 3,2 • 3,3 • 3,4 • 4 • 4,1 • 4,2 • 4,3 • 4,4 样本均值的抽样分布(例题分析) 现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为
P( x ) • 16个样本的均值(x) 0.3 • 第一个 • 观察值 • 第二个观察值 0.2 • 1 • 2 • 3 • 4 • 1 • 1.0 • 1.5 • 2.0 • 2.5 0.1 • 2 • 1.5 • 2.0 • 2.5 • 3.0 0 • 3 • 2.0 • 2.5 • 3.0 • 3.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x • 4 • 2.5 • 3.0 • 3.5 • 4.0 样本均值的抽样分布 样本均值的抽样分布(例题分析) 计算出各样本的均值,如下表。并给出样本均值的抽样分布
抽样分布 P ( x ) .3 .3 .2 .2 .1 .1 0 0 1 2 3 4 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x 样本均值的分布与总体分布的比较(例题分析) 总体分布 = 2.5 σ2 =1.25
抽样分布的形式 • 1、样本均值抽样分布的形式与原有总体的分布和样本容量n的大小有关 • 2、如果原总体分布是正态分布,那么,无论样本容量的大小如何,样本均值的抽样分布都服从正态分布 • 3、如果原总体分布是非正态分布,即看样本容量的的大小,当样本容量大于30时,抽样分布将趋近正态分布,这就是著名的中心极限定理
=10 n = 4 n =16 = 50 X 抽样分布 总体分布 x 样本均值的抽样分布与中心极限定理 当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
一个任意分布的总体 当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布 x 中心极限定理(central limit theorem) 中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
样本均值的抽样分布例题分析 比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n
中心极限定理(central limit theorem) x 的分布趋于正态分布的过程
总体分布 正态分布 非正态分布 大样本 小样本 正态分布 正态分布 非正态分布 抽样分布与总体分布的关系
均值的抽样标准误差 • 测度所有样本均值的离散程度 • 也称标准误差,小于总体标准差 • 样本均值的标准差随着样本容量n的增大而变小。 • 4.计算公式为
中心极限定理的应用(例题分析) • 例:一个汽车电池的制造商声称其电池寿命分布均值为54个月,标准差为6个月。假设某一消费组织决定购买50个这种电池作为样本来检验电池的寿命,以核实这种申明。 • 1)假设这个制造商所言是真实的,试描述这50个电池样本的平均寿命的抽样分布 • 2)假设这个制造商所言是真实的,则消费组织的样本寿命均值小于或等于52个月的概率是多少?
中心极限定理的应用(课堂作业) • 某酒店电梯中质量标志注明最大载重为18人,1350kg。现已知该酒店旅客及其行李的平均重量满足正态分布N(70,36),试问随机进入18人,总重量超重的概率是多少?