740 likes | 868 Vues
第二章 抽样调查基本理论. 第一节 总体和样本. 一.总体. 通常指所 调查研究对象的全体。 在抽样调查中,总体是指能从中抽取样本的综合体。. 由于实际存在的总体与人们抽样时所认识的总体可能不一致,所总体有以下两种概念。. 全及总体. 也称目标总体,即所需要研究说明的全部单位集合体。即不论人们认识与否,所有符合规定的单位合在一起,构成全及总体。在抽样调查中,全及总体是 抽样推断的目标 。例:居民收入情况调查:.
E N D
第二章 抽样调查基本理论 第一节 总体和样本 一.总体 通常指所调查研究对象的全体。在抽样调查中,总体是指能从中抽取样本的综合体。 由于实际存在的总体与人们抽样时所认识的总体可能不一致,所总体有以下两种概念。
全及总体 也称目标总体,即所需要研究说明的全部单位集合体。即不论人们认识与否,所有符合规定的单位合在一起,构成全及总体。在抽样调查中,全及总体是抽样推断的目标。例:居民收入情况调查: 无限全及总体 有限全及总体 社会经济现象总体,一般都为有限总体,但有时总体单位数太大,几乎等同于无限总体,如居民日常生活用品总体。
被抽样总体 也称作业总体。即被人们所掌握了的,能按某一标志排列或给以编号的全体单位的集合体,是抽取样本的依据。显然,它一定是有限总体,它在范围上比全及总体受到较多的限制 如果二者总体单位相同,则二者是一致的,由于样本来自被抽样总体,因而抽样推断结论只适用于被抽样总体。为此,我们希望被抽样总体尽量接近全及总体,被抽样总体的单位数常用N表示。再看《作家文摘》之例:
《统计学》第六章 抽样推断 设总体中 个总体单位某项标志的标志值分别 为 ,其中具有某种属性的有 个 单位,不具有某种属性的有 个单位,则 根据总体各个单位的标志值或标志特征所计算的反映总体某种属性的综合指标 。 总体参数 ⒈ 总体平均数(又叫总体均值):
《统计学》第六章 抽样推断 ⒉ 总体单位标志值的标准差: ⒊ 总体单位标志值的方差:
《统计学》第六章 抽样推断 ⒋ 总体成数: ⒌ 总体是非标志的标准差: ⒍ 总体是非标志的方差:
二.样本 也称子样,指从被抽样总体中抽取的那部分个体的组合。是总体的缩影,是总体的代表。抽样调查的目的,是用样本推断总体。 总体:研究的对象 样本:观察的对象 样本中的单位数,称为样本容量。
抽样比,一般用f 表示: 样本是随机的,不是唯一的.在一定的和抽样方法下,一个总体所有可能的样本组合的数目,称为样本个数,用m表示.
《统计学》第六章 抽样推断 设样本中 个样本单位某项标志的标志值 分别为 ,其中具有和不具有某 种属性的样本单位数目分别为 和 个,则 指根据样本各个单位的标志值或标志特征计算的综合指标,它是随机变量。 样本统计量 ⒈ 样本平均数(又叫样本均值):
为自由度 为 的无偏估计 为 的无偏估计 ⒉ 样本单位标志值的标准差: ⒊ 样本单位标志值的方差:
《统计学》第六章 抽样推断 ⒋ 样本成数: 为 的 无偏估计 ⒌ 样本单位是非标志的标准差: 为 的 无偏估计 ⒍ 样本单位是非标志的方差:
在这里, 分母之所以为 ,是因为它有这么多自由度。“自由度”? 对自由度的简单解释: 如果我们只想对样本进行描述,那么均方差MSD就是对分布形状的一个很好的度量。不过如果我们想更进一步地通过样本对总体进行统计推断的话,那么样本方差则更合适。我们只以直观上来表达。
假定只有1个观测,我们仍然可以计算均值,但却无法考虑分布的形状。假定只有1个观测,我们仍然可以计算均值,但却无法考虑分布的形状。 例如我们以足球运动员中随机抽取了一名队员,他的身高为179㎝,那么我们可以用它来估计队员的身高。但对队员身高分布的形状就不可能有什么印象,是174—184?176—182?只有n-1>1,我们才能得到关于方差的信息。 也就是说,对于方差,我们实际上只有n-1个信息,这就是计算方差时所用的那个除数 习惯上称信息的个数为“自由度”,因此我们可以将上面的议论归纳为:
“一个自由度补充均值所使用,余下的(n-1)个自由度留给了方差。”“一个自由度补充均值所使用,余下的(n-1)个自由度留给了方差。”
三、单位 抽样单位:据以作为抽样用的中介单位。 调查单位:进行观察或取数的单位。 二者有时是同一的 有时,一个抽样单位包含多个调查单位。如进行居民身体状况调查中,以居民家庭为抽样单位,居民个人为调查单位, 有时,则可能是一个调查单位包含多个抽样单位。例如,调查某企业,职工家庭情况,以职工为抽样单位,家庭则为调查单位,可能省两位或多位职工属于同一家庭。
基本单位: 指对某一具体调查而言可能被抽取的最小的单位,一般不能再分,它通常就是调查单位,也是低一级的抽样单位,可以自然形成,也可以人为规定。 组合单位: 由基本单位所组成,也称上一级单位,由于组合单位还可以再组合,因而就有一级单位,二级单位……之分,直至基本单位。
通常组合单位只作为抽样单位。 如:要去全国进行城镇居民家计调查,可分几步进行,先抽若干省,抽中的省再抽若干城镇,抽中的城镇再抽若干街道或居委会→居民家庭。 省→ 城镇→ 街道(居委会) →家庭 ↑ ↑ ↑ ↑ 一级单位 二级 三级 基本单位 ↑ 最低一级的抽样单位 二者的划分是相对的。
四、抽样框 编制抽样单位的目录,即总体全部抽样单位的一览表。抽样框的范围与被抽样总体一致. 但由于抽样单位可大可小,往往根据需要而确定,因此,抽样框中的单位不一定是被抽样总体中的基本单位。抽样框一般有以下几种形式。
①名单抽样框 以名单一览表形式列出总体所有单位,如职工名单,村庄名单。 ②区域抽样框 即按自然地理区域划分并排列如一片土地划分为若干地块单位并编号,一片森林划分为若干区域并编号。
③时间表抽样框 即按时间顺序排列抽样单位。如在流水线生产的产品质检抽样调查中,把一天时间划分为许多抽样时间单位并按先后顺序排列。 假定产品数量与时间成正比。则例如:24小时中,每隔1小时抽5分钟的产品。 在实践中,抽样框的编制有时是比较困难的。主要问题在于难以把全及总体的所有单位都包括在内。如要编制我国著名作家的名单抽样框。歌星的收入情况,青少年的吸烟状况。
③各单位每次被抽中的概率为 。 第二节 抽样方法 一、重复抽样与不重复抽样 (一)重复抽样:有放回抽样。 特点: ①每个单位、都有数次被抽中的可能性 ②N始终不变,各次抽样相互独立。
③每一次抽样的概率不同。 … (二)不重复抽样:无放回抽样。 特点: ①只有一次被抽中的机会。 ②总体单位数N逐次减少,各次抽样之间不是相互独立的。 相当于一次性同时从总体中的抽取n个单位。
但是,每个单位总的被抽中的概率仍然是相同的,都为1/N。例如,从30 →3,其中的一个单位: 第1次被抽中:1/30 第2次被抽中:1/29 第3次被抽中:1/28 即每个单位总的被抽中的即为:
二、等概率抽样与非等概率抽样 等概率抽样 总体中每一个单位,不论大小,均赋予相同的被抽中的概率。通常为概率抽样。如某县50个乡镇→10个进行学龄前儿童数量调查。每个乡镇都有1/50的可能性被抽中。 非等概率抽样 总体中的单位依其辅标志的大小不同而赋予不同的被抽中概率。如上例,各乡镇被抽中的概率依各乡镇人口数占全县人口总数的比重而定。当各抽样单位之间大小相差较大时,非概率抽样是必要的,有利于提高抽样效果。但非概率抽样的过程小抽样估计方法要复杂、困难得多。
三、单一阶段抽样和多阶段抽样 单一阶段抽样 直接从总体抽样框中抽取调查单位。 多阶段抽样 抽取样本单位的过程分成若干阶段完成。即先从一级单位的抽样植中抽取若干一级单位,再从抽中的一级单位中抽取若干二级单(此时,一级单位成了由二级单位构成的总体)……直到抽取所要调查的基本单位。
例如全国城镇居民家计调查中。全国→省→城镇→街道(居委会)→居民户。为四阶段抽样。 例如全国城镇居民家计调查中。全国→省→城镇→街道(居委会)→居民户。为四阶段抽样。 当总体过于分散,难以直接抽取调查单位的情况下适用,但一般控制在三阶段以内,过多则给抽样推断带来困难。
第三节 抽样误差 以样本→总体是有误差的,如何计算和控制抽样误差是抽样理论研究的核心问题。 一、误差的来源 总的说来,抽样调查中的误差来源有两类: (一)登记性误差 也称调查误差。由于观察、测量、登记、计算上的差错或被调查者提供虚假资料而引起的误差。非抽样调查所特有,所有调查都可能存在。且调查范围越大,单位数越多,可能性越大。 与测量工具的精确性(亩产),测量技术,责任心,合作态度有关。
(二)代表性误差。 1.系统性的代表性误差:简称系统性误差 是由非随机因素造成样本代表性不足而产生的误差。例如:有意选择了较为(差)的单位,调查表设计不当(误解),抽样值与目标总体不一致,样本限于总体中易取到的部分、无回答或回答不完整。 这种误差也属于思想、作风和技术问题。在代表性误差中应尽量避免。系统性误差与登记性误差合在一起称为偏差。
在随机抽样下,由于偶然性因素引起的样本结构不能完全代表总体结构而产生的误差。是不可避免的,但可以估计和控制(特点之一)。 n增加,则V(x)↓,当n=N时V(x)=0 代表性误差有正有负,对于所有可能的样本而言 。 2.偶然性的代表性误差(偶然性误差) ——抽样误差
登记性误差 抽样中的 总误差 偏差 系统性误差 代表性误差 偶然性误差 抽样误差 总误差 偏 差 抽样误差 各种误差之间的关系 总误差2=抽样误差2+偏差2
在统计学中讲过,样本统计量的数学期望等于总体参数,如在统计学中讲过,样本统计量的数学期望等于总体参数,如 但这里必须有个条件:偏差=0,事实上,我们也很难从总误差中区分偏差和抽样误差各占多少,因为偏差只能通过各种途径加以控制而难以计算。 ∴在抽样推断过程中,我们通常以不存在偏差为前提,即认为抽样调查中只存在抽样误差。
是指样本统计量与总体参数之间的绝对离差。如 , , 。 例如.2,4,6,8。 ,从中抽2,4,8, 则 ,若抽2,4,8,则, 二、抽样误差的几种形式 (一)实际抽样误差 需要指出的是,在抽样调查中,由于总体参数未知,因而任何一次抽样的实际抽样误差是不可知的。
(一)抽样标准误(差) 是反映抽样误差大小一般水平的指标。平时讲的抽样误差,指的就是抽样标准误差。 具体来讲,抽样标准误差是抽样平均数或成数的标准差。它反映了 与 的平均误差程度。计算公式:
实际上,在概率论与数理统计理论基础上建立起的抽样理论与方法,分别在各种具体抽样组织方式中,解决了抽样标准误差的计算和估计问题,通常用 和 分别表示平均数和成数的抽样平均误差。在纯随机抽样条件下,有: 需要说明的是,从理论上讲,对于固定的总体和样本容量,在相同的抽样方法下,抽样标准误差是一个唯一确定的值。但从实践来看,由上述公式计算抽样标准误差是不现实或不可能的。实际情况往往是要由样本的有关资料来估计,因而以这个定义上来说,抽样标准误差又是一个随机变量,随样本不同而有不同估计值。
这里的 又称为不重复抽样的修正系数。当 较小时,这个系数可近似表示为。
1.总体内部的差异程度 影响抽样标准误差的大小主要有以下几个方面。 2.样本容量 往往成为决定性因素。因为 不能改变,理论上 ,但n↑,调查费用也↑,产生登记性误差的可能性↑。∴无控制地增大n是不可取的。况且样本容量过大也失去了抽样标准误差的意义。 3.抽样方法
4.抽样组织形式 5.估计总体参数的方法 简单估计 比率估计 回归估计 选择好的估计方法,几乎可以在不增加工作量的情况下,提高估计的精度。
(三)抽样极限误差 以样本统计量估计总体参数时所允许的最大误差范围。即在一次抽样推断时,样本统计量可允许取的最高值或最低值与总体参数之差的绝对值。 之所以规定抽样标准误差,是因为每次抽样调查都有一定的精度要求,如果样本统计量误差过大,那么抽样推断结果就毫无意义。如粮食平均亩产一般每年递增5%(实际),如果抽样推断的误差率>5%,那么这样的抽样调查就毫无价值。
设 抽样极限误差,则有 展开: 它表示所允许的样本统计量在以总体参数为中心的某一范围内变动,变动区间为:
具体到 和 ,则应有 然而,我们抽样调查或推断的目的是以某已知的样本统计量的值去估计未知的总体系数,而不是去判断样本统计量的值是否落在某一规定的范围。所以,我们希望的是总体参数在以 为中心的某一区间范围。对上述不等式变形:
由此可知, 对于所估计的 是至关重要的。 例如,我们根据样本测得某产品不合格率为8%,如果 为2%,则总体产品的不合格率在[6%,10%]之间,如果 为1%,则[7%,9%] 即:
我们知道, 是唯一的,而 是变化的,它往往根据实际需要加以确定。如果说是 是一把尺子,那么 则是以这把尺子来衡量的任一物体的长度,可长可短。 若以 来表示与对比的倍数,则有: 即: 其中 称为抽样概率度。
抽样估计的置信度 抽样指标和总体指标的误差不超过一定范围的概率大小,我们将它称之为概率保证程度,也叫抽样估计的置信度,一般用F(t)表示。即: 置信度 t值与相应的概率保证程度存在一一对应关,常用t值及相应的概率保证程度为: t值 概率保证程度 1.00 0.6827 1.96 0.9500 2.00 0.9545 3.00 0.9973 在大样本下
《统计学》第六章 抽样推断 抽样极限误差 99.73% 95.45% 68.27%
区间估计原理 以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。
《统计学》第六章 抽样推断 落在 范围内的概率为68.27% 样本抽样分布曲线 原总体分布曲线 区间估计原理 0.6827
《统计学》第六章 抽样推断 落在 范围内的概率为95.45% 区间估计原理 0.9545 样本抽样分布曲线 原总体分布曲线
《统计学》第六章 抽样推断 落在 范围内的概率为99.73% 区间估计原理 0.9973 样本抽样分布曲线 总体分布曲线
若以抽样极限误差( )除以总体参数的估计量,所得结果为抽样误差率 ,而用100%减去抽样误差率,则称为抽样推断精度,用 表示。