440 likes | 660 Vues
《 实验经济学 》 第五讲: 假设检验. 杜宁华 上海财经大学经济学院,经济学实验室 2008 年 3 月. 采用什么办法进行假设检验与实验设置设计密切相关。 前几讲在介绍完全随机设计、随机区组设计、拉丁方和拉丁矩等各种设计方法时,都详细讨论了如何运用该设计下的方差分析进行假设检验。 实验数据与生活中的实地数据的根本区别在于数据的产生过程;而实验数据在处理过程中也有其特殊性。 由于实验数据的样本容量比较小,进行非参数的检验往往成为无法替代的选择。. 讨论的要点:. 关于均值的参数检验 关于方差和均值差的参数检验 非参数的检验方法. 一、关于均值的参数检验.
E N D
《实验经济学》第五讲:假设检验 杜宁华 上海财经大学经济学院,经济学实验室 2008 年 3月
采用什么办法进行假设检验与实验设置设计密切相关。采用什么办法进行假设检验与实验设置设计密切相关。 • 前几讲在介绍完全随机设计、随机区组设计、拉丁方和拉丁矩等各种设计方法时,都详细讨论了如何运用该设计下的方差分析进行假设检验。 • 实验数据与生活中的实地数据的根本区别在于数据的产生过程;而实验数据在处理过程中也有其特殊性。 • 由于实验数据的样本容量比较小,进行非参数的检验往往成为无法替代的选择。
讨论的要点: • 关于均值的参数检验 • 关于方差和均值差的参数检验 • 非参数的检验方法
考虑如下情形:我们得到了一个随机样本,其样本容量为n, 且样本服从正态分布N(μx ,σx2) ;分布的方差σx2已知,而分布的均值μx未知。我们所感兴趣的理论假设是μx = μ0。相对应于零假设的备择假设有如下三种形式: • μx < μ0. (实际均值仅可能低于μ0) • μx > μ0. (实际均值仅可能高于μ0) • μx ≠ μ0. (双侧检验)
检验上面三种形式的被择假设所共用的检验统计量为:检验上面三种形式的被择假设所共用的检验统计量为: 令zα为对应于标准正态分布的α区间关键值。例如, z0.05=1.65的含义是,对于服从标准正态分布的随机变量Z而言,Z 〉1.65的概率为0.05。由此得到显著水平为α的Z检验的拒绝域:
2.只有在方差已知的情况下,Z检验才是“恰当”的检验方法。当方差未知,而样本仍服从正态分布时,关于均值的恰当的检验统计量为:
对于T检验的拒绝域的描述与前面对Z检验的拒绝域的描述类似,唯一的区别是标准正态分布换成了t分布。例如,双侧被择假设μx ≠ μ0被接受、零假设μx = μ0被拒绝的条件为:
例: 假设我们相信在某个对策环境中,某个特定的纳什均衡解出现的概率为p。我们并不知道在实际操作中p为多少,但理论中对p的预测为25%。这里我们需要检验的零假设为p = 0.25,被择假设为p ≠ 0.25。为了检验这一假设,我们征召100组实验对象进行实验,观察在实验中纳什均衡解是否出现。由此,我们得到100个服从伯努利分布的、成功率为p的独立观察值。
服从伯努利分布的随机变量的概率密度函数为: f(x) = px(1 – p)1 – x , x = 0, 1 根据中心极限定理,对p的估计量的极限分布为正态分布:
假设我们根据观察值得到对p的估计量 = 0.2,这也是对p的估计量的极限分布的均值的估计量。同时,我们得到对p的估计量的极限分布的方差的估计量,0.2*0.8/100 = 0.0016。由此,我们可以构造出检验零假设的Z检验统计量,并将该统计量与关键值相比较: 我们无法在5%的显著水平下拒绝零假设。
我们从某个方差未知的正态分布中得到含有n个观察值的随机样本。如果我们需要检验的零假设为该分布的方差等于100,相应的备择假设为双侧假设,那么在零假设为真的前提下会有 (n – 1)S2/100~χ2(n – 1)。因此,我们可以通过比较统计量S2与χ2(n – 1)分布来检验零假设是否为真。零假设的拒绝域为: 或
2.从两个独立的正态分布X和Y中我们分别得到m和n个观察值。我们需要检验的零假设是分布X和分布Y的方差相同,被择假设为双侧假设。 (n – 1)SX2/σx2 ~χ2(n – 1) 且 (m – 1)SY2/σY2 ~χ2(m – 1),在零假设为真的前提下我们有σx2 = σY2,因此SX2/SY2 ~ F (n – 1, m – 1) 。
3.从两个独立的正态分布X和Y中我们分别得到m和n个观察值。假设我们已知两个分布的方差相同,我们需要检验的零假设是分布X和分布Y的均值相同,被择假设为双侧假设。为检验这一假设,我们需要构造的统计量为::3.从两个独立的正态分布X和Y中我们分别得到m和n个观察值。假设我们已知两个分布的方差相同,我们需要检验的零假设是分布X和分布Y的均值相同,被择假设为双侧假设。为检验这一假设,我们需要构造的统计量为:: 该统计量服从自由度为n + m – 2的t分布。
4.当两个独立的正态分布X和Y的方差不相同时,我们很难运用传统的方法检验这两个分布的均值是否相同。4.当两个独立的正态分布X和Y的方差不相同时,我们很难运用传统的方法检验这两个分布的均值是否相同。 (其原因是我们在构造统计量时无法直接剔除方差的影响,这一问题被称作Behrens-Fisher问题。)
检验这一假设的近似统计量为 该统计量近似服从自由度为n + m – 2的t分布。样本容量越大,该统计量的近似效果越好。当样本容量足够大时,t检验可以被z检验替代。当分布X和分布Y的方差为已知量σX2和σY2时,我们可以用σX2和σY2替代Sx2和SY2,此时的统计量准确服从自由度为n + m – 2的t分布。
三、非参数检验方法 Siegel and Castellan, 1988. Nonparametric Statistics for the Behavioral Sciences.
非参数统计检验的优势 • 在小样本的情况下,我们无法用正态分布描述数据生成过程。非参数检验成了无法替代的选择。 • 易于执行秩检验 • 运用非参数检验易于比较来自不同分布的均值,非参数方法能够很好地解决前面提到的Behrens-Fisher问题。 • 对统计量的构造直观
2.非参数检验的劣势 • 由于非参数检验不对样本的来源总体的分布进行任何假设,其检验强度要低于参数检验(即相同的显著水平下,非参数检验“取伪”的可能性更大)。
3. 常用的非参数检验方法 • χ2契合度检验 用于检验某样本是否服从某种特定的分布。 H0:样本服从概率密度函数为f的分布。 H1:其它情况。
检验的统计量为: Oi:落入第i个类别的观察值的数量 Ei:当零假设为真时预期落入第i个类别的观察值的数量 k:类别的数量 当显著水平为α、且ν> χα2(k – 1)时,零假设被拒绝。
例: 某实验记录了n个实验参与者在多回合的重复对策中的序列决策。
Yjk = G(X1jk,…,Xnjk,θ),j=1,…,4,k=A,…,D j:对策的回合 k:实验参与者可能的选择 Y:频率 X1至Xn:描述实验参与者特征的向量 θ:参数向量 现研究人员需要评价参数模型G(·)能否很好地解释在实验中实验参与者在各回合做出各种不同决策的频率。
用χ2契合度检验来回答这一问题: • 估计参数模型。根据观察值X1…Xn,Y得到参数向量θ的点估计 。 • 根据估计量 和参数模型得到在各回合中所有实验参与者总的选择各种决策的频率的估计值(在这个例子中的“类别”,就是表中的各单元)。 • 最后,计算统计量ν并将其与分布χ2(15)相比较。
统计量ν只是渐进服从χ2分布。 • 当数据量较小、特别是当实验者所划分的每个类别内的观察值少于5个时,实验者应适当合并类别以增加每个类别内的观察值数量。 • 当类别数量和类别内的观察值数量都很少时,该检验的结果可能会不准确。
配对排列检验 • 相对实验中检验实验效果的有效检验。 零假设:在不同实验条件下所观察到的实验结果差异完全不是因为实验条件的变化造成的。
研究人员希望了解A和B两种市场机制下的平均交易价格有无显著差异。研究人员希望了解A和B两种市场机制下的平均交易价格有无显著差异。 • 独立地征召10组实验参与者共进行10次实验,每次实验分别在A和B两种市场机制下让实验参与者进行交易。 • 投掷硬币决定机制实施次序。 • 用H表示先A后B,用T表示先B后A。
如果零假设为真,则各组参与者调换实施机制A和机制B的次序,所造成的交易价格差PB – PA的变化仅体现在正负符号上。 • 10组参与者一共有210 = 1024种实施实验的可能。 • 对其它1023种可能的实施方案下的结果,在零假设为真的前提下,如果某组参与者实施A和B的次序与真实的实验次序一致,则预期的价格差与真实的实验结果一致;如果实施A和B的次序与真实的实验次序相反,则预期的价格差与真实的实验结果符号相反。
1023种方案下的1023个预期平均价格差就构成了零假设下的取样分布。1023种方案下的1023个预期平均价格差就构成了零假设下的取样分布。 • 将实验中得到的平均价格差与其它的1023个预期平均价格差相比较,实验者就得到了实验所得平均价格差在配对排列检验中的P值(P值是在零假设为真的前提下,预期的平均价格差高于实验所得平均价格差的机率)。
1023个预期平均价格差当中仅仅有3个预期平均价格差高于0.41,仅仅有4个预期平均价格差等于0.41。实验者所实施的配对排列检验的P值为7/1024,约等于0.7%。1023个预期平均价格差当中仅仅有3个预期平均价格差高于0.41,仅仅有4个预期平均价格差等于0.41。实验者所实施的配对排列检验的P值为7/1024,约等于0.7%。 • 实验效果非常显著,实验者应当拒绝零假设。
由于配对排列检验运用样本中的全部信息,在非参数检验方法中配对排列检验是检验强度较高的检验方法。由于配对排列检验运用样本中的全部信息,在非参数检验方法中配对排列检验是检验强度较高的检验方法。 • 缺点: 观察值的数量较大时该检验方法的计算负担较繁重。 • 与配对排列检验方法类似、计算量又相对较小的非参数检验方法是Wilcoxon符号秩检验,有时该方法也被称作配对符号秩检验。 • 只考虑实验结果差异的符号、并不记录实验结果差异的真实值。
中位数检验 • 中位数检验用于检验两个独立的样本是否具有相同的中位数。 • 由于中位数检验不对两个独立样本背后的分布作出很强的假设,该检验适用范围很广。
将两个独立样本合并、得到合并样本的中位数,然后构建下表:将两个独立样本合并、得到合并样本的中位数,然后构建下表:
令观察值总量为N,N = m + n,则取样分布的近似统计量为 中位数检验的零假设为两个独立样本的中位数相同。在零假设为真的前提下,统计量v服从分布χ2(1)。样本容量越大,统计量v的近似效果越好。
Wilcoxon-Mann-Whitney检验是与中位数检验相类似的非参数检验方法。 Wilcoxon-Mann-Whitney检验的强度要高于中位数检验的强度,但代价是 Wilcoxon-Mann-Whitney检验要作出更强的假设,比如两个独立样本所服从的分布的方差相同。
Jonckheere检验 • 假设实验者从k个独立的总体中得到k个数据集,令第i个总体的中位数为θi,Jonckheere检验可用于检验下面的假设: 零假设H0:各总体的分布相同。 备择假设H1:各个总体的中位数不同,其次序为θ1 ≤…≤θk, 且至少有一个 不等式为严格不等式。
表中各列由小到大排序 为进行Jonckheere检验,首先我们需要构建下面的表格:
Jonckheere检验的统计量J*: • 对表中前k–1列中的每一个观察值X(i,j),构造与其相对应的N(i,j)。N(i,j)是第j+1列至第k列中所有大于X(i,j)的观察值的数量。 • 将J定义为所有N(i,j)的和,j ≤ k–1。
在零假设为真的前提下(各总体的分布相同),统计量J的取样分布的均值和方差分别为:在零假设为真的前提下(各总体的分布相同),统计量J的取样分布的均值和方差分别为:
当样本容量较大时,统计量 近似服从标准正态分布。将统计量 J*与标准正态分布相比较,我们就可以得到检验结果。 • 如果检验结果拒绝了零假设,那么在备择假设的k-1个不等式中至少有一个被违背。而究竟是哪个不等式被违背,我们无法从检验结果中得知。