第五章统计描述参数估计与假设检验

第五章统计描述 参数估计与假设检验数理统计是从对随机现象的观测所得之资料出发，用概率论的理论与方法，来研究随机现象，其基本问题是随机抽样并根据所抽得的样本来推断总体的情况．

所谓总体是指在研究目的之下所能确定的最大观察范围.所谓总体是指在研究目的之下所能确定的最大观察范围. 按照随机性原则，即保证总体中每一观察单位都有同等的机会被抽取到的原则，从总体中抽取部分观察单位形成样本. 样本中所含样本点的个数称为样本含量．

对样本的观察数据有三类： 计量数据品质数据等级数据

计量数据是指用定量的方法测定观察单位的某数量特征所得数据，如身高、体重等．计量数据是指用定量的方法测定观察单位的某数量特征所得数据，如身高、体重等．品质数据是指观察单位属性描述之类的数据，如性别、血型、民族等．等级数据是指观察单位某种属性描述存在不同程度与等级差别的数据，如职称、学历等．本章主要内容是统计描述、参数估计与假设检验及其R软件操作．

11-1 计量数据的统计描述11-1-1 统计软件R简述 R软件具有开放的统计编程环境，它提供了若干统计程序包以及各种数学计算与统计计算的函数．用户还可根据自己的需要编写自己的R函数来扩展现有的R语言．

更值得一提的是，R是一种完全免费的共享的统计软件，目前由R核心开发小组维护，他们将全球优秀的统计应用软件打包提供给用户．用户可以通过R软件的网站(http://www.r-project.org)了解有关R软件的最新信息和使用说明，得到最新版本的R软件和基于R的应用统计软件包．更值得一提的是，R是一种完全免费的共享的统计软件，目前由R核心开发小组维护，他们将全球优秀的统计应用软件打包提供给用户．用户可以通过R软件的网站(http://www.r-project.org)了解有关R软件的最新信息和使用说明，得到最新版本的R软件和基于R的应用统计软件包．

R软件可以在UNIX，Windows或Macintosh操作系统上运行，它自带一个非常实用的帮助系统，并具有很强的作图能力．

R软件中数据的组织方式常用的一般有三种：向量、矩阵、数据框．

建立向量的命令是c ( )，如下述命令是将一列数据组成的数组存储在变量x中． > x<-c (3, 2, 9,18,8,0,7,5)

建立矩阵的常用命令是matrix ( )，如下述命令是将向量x定义成2行4列矩阵，仍保存在变量x中，元素按行排列，即第一行的元素是3, 2, 9,18，第二行的元素是8,0,7,5． > x<-matrix(x,nrow=2,ncol=4,byrow=TRUE)

或者使用命令dim( )，也可实现上述功能 > dim(x)=c(2,4) 此时，变量x不再是一维向量，而是二维矩阵．

建立数据框的方法常见的有两种: 第一种是使用命令data.frame( ) 第二种是使用命令read.table ( ) 现示例如后

现有如下形式的记录单 name sex age height weight Alice F 13 56.5 84.0 Becka F 14 64.3 90.0 Kathy F 12 59.8 84.5

下述命令是将上述记录单数据读入内存并存储于数据框变量rt中下述命令是将上述记录单数据读入内存并存储于数据框变量rt中 > rt<-data.frame( name=c("Alice","Becka", "Kathy"), sex=c("F","F", "F"), age=c(13,14, 12), height=c(56.5,64.3,59.8), weight=c(80.0,90.0,84.5) )

上述数据框变量rt的另一种建立是主样的: 首先利用编辑器，建立如前所示记单格式的文本文件，也可将Excel工作表文件另存为制表符分隔的文本文件，不妨设文件名是“example.txt”．

然后通过下述命令将文本文件“example.txt”中所含的记录单，读入内存，以数据框的形式存储于变量rt中，其中文件名前可带路径．然后通过下述命令将文本文件“example.txt”中所含的记录单，读入内存，以数据框的形式存储于变量rt中，其中文件名前可带路径． > rt<-read.table("example.txt",head=TRUE)

11-1-2 平均水平或集中趋势 1．计量资料的频数分布首先看一个实例例1现有某地某年110名7岁男童身高（厘米）资料如下： 118.1 108.2 118.9 110.8 118.2 123.0 113.0 117.2 122.7 112.4 120.0 119.6 113.2 119.7 114.8 116.2 114.7 118.3 120.3 123.5 122.5 122.0 117.0 120.7 114.3 122.5 119.7 116.8 119.8 119.7 112.7 129.3 121.8 117.7 124.1 121.5 126.1 122.9 128.0 119.8 117.2 114.3 124.1 120.0 121.5 120.0 130.5 120.8 126.6 120.2 120.4 113.2 116.0 129.1 118.4 117.1 114.9 116.4 119.0 124.4 121.2 121.0 115.4 116.3 125.5 112.2 125.2 114.9 124.4 112.3 114.8 113.0 120.8 112.4 118.5 122.8 120.1 120.1 118.4 117.9 120.7 125.2 118.0 126.2 122.1 120.7 117.4 119.1 122.8 123.8 111.5 119.3 125.0 122.4 110.3 114.3 123.1 125.1 120.5 116.3 130.8 132.5 116.3 127.1 120.6 119.5 120.5 125.6 123.2 116.8

这一组数据的最小值是108.2，最大值是132.5，在这一范围内，110个观察数据是如何分布的呢？是均匀分布还是非均匀分布；如果是非均匀分布，那么是靠近108.2的数据较多还是靠近132.5的数据较多还是其它分布特征．这一组数据的最小值是108.2，最大值是132.5，在这一范围内，110个观察数据是如何分布的呢？是均匀分布还是非均匀分布；如果是非均匀分布，那么是靠近108.2的数据较多还是靠近132.5的数据较多还是其它分布特征．

为了解数据的分布特征，通常的做法是将从108.2到132.5的区间平均分成若干个小组段，计数每一个组段中观察值出现的频数，并据此绘成直方图．为了解数据的分布特征，通常的做法是将从108.2到132.5的区间平均分成若干个小组段，计数每一个组段中观察值出现的频数，并据此绘成直方图．手工完成这一工作是一件十分繁锁的事件.

下面用R操作如下： 用向量形式输入数据，并用绘制直方图命令hist ( )如下： > x<-c (118.1,108.2,118.9,…,116.8) > hist(x,nclass=10)

其中，参数nclass=10是指定分组个数，一般实际分组个数比指个数略大，大多数情况下，该参数可以省略而采用系统默认分组个数．其中，参数nclass=10是指定分组个数，一般实际分组个数比指个数略大，大多数情况下，该参数可以省略而采用系统默认分组个数．

从输出的直方图可以看出，这110个数据在从108.2到132.5的区间中并不是均匀分布的，而是中间位置（119.0）附近的数据较多，两侧的数据较少，左右基本对称．称这种分布类型为对称分布．从输出的直方图可以看出，这110个数据在从108.2到132.5的区间中并不是均匀分布的，而是中间位置（119.0）附近的数据较多，两侧的数据较少，左右基本对称．称这种分布类型为对称分布．

同时增加观察数据个数（不是110而是1100或11000或更多）与分组个数，则可以预见，所得到的直方图中的直条将逐渐变窄，其顶端将逐渐接近于后图所示的钟形曲线，两头低，中间高，左右对称，近似于数学上的正态分布．同时增加观察数据个数（不是110而是1100或11000或更多）与分组个数，则可以预见，所得到的直方图中的直条将逐渐变窄，其顶端将逐渐接近于后图所示的钟形曲线，两头低，中间高，左右对称，近似于数学上的正态分布．

如果频数分布的最高峰不在中间，左右不对称，那么称这种分布类型为偏态分布．另外，还会有多峰分布的情况，等等．如果频数分布的最高峰不在中间，左右不对称，那么称这种分布类型为偏态分布．另外，还会有多峰分布的情况，等等．

2．算术均数 平均数用来反映一组计量资料的平均水平或集中趋势，它常作为一组数据的代表值．常用平均数有算术均数、几何均数、中位数．算术均数，简称均数，一个统计总体的均数常用字母μ表示，从统计总体的抽样而得样本的样本均数常用表示．

该命令是将存在向量x中的观察数据求算术均数，并将计算结果存在在变量m中．针对例1的数据，上述命令得到的结果是119.72cm．该命令是将存在向量x中的观察数据求算术均数，并将计算结果存在在变量m中．针对例1的数据，上述命令得到的结果是119.72cm．均数适用于对称分布资料，尤其是正态分布资料．

例2中国从1996年到2006年10年间的GDP年发展速度分别是例2中国从1996年到2006年10年间的GDP年发展速度分别是 1.110 1.069 1.062 1.106 1.105 1.097 1.129 1.177 1.150 1.147 它们的连乘积则是2006年相对于1996年的发展速度，因而这10年的平均发展速度用它们的几何平均数来表示．

R软件操作如下： >x<-c(1.110,1.069,1.062,1.106,1.105,1.097,1.129,1.177,1.150,1.147) > lnx<-log(x) > exp(mean(lnx)) 运算结果是1.1147，于是中国从1996年到2006年10年间的GDP年年平均发展速度是111.47%，平均增长速度是11.47%．

对同一组资料而言，算术均数的值不小于几何均数的值．对同一组资料而言，算术均数的值不小于几何均数的值．

4．中位数 根据一组资料所绘制的直方图如果不是中间高，两头低，左右对称时，而是高峰偏左或偏右或出现多峰等情形，分布类型不明，那么这一组资料的平均水平或集中趋势就应采用较为稳健、不收极端数据影响的中位数指标．中位数是指将一组数据顺序排列后处于中间位置的数值，一般用M来表示．

对于对称分布来说，算术均数与中位数理论上是相等的．对于对称分布来说，算术均数与中位数理论上是相等的．在例1中，算术均数是119.72cm，用下述命令所得到的中位数则是119.9cm． > x<-c (118.1,108.2,118.9,…,116.8) > m<-median(x)

如果数据总个数是奇数个，那么中位数等于处于中间位置的数据，如果数据总个数是偶数个，那么中位数等于处于中间两个数据的和的一半．如果数据总个数是奇数个，那么中位数等于处于中间位置的数据，如果数据总个数是偶数个，那么中位数等于处于中间两个数据的和的一半．

11-1-3 变异程度或离散趋势 对一组计量资料的完整刻画，不仅要指出其平均水平或集中趋势，还要指出该组资料的离中程度或离散趋势，离散趋势反映了数据之间的变异程度．

下面有两组数据： 甲：10，20，30，40，50，60，70，80，90 乙：30，35，40，45，50，55，60，65，70 这两组数据的平均水平一致，算术均数均是50，但数据之间的变异程度不同，甲组数据较为离散，变异程序较大，而乙组数据则较为集中，变异程序较小．

反映数据变异程度或离散趋势的指标有多种，这里主要介绍常用的几个．反映数据变异程度或离散趋势的指标有多种，这里主要介绍常用的几个． • 极差 • 方差 • 标准差 • 变异系数

1．极差 极差，又称为全距，是指一组计量资料最大值与最小值的差，一般有R表示．例1中110个数据的差计算过程如下： > x<-c (118.1,108.2,118.9,…,116.8) > R<-max(x)-min(x) 极差是一种最为粗略的离散程度描述，它只利用了最大值与最小值两个数值，而对其它所有数据置之不理，数据利用率最低．

2．方差、标准差与变异系数

其中n是观察值个数．这里样本方差分母上的是因为，如果用的话，那么算得的样本方差总体上略小于总体方差．其中n是观察值个数．这里样本方差分母上的是因为，如果用的话，那么算得的样本方差总体上略小于总体方差．

例1 中的数据方差、标准差及变异系数求法如下： > x<-c (118.1,108.2,118.9,…,116.8) > m<-mean(x) > v<-var(x) > s<-sd(x) > CV<-s/m 其中，var ( )是方差函数，sd ( )是标准差函数．

11-1-4 正态分布

第五章 统计描述 参数估计与假设检验