1 / 44

多元统计分析及 SPSS 应用

多元统计分析及 SPSS 应用. 赵瑞清. Ruiqing Zhao. 天津大学. Tianjin University. rzhao@orsc.edu.cn http://orsc.edu.cn/~zhao. rzhao@orsc.edu.cn session 3 聚类分析. 应用多元统计分析及 SPSS 应用 Session 3 统计数据的收集、整理与描述. Session Topics. 统计数据的来源. 统计数据的收集. 统计数据的整理. 统计数据的描述. 统计数据的来源. 一、统计数据的直接来源. 来源于管理和研究需要而专门组织的调查.

orien
Télécharger la présentation

多元统计分析及 SPSS 应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多元统计分析及SPSS应用 赵瑞清 Ruiqing Zhao 天津大学 Tianjin University rzhao@orsc.edu.cn http://orsc.edu.cn/~zhao

  2. rzhao@orsc.edu.cnsession 3聚类分析 应用多元统计分析及SPSS应用 Session 3 统计数据的收集、整理与描述

  3. Session Topics 统计数据的来源 统计数据的收集 统计数据的整理 统计数据的描述

  4. 统计数据的来源 • 一、统计数据的直接来源 • 来源于管理和研究需要而专门组织的调查 • 来源于科学试验的数据 • 二、统计数据的间接来源 • 来源于公开出版物的数据 • 来源于内部调查的数据

  5. 询问调查 观察实验 访问调查 邮寄调查 电话调查 电脑辅助 座 谈 会 个别深访 观 察 实 验 统计数据的收集 数据的搜集方法

  6. 访问调查 1. 调查者与被调查者通过面对面地交谈而获得资料 2. 有标准式访问和非标准式访问 • 标准式访问通常按事先设计好的问卷进行 • 非标准式访问事先一般不制作问卷

  7. 邮寄调查 • 也称邮寄问卷调查 • 是一种标准化调查 • 调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷 • 通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点 • 问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种

  8. 您好! 我是××调查公司的调查员… • 电话调查 • 调查者利用电话与被调查者进行语言交流以获得信息 • 时效快、成本低 • 问题的数量不宜过多

  9. 电脑辅助调查 • 又称电脑辅助电话调查 • 电脑与电话相结合完成调查的全过程 • 一般需借助专门的软件进行 • 硬件设备要求较高

  10. 座谈会 1. 也称集体访谈 2. 将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料 3. 参加座谈会的人数不宜过多,一般为6~10人 4. 侧重于定性研究

  11. 个别深度访问 • 一次只有一名受访者参加、针对特殊问题的调查 • 适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题 • 侧重于定性研究

  12. 观察法 1. 就调查对象的行动和意识,调查人员边观察边记录以收集所需信息 2. 调查人员不是强行介入 3. 能够在被调查者不察觉的情况下获得资料

  13. 实验法 1. 在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料 2. 有室内实验法和市场实验法

  14. 2.网络 世界发展报告 中国人口统计年鉴 中国市场统计年鉴 世界经济年检 Internet 工业普查数据 中国统计年鉴2001 中国统计出版社 • 统计数据的间接来源 1. 公开出版物:《 中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》……

  15. 统计数据的整理 一、统计分组 根据统计研究的目的和客观现象的内在特点,按某个标(或几个标志)把被研究的总体划分为若干个不同性质的 组,称为统计分组。 例:某班学生按考试成绩分组

  16. 二、频数分布与频率分布 • 将数据按其分组标志进行分组的过程,就是频数分布和频率分布形成的过程。表示各组的单位的次数称为频数,各组次数与总次数之比称为频率。

  17. 二、频数分布与频率分布 • 频数分布就是观察值按其分组标志分配在各组内的次数,由分组标志序列和各组相对应的分布次数两个要素构成。 • 由分组标志序列和各组相应的频率构成频率分布。

  18. 当所观察的次数很多,组距很小并且组数很多时,所绘出的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这种曲线即频数分布曲线,反映了数据的分布规律。当所观察的次数很多,组距很小并且组数很多时,所绘出的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这种曲线即频数分布曲线,反映了数据的分布规律。

  19. 三、累积频数分布与频率分布 为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要绘出累积频数或累计频率。 在SPSS 中对下数据进行频数(率)分析

  20. 1.定义工人编号和加工零件数的变量名分别为NO 和X,然后输入变量NO 和X 的原始数据。

  21. 2.选择[Analyze]=>[Descriptive Statistics]=>[Frequencies...],弹出[Frequencies]主对话框。

  22. 现欲X 进行频数分析,在对话框左侧的变量列表中选X,单击按钮使之进入[Variable(s)]列表框,并选择[Display Frequency Tables]显示频数分布表。

  23. 3.可单击[Format...]按钮弹出[Frequencies:Format]子对话框3.可单击[Format...]按钮弹出[Frequencies:Format]子对话框 根据数值大小按升序从小到大作频数分布 数值大小按降序从大到小作频数分布 频数多少按升序从少到多作频数分布 频数多少按降序从多到少作频数分布

  24. 4.可单击[Statistics...]按钮,弹出[Frequencies:Statistics]子对话框,并单击相应项目,在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。这里不选。4.可单击[Statistics...]按钮,弹出[Frequencies:Statistics]子对话框,并单击相应项目,在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。这里不选。 • 5.可单击[Charts...]钮,弹出[Frequencies:Charts]子对话框,

  25. 用户可选三种图形:直条图(Bar chart)、饼图(Pie Charts)和直方图(Histogram)。这里选择[Histogram] 项,并选择[With Normal Curve]要求绘制正态曲线。单击[Continue]按钮返回[Frequencies]主对话框,再单击[OK]钮即可得到(累计)频数(频率)分布表和直方图。

  26. 输出结果 频数(率)分布表

  27. 加工零件数

  28. 应该注意的是,SPSS 在未特别指定的情形下,直方图或频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在一定数目的要求不符。 • 在调用[Frequencies]统计过程命令之前,可先对原始数据进行预处: 已知最小值为84,最大值为128,全距为10,故可要求分成5 组,起点为80,组距为10。 选择[Transform]=>[Recode]=>[Into Different Variable...],在弹出的[Recode Into Different Variable]对话框中选定X,单击按钮使之进入[Numeric Variable→Output Variable]列表框,在[OutputVariable]栏的[Name]文本框中输入x1,单击[Change]按钮表示新生成的变量名为x1。 单击[Old and New Values]按钮弹出[Recode Into Different Variable:Old and New Values]子对话框,在[Old Value]选项中单击[Range]项,输入第一个分组的数值范围:80~89,在[New value]栏内输入新值:80,单击[Add]按钮. 依此将各组的范围及对应的新值逐一输入,最后单击[Continue]按钮返回,再单击[OK]按钮即完成。系统在原数据库中生成一新变量为x1,这时再调用[Frequencies]统计过程将输出等距分组且组数为5 的频数分布表。

  29. 统计数据的描述 作为统计数据的代表值,一个是分布的中心,反映分布的集中趋势,另一个是分布的形状,反映分布的离散程度。这些代表性的数量特征值精确地描述出不同的统计数据分布。 一、 分布的中心 众数(mode) 在正态分布和一般的偏态分布中,分布曲线最高点所对应的数值即是众数。如果没有明显的最高点,众数可以不存在。当然,如果有两个最高点,也可以有两个众数。

  30. 中位数(median)与分位数 中位数是数据排序后,位置在最中间的数值。 与中位数相似的还有四分位数(quartiles)、十分位数(decile)和百分位数(percentile)。中位数是将统计分布从中间分成相等的两部分,而四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布十等分和一百等分的数值。 平均数(均值)(mean) 平均数是数据集中趋势的最主要测度值

  31. 三个中心度量的比较

  32. 二、分布的形状 用于描述数据分布形状即分布关于其中心的波动程度的代表值有:极差、内距、方差和标准等,它们描述了分布的离散程度和差异程度。 (一)极差(range) 极差也称为全距,是最大值与最小值之间的距离,它是数据离散或差异程度的最简单测度值,即 例如,在前面的数据中,极差为128-84=44(件)。显然,数据的离散程度大,极差就越大。极差虽然很容易计算,但它只告诉我们数据分布范围,至于分布的中间部分是如何变化的则不得而知。而且它受极端值的影响可能是很大的。

  33. (二)内距(Inter-Quartile Range, IQR) 内距又称为四分位差,是两个四分位数之差,IQR=高四分位数—低四分位数。 若内距比较小,则说明数据比较集中在中位数附近;反之则比较分散。内距常和中位数一起用来描述一个定距特别是定序测量数据的分布。 (三)方差(variance)和标准差(standard deviation) 方差是离差平方的平均数,即 或

  34. 三、偏度与峰度 (一)偏度(skewness) 所谓偏度是指反映频数分布偏态方向和程度的测度。 • 在频数分布中,最大集中点以上(频数曲线图横轴上众数的右边)的频数占总频数的一半多,称为右偏或正偏。 • 最大集中点以下(频数曲线图横轴上众数的左边)的频数占总频数的一半多,称为左偏或负偏。 偏度的计算公式为:

  35. (二)峰度(kurtosis) 所谓峰度,是指频数分布曲线高峰的形态,即反映分布曲线 的尖峭程度的测度。 峰度的计算公式为 当β=0 时,表示分布的峰度是正态分布的峰度;当β>0 时,表示分布曲线的高峰是尖顶高峰;当β<0 时,表示分布曲线的高峰是平顶高峰。

  36. 四、SPSS 操作 在SPSS 中计算上例各种指标的步骤为: (一)定义加工零件数的变量名为X,并输入原始数据。 (二)选择[Analyze]=>[Descriptive Statistics]=>[ Descriptives...],打开[Descriptives]主对话框。

  37. 打开[Descriptives]主对话框。在主对话框左边列表中选定变量X,单击按钮使之进入[Variables(s)] 列表框。

  38. (三)单击[Options...]按钮,打开[Descriptives:Options]子对话框。选择均值(Mean)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峰度(Kurtosis),选好后单击[Continue]按钮返回[Descriptives]主对话框,再单击[OK]按钮即可得到各种统计量的计算结果。(三)单击[Options...]按钮,打开[Descriptives:Options]子对话框。选择均值(Mean)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峰度(Kurtosis),选好后单击[Continue]按钮返回[Descriptives]主对话框,再单击[OK]按钮即可得到各种统计量的计算结果。

  39. 输出结果: 以上结果没有给出中位数、众数等统计量,可以在频数(率)分析时增加选项计算相应的统计量,具体操作步骤如下: (一)定义工人编号和加工零件数的变量名分别为NO 和X,然后输入变量NO 和X 的原始数据。 (二)选择[Analyze]=>[Descriptive Statistics]=>[Frequencies...],

  40. 弹出[Frequencies]主对话框。现欲X 进行频数分析,在对话框左侧的变量列表中选X,单击按钮使之进入[Variable(s)]列表框,并选择[Display Frequency Tables]显示频数分布表。

  41. (三)单击[Statistics...]按钮,弹出[Frequencies:Statistics]子对话框,并单击相应项目。本例中选择均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峰度(Kurtosis),选好后单击[Continue]按钮返回[Frequencies]主对话框,再单击[OK]按钮即可得到各种统计量的计算结果。(三)单击[Statistics...]按钮,弹出[Frequencies:Statistics]子对话框,并单击相应项目。本例中选择均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峰度(Kurtosis),选好后单击[Continue]按钮返回[Frequencies]主对话框,再单击[OK]按钮即可得到各种统计量的计算结果。

  42. 输出结果:

  43. The End! Enjoy!

More Related