第六章地理系统的聚类分析与判别分析

第六章地理系统的聚类分析与判别分析

第一节地理系统的聚类分析 聚类分析方法: 是定量地研究地理事物分类问题和地理分区问题的重要方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。

一. 聚类分析的数据处理 • 当分类要素的对象确定之后，在进行聚类分析之前，首先要对聚类要素进行数据处理。假设有m个聚类的对象，每一个聚类对象都有n个要素构成。它们所对应的要素数据可用下表给出。

在聚类分析中，常用的聚类要素的数据处理方法有如下几种:在聚类分析中，常用的聚类要素的数据处理方法有如下几种: ①总和标准化。分别求出各聚类要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即这种标准化方法所得到的新数据满足

②标准差标准化，即 由这种标准化方法所得到的新数据，各要素的平均值为0，标准差为1，即有

③极大值标准化，即 经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于1。

④极差的标准化，即 经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。

例:下表给出了某地区九个农业区的七项指标，它们经过极差标准化处理后,如表3.4.3所示.例:下表给出了某地区九个农业区的七项指标，它们经过极差标准化处理后,如表3.4.3所示. 表3.4.2 某地区九个农业区的七项经济指标数据

表3.4.3 极差标准化处理后的数据

二.聚类分析的统计量 (一) 相似系数相似系数是描述地理数据之间相似程度的一种指标. 1.夹角余弦(cosθ) 设有n个地点,每个地点有m个特征值,如把每个地点的特征值看作是多维空间的一个向量,则两个地点之间的相似程度可用两个向量间夹角的余弦来表示,即:

2.相关系数(r)

(二) 距离系数 距离:是事物之间差异性的测度，是系统聚类分析的依据。常见的距离有： ① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离

④ 切比雪夫距离。当明科夫斯基距 时，有

1.直接聚类法 三.地理系统的聚类方法 • 过程：先把各个分类对象单独视为一类，然后根据距离最小的原则，依次选出一对分类对象，并成新类。如果其中一个分类对象已归于一类，则把另一个也归入该类；如果一对分类对象正好属于已归的两类，则把这两类并为一类。每一次归并，都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类，这样就可以根据归并的先后顺序作出聚类谱系图。

2. 最短距离聚类法 • 定义：最短距离聚类法，是在原来的m×m距离矩阵的非对角元素中找出最短距离dpq，把分类对象Gp和Gq归并为一新类Gr，然后按计算公式计算原来各类与新类之间的距离，这样就得到一个新的（m－1）阶的距离矩阵；再从新的距离矩阵中选出最小者dij，把Gi和Gj归并成新类；再计算各类与新类的距离，这样一直下去，直至各分类对象被归为一类为止。

步骤: 1.确定计算距离方法,计算出各地点(样品)间距离,列出初始距离矩阵D(0)表,其中每个元素都自成一类,这时Dpq=dpq. 2.在初始距离矩阵D(0)中,选出最短距离,即最小元素Dpq,将Gp类和Gq类合并成一新类Gr, 再计算新类Gr与其它各类间的距离Drk.

3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列.3.将D(0)中第p,q行和p,q列删去,加上第r行和第r列. 4.对D(1)表,按第2,3步方法重复计算,直到所有样品并为一类为止.

例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析.例:以我国新疆地区6个地点和4个指标为例,用最短距离法进行聚类分析. 第一步,将原始数据经标准化处理后,以欧氏距离作为分类统计量,得初始距离矩阵D(0),如下表所示.

第二步,在D(0)中,最小元素为D12=0.375,将G1与G2合并成一新类G7, ,然后再计算新类G7与其它各类间的距离.

第三步,作D(1)表.先从D(0)表中删去G1类和G2类所在的行和列中的元素,然后把新计算出来的 G7与其它类间的距离D7,3,D7,4,D7,5填到D(0)中,即成D(1)表.

第四步,在D(1)表中,最小元素为D37=0.483,再将G3与G7合成一新类G8, ,然后再计算新类G8与其它类间的距离.

第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.第五步,作D(2)表.先从D(1)表中删去G3类和G7类所在行与列中的元素,再把新计算出来的D8,4,D8,5和D8,6的值填到D(1)中,即成D(2)表.

第六步,在D(2)表中,最小元素为D45=0.501,再将G4和G5合成一新类G9, ,然后再计算新类G9与其它类间的距离

第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行与列中的元素,再把新计算出来的D9,6和D9,8的值填到D(2)中,即成D(3)表.

第八步,在D(3)表中,最小元素为D69=0.589,再将G6和G9合成一新类G10, ,然后再计算G10与其它类间的距离

第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表.第九步,作D(4)表,先从D(3)表中删去G6类和G9类所在行列中的元素,再把新计算出来的D10,8的值填到D(3)中,即成D(4)表. 由此表可知,G8类与G10类最后合成一类为G11类,计算过程结束.

第十步,将上述计算结果整理成联结表,然后再绘成聚类图.第十步,将上述计算结果整理成联结表,然后再绘成聚类图. 联结表

由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.由图中可知,新疆地区6个站点可分为两大类:一类为准噶尔盆地类,一类为塔里木盆地类.在准噶尔盆地类中,又分为两个小型:一为哈巴河-阿勒泰型,一为克拉玛依型.在塔里木盆地中,也分为两个小型:一为巴楚-莎车型,一为于田型.这种聚类方式符合该区实际情况.

3. 最远距离聚类法 • 公式： • 例：对于前面的例子，最远距离聚类法的聚类过程如下： ① 在9×9阶距离矩阵中，非对角元素中最小者是d94=0.51，故首先将第4区与第9区并为一类，记为G10，即G10=｛G4，G9｝。按照公式（3.3.11）分别计算G1，G2，G3，G5，G6，G7，G8与G10之间的距离，得到一个新的8×8阶距离矩阵：

②在第一步所得到的8×8阶距离矩阵中，非对角线元素中最小者为d57=0.83，故将G5与G7归并为一类，记为G11，即G11=｛G5，G7｝。按照公式分别计算G1，G2，G3，G6，G8，G10与G11之间的距离，得到一个新的7×7阶距离矩阵如下：

③在第二步中所得到的7×7阶距离矩阵中，非对角线元素中最小者为d28=0.88，故将G2与G8归并为一类，记为G12，即G12=｛G2，G8｝。再按照公式分别计算G1，G3，G6，G10，G11与G12之间的距离，得到一个新的6×6阶距离矩阵如下：③在第二步中所得到的7×7阶距离矩阵中，非对角线元素中最小者为d28=0.88，故将G2与G8归并为一类，记为G12，即G12=｛G2，G8｝。再按照公式分别计算G1，G3，G6，G10，G11与G12之间的距离，得到一个新的6×6阶距离矩阵如下：

④在第三步中所得的6×6阶距离矩阵中，非对角元素中最小者为d3，10=1.23，故将G3与G10归并为一类，记为G13，即G13=｛G3，G10｝=｛G3，（G4，G9）｝。再按照公式计算G1，G6，G11，G12与G13之间的距离，得到一个新的5×5阶距离矩阵如下：④在第三步中所得的6×6阶距离矩阵中，非对角元素中最小者为d3，10=1.23，故将G3与G10归并为一类，记为G13，即G13=｛G3，G10｝=｛G3，（G4，G9）｝。再按照公式计算G1，G6，G11，G12与G13之间的距离，得到一个新的5×5阶距离矩阵如下：

⑤在第四步所得的5×5阶距离矩阵中，非对角线元素中最小者为d1，12=1.52，故将G1与G12归并为一类，记为G14，即G14=｛G1，G12｝=｛G1，（G2，G8）｝。再按照公式分别计算G6，G11，G13与G14之间的距离，得到一个新的4×4阶距离矩阵如下：

⑥在第五步所得的4×4阶距离矩阵中，非对角线元素中最小者为d6，11=1.78，故将G6与G11归并为一类，记为G15，即G15=｛G6，G11｝=｛G6，（G5，G7）｝。再按照公式分别计算G13，G14和G15之间的距离，得到：

⑦在第六步中所得的3×3阶距离矩阵中，非对角线元素中最小者为d13，14=3.10，故将G13与G14归并为一类，记为G16，即G16=｛G13，G14｝=｛（G3，（G4，G9）），（G1，（G2，G8））｝。再按照公式计算G15与G16之间的距离，可得一个新的2×2阶距离矩阵如下：

G1 G2 G8 G3 G4 G9 G5 G7 G6 图3.4.3 最远距离聚类谱系图 ⑧将G15与G16归并为一类。此时，各个分类对象均已归并为一类。综合上述聚类过程，可以作出最远距离聚类谱系图。

最短距离 a1 b1 A B a2 b2 最远距离图3.4.4 两种不同的空间距离四. 系统聚类法距离公式的统一表达 • 最短距离和最远距离：可以用一个公式表示--- 用下图表示二者关系：

当α、β、γ三个参数取不同的值时，就形成了不同的聚类方法.当α、β、γ三个参数取不同的值时，就形成了不同的聚类方法. • 系统聚类其他方法的公式：

五. 系统聚类分析实例 对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析--- • 聚类指标选择 (选取如下7项指标) ① y1——人均GDP，它反映了经济社会发展的总体状况和一般水平； ②y2——人均第三产业增加值，它反映了人均服务产品占有量或服务密度； ③y3——第二产业增加值比重，它反映了工业化水平和产业结构现代化程度；

④y4——第三产业增加值比重，它反映了第三产业的发展程度及其对国民经济的贡献；④y4——第三产业增加值比重，它反映了第三产业的发展程度及其对国民经济的贡献； • y5——第三产业从业人员比重，它反映了第三产业对劳动力的吸纳能力； ⑥y6——第三产业固定资产投资比重，它反映了第三产业的资金投入程度； ⑦y7——城市化水平，它反映了农村人口转化为城市人口的程度及对服务的需求量。

聚类计算(计算过程 ) ①用标准差标准化方法对7项指标的原始数据进行处理。 ② 采用欧氏距离测度31个省（市、区）之间的样本间距离。 ③ 选用组平均法计算类间的距离，并对样本进行归类。经过上述聚类计算步骤，得到的聚类结果见下图.

样本 Num +---------+---------+---------+---------+---------+ 安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2 图3.4.5 中国31个省级区域第三产业发展水平组平均聚类谱系图

聚类结果分析 当类间距离取为4.0和2.5时，全国各省份被合并成以下几类： ① 上海、北京、天津3直辖市为一类，而上海和北京更接近； ② 西藏、海南为一特殊类；青海、内蒙古、新疆、吉林为一类，其中内蒙古、新疆、吉林合并为一亚类； • 江苏、浙江、广东、福建、辽宁、黑龙江为一类，其中江苏、浙江、广东合并为一亚类； ④ 重庆、陕西、宁夏、江西、湖南、广西为一类，其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类，云南为一孤立点； ⑤ 河北、山东、山西、湖北为一类； ⑥ 安徽、河南、甘肃、四川、贵州为一类。

第二节地理系统的判别分析 判别分析与聚类分析的异同: 相同点:都能确定地理类型; 不同点:判别分析兼有判别和分类的两种性质,大以判别为主,判别分析必须事先已知类型为前提;而聚类分析则不必事先已知类型,类型的划分是聚类的结果.

一.判别分析的基本原理 (一)判别分析的作用: 1.对已分好的类型进行合理性检验; 2.判别某地地理类型的归属问题和确定区域界线; 3.评价各要素特征值在判别分析中贡献率的大小.

(二)判别分析的准则: 1.费歇准则 2.贝叶斯准则 (三)判别分析的基本原理 1.两类判别 2.多类判别 3.逐步判别

判别能力的显著性检验:

二.两类地理判别分析 现以我国新疆地区塔城与莎车两地的大风日数和沙暴日数为例,来说明两类判别分析的具体步骤. 1.推求判别函数式第一步,将原始数据列表,计算各变量(指标)在其组内的累加和、均值和各变量组间的平均数之差,求解出判别函数中的判别系数ck.

第六章 地理系统的聚类分析与判别分析