数据统计模型(2)

　　从几何上看，找主成分的问题，就是找p维空间中椭球体的主轴问题，从数学上容易得到它们是x1，x2，…，xp的相关矩阵中m个较大特征值所对应的特征向量，通常用雅可比（Jacobi）法计算特征值和特征向量。

　　很显然，主成分分析这一数据分析技术是把数据减少到易于管理的程度，也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的GIS用户常使用上述技术，因而应把这些变换函数作为GIS的组成部分。

二、层次分析法

过去说研究自然或社会现象主要有机理分析和统计分析两种方法。前者用经典的数学工具分析现象的因果关系，后者以随机数学为工具，通过大量观测数据寻求统计规律。近年来发展起来的第三种方法称系统分析。层次分析（AHP）法就是系统分析的数学工具之一，它把人的思维过程层次化、数量化，并用数学方法为分析、决策、预报或控制提供定量的依据。事实上这是一种定性和定量分析相结合的方法。在模型涉及大量相互关联、相互制约的复杂因素的情况下，各因素对问题的分析有着不同的重要性，决定它们对目标重要性的序列，对建立模型十分重要。AHP方法把相互关联的要素按隶属关系分为若干层次，请有经验的专家对各层次各因素的相对重要性给出定量指标，利用数学方法综合专家意见给出各层次各要素的相对重要性权值，作为综合分析的基础。例如要比较n个因素y={y1，y2，…，yn}对目标Z的影响，确定它们在Z中的比重，每次取两个因素yi和yj，用aij表示yi与yj对Z的影响之比，全部比较结果可用矩阵A=（aij）n×n表示，A叫成对比矩阵，它应满足：aij＞0，aji=1/aij（i，j=1，2，…，n）（4－2）使（4－2）式成立的矩阵称互反阵，不难看出必有aij=1。

　　在旅游问题中，假设某人考虑5个因素：费用y1、景色y2，居住条件y3、饮食条件y4、旅途条件y5。他用成对比较法得到的正互反阵是：

　　在（4－3）式中a12=2表示y1与景色y2对选择旅游点（目标Z）的重要性之比为2∶1；a13=7，表示费用y1与居住条件y3之比为7∶1；a23=4，则表示景色y2与居住条件y3之比为4∶1。如果A不是一致阵（即A12、A23不等于A13），需求正互反阵最大特征值对应的特征向量，作为权向量。

三、系统聚类分析

虽然数据整理能将大量而复杂的多变量数据适当压缩，但人们还希望进一步减少数据的复杂程度，即将数据定义成一组多变量类别。主成分分析仅仅是数据沿着一条新轴的旋转和投影，得到的新值既大大压缩了原始数据也可以作为新变量使用。主成分分析后的主分量不是按地理空间制图，而是按主成分轴定义的空间制图。当数据在主成分空间的两坐标轴上的分布具有相似性时，这种散射图（常把主成分空间绘制的图称散射图）能够显示出明显的类别特性即聚类特性。如果这些聚类能归纳为分类系统中的某一类的话，就有可能进一步减少数据的复杂性。另外，这些聚类完全由原始数据的分析中推演而得，就能代表“天然”类别，也比外生分类（按所研究数组的门槛值确定其区间，而不是由数组本身派生出来的区间）和层次分类等人为强加的类别更加真实。

　　60年代末到70年代初人们把大量精力集中于发展和应用数字分类法，且将这类方法应用于自然资源、土壤剖面、气候分类、环境生态等数据，形成“数字分类学”学科。目前聚类分析已成为标准的分类技术，在许多大型计算机中都存储了这种分析程序，从GIS数据库中将点数据传送到聚类分析程序也不困难。

　　聚类分析的主要依据是把相似的样本归为一类，而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。

　　用xik表示第i个样本第k个指标的数据xjk表示第j个样本第k个指标数据。dij表示第i个样本和第j个样本之间的距离，根据不同的需要，距离可以定义为许多类型，最常见、最直观的距离是欧几里德距离，其定义如下：
　　本文标题：数据统计模型(2)
　　手机页面：http://m.dljs.net/dlsk/gis/4763.html
　　本文地址：http://www.dljs.net/dlsk/gis/4763.html

地理信息系统的产生	地理信息系统的基本概念	地理信息系统的组成	地理信息系统的应用
空间数据采集	地理信息系统的数据	空间数据编辑处理	地理信息系统空间数据结构
GIS数据库	地理数据的显式和隐式表示

搜索

最新标签: