多变量统计分析主要用于数据分类和综合评价。数据分类方法是地理信息系统重要的组成部分。一般说地理信息系统存储的数据具有原始性质,用户可以根据不同的实用目的,进行提取和分析,特别是对于观测和取样数据,随着采用分类和内插方法的不同,得到的结果有很大的差异。因此,在大多数情况下,首先是将大量未经分类的数据输入信息系统的数据库,然后要求用户建立具体的分类算法,以获得所需要的信息。
综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际,模糊评价一般经过四个过程:(1)评价因子的选择与简化;(2)多因子重要性指标(权重)的确定;(3)因子内各类别对评价目标的隶属度确定;(4)选用某种方法进行多因子综合。
分类和评价的问题通常涉及大量的相互关联的地理因素,主成分分析方法可以从统计意义上将各影响要素的信息压缩到若干合成因子上,从而使模型大大地简化;因子权重的确定是建立评价模型的重要步骤,权重正确与否极大地影响评价模型的正确性,而通常的因子权重确定依赖较多的主观判断,层次分析法是综合众人意见,是科学地确定各影响因子权重的简单而有效的数学手段。隶属度反映因子内各类别对评价目标的不同影响,依据不同因子的变化情况确定,常采用分段线性函数或其它高次函数形式计算。常用的分类和综合的方法包括聚类分析和判别分析两大类。聚类分析可根据地理实体之间影响要素的相似程度,采用某种与权重和隶属度有关的距离指标,将评价区域划分若干类别;判别分析类似于遥感图像处理的分类方法,即根据各要素的权重和隶属度,采用一定的评价标准将各地理实体判归最可能的评价等级或以某个数据值所示的等级序列上;分类定级是评价的最后一步,将模糊聚类的结果根据实际情况进行合并,并确定合并后每一类的评价等级,对于模糊判别分析的结果序列采用等间距或不等间距的标准划分为最后的评价等级。
在土地资源评价中,可根据联合国粮农组织制定的土地评价纲要和实际情况,选择若干评价因子,给出优、良、可、劣等单因子评价指标,采用某种数学方法进行分类评价,确定最后的土地等级。
下面简要介绍分类评价中常用的几种数学方法。
一、主成分分析
地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,同时也增加了运算的复杂性。为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。由于地理变量中许多变量通常都是相互关联的,就有可能按这些关联关系进行数学处理达到简化数据的目的。主成分分析是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。
设有n个样本,p个变量。将原始数据转换成一组新的特征值——主成分,主成分是原变量的线性组合且具有正交特征。即将x1,x2,…,xp综合成m(m<p)个指标z1,z2,…,zm,即
z1=l11*x1 l12*x2 … l1p*xp
z2=l21*x1 l22*x2 … l2p*xp
………………(4-1)
zm=lm1*x1 lm2*x2 … lmp*xp
这样决定的综合指标z1,z2,…,zm分别称做原指标的第一,第二,…,第m主成分。其中z1在总方差中占的比例最大,其余主成分z2,z3,…,zm的方差依次递减。在实际工作中常挑选前几个方差比例最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标之间的关系。
本文标题:数据统计模型
手机页面:http://m.dljs.net/dlsk/gis/4763.html
本文地址:http://www.dljs.net/dlsk/gis/4763.html