从几何上看,找主成分的问题,就是找p维空间中椭球体的主轴问题,从数学上容易得到它们是x1,x2,…,xp的相关矩阵中m个较大特征值所对应的特征向量,通常用雅可比(Jacobi)法计算特征值和特征向量。
很显然,主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的GIS用户常使用上述技术,因而应把这些变换函数作为GIS的组成部分。
二、层次分析法
过去说研究自然或社会现象主要有机理分析和统计分析两种方法。前者用经典的数学工具分析现象的因果关系,后者以随机数学为工具,通过大量观测数据寻求统计规律。近年来发展起来的第三种方法称系统分析。层次分析(AHP)法就是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。事实上这是一种定性和定量分析相结合的方法。在模型涉及大量相互关联、相互制约的复杂因素的情况下,各因素对问题的分析有着不同的重要性,决定它们对目标重要性的序列,对建立模型十分重要。AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。例如要比较n个因素y={y1,y2,…,yn}对目标Z的影响,确定它们在Z中的比重,每次取两个因素yi和yj,用aij表示yi与yj对Z的影响之比,全部比较结果可用矩阵A=(aij)n×n表示,A叫成对比矩阵,它应满足:aij>0,aji=1/aij(i,j=1,2,…,n)(4-2)使(4-2)式成立的矩阵称互反阵,不难看出必有aij=1。
在旅游问题中,假设某人考虑5个因素:费用y1、景色y2,居住条件y3、饮食条件y4、旅途条件y5。他用成对比较法得到的正互反阵是:
在(4-3)式中a12=2表示y1与景色y2对选择旅游点(目标Z)的重要性之比为2∶1;a13=7,表示费用y1与居住条件y3之比为7∶1;a23=4,则表示景色y2与居住条件y3之比为4∶1。如果A不是一致阵(即A12、A23不等于A13),需求正互反阵最大特征值对应的特征向量,作为权向量。
三、系统聚类分析
虽然数据整理能将大量而复杂的多变量数据适当压缩,但人们还希望进一步减少数据的复杂程度,即将数据定义成一组多变量类别。主成分分析仅仅是数据沿着一条新轴的旋转和投影,得到的新值既大大压缩了原始数据也可以作为新变量使用。主成分分析后的主分量不是按地理空间制图,而是按主成分轴定义的空间制图。当数据在主成分空间的两坐标轴上的分布具有相似性时,这种散射图(常把主成分空间绘制的图称散射图)能够显示出明显的类别特性即聚类特性。如果这些聚类能归纳为分类系统中的某一类的话,就有可能进一步减少数据的复杂性。另外,这些聚类完全由原始数据的分析中推演而得,就能代表“天然”类别,也比外生分类(按所研究数组的门槛值确定其区间,而不是由数组本身派生出来的区间)和层次分类等人为强加的类别更加真实。
60年代末到70年代初人们把大量精力集中于发展和应用数字分类法,且将这类方法应用于自然资源、土壤剖面、气候分类、环境生态等数据,形成“数字分类学”学科。目前聚类分析已成为标准的分类技术,在许多大型计算机中都存储了这种分析程序,从GIS数据库中将点数据传送到聚类分析程序也不困难。
聚类分析的主要依据是把相似的样本归为一类,而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。
用xik表示第i个样本第k个指标的数据xjk表示第j个样本第k个指标数据。dij表示第i个样本和第j个样本之间的距离,根据不同的需要,距离可以定义为许多类型,最常见、最直观的距离是欧几里德距离,其定义如下:
本文标题:数据统计模型(2)
手机页面:http://m.dljs.net/dlsk/gis/4763.html
本文地址:http://www.dljs.net/dlsk/gis/4763.html