数字地球所需的信息不仅包括遥感信息,而且包括非遥感信息,如遥测和其他方法所获得的信息,但以遥感信息为主,所以信息是海量的。这些海量的信息需要进行审查后才能应用,尤其遥感信息需要进行快速光谱校正、几何校正、影像增强和特征提取后才能应用。不仅如此,而且还要求快速存贮的检索才能满足生产要求。
当前的技术关键在于能够将获得的遥感数据直接通过计算机进行各种处理,并进行人机交互分类,将疑点和难点经专家用光笔直接进行分类、划界、输入计算机进行存贮,也可以通过快速检索后输出。
不论处理、存贮和检索等过程,都要求快。快是技术的核心。因此就要求有超大型的计算机来完成这样任务。美国和日本正在开发这种超大型的计算机。现在的问题是能否依靠多台计算机进行处理,来顶替超大型计算机?
目前美国仅NASA每天就产生1000G字节的信息,要求每天能存贮和处理 1015字节以上的设施。
分布式数据库建设是当前的大趋势。不同部门、不同行业、不同地区应分别建立自己的数据库,不仅是为了应用的方便,而且也为数据采集、数据更新和数据处理与管理提供方便。不同专业的数据库应有不同专业的部门建设和管理,才能具有最好的效果。就NASA来说,它就有12个数据中心,约50个数据库。
要对全球数据处理和虚拟显示,需要有超大型电脑,现在电脑的最快速度为每秒数万亿次,估计到2004年将达100万亿次(陈幼松,1998)。每秒数万亿次速度的超大型电脑,现在只有美国与日本才有。对于大多数国家来说,只有采用多台电脑并行处理的方法来处理海量的数据。
并行计算通常是指一个任务的各个部分同时地进行计算,而不是顺序地执行。这种计算要求各部分的数据相关性小。如果各部分有前后的因果关系,即一个部分的计算结果(输出)必须作为另一部分的输入,则不能进行并行计算。在图像处理中,通常图像的各部分相关性小,没有因果关系,可以作并行处理。
并行计算可以在超级计算机或大型计算机上进行,也可以在分布式多计算机上进行,下面介绍这两种计算机系统。
(1)高性能并行计算机系统:通常由多个CPU进行紧耦合,通过总线或交叉开关来共享存储器,这种处理机系统属于多指令流多数据流(MIMD)结构范畴,可形成大型机和巨型机,例如我国研制的曙光一号并行计算机。另外,大规模并行处理巨型机(MassivelyParallel Processing Super Computers,简称 MPP)由一组相对并不昂贵的 CPU构成,由一个高速互联网络将它们组成一个单元,利用一套系统应用软件使这些器件像一个系统那样运行。MPP能够提供强大的计算能力,已越来越成为高速科学计算的主要硬件平台,是巨型机的发展方向。
(2)分布式计算机系统是多个分散的计算机经互连网络连接而成的多计算机系统。其中各个资源单元(物理或逻辑的)既相互协同又高度自治。能在全系统内宏观地管理资源,动态地进行任务分配或功能分配,并能并行地运行分布式程度。分布式计算机系统具有模块性、并行性和自治性。分布式计算机系统是多机系统特别是并行处理系统的一种新形式,是计算机网络技术领域发展迅速的一个方向。由于微机的性能价格比优于大型机,将若干台微机构成分布式多机系统,采用分散处理的方式取代集中式大型主机结构,开拓了计算机应用的新途径。
若把数字地球的全部信息存贮,存贮器的容量要达1000万亿字节级(1017字节)以上。目前的硬盘、光盘等的存贮容量只有10亿字节级。但用纳米技术开发,能使硬盘容量达10亿字节级(1012字节级)。激光全息存贮、蛋白质存贮等方方面面的研究也已有了较大的进展(陈幼松,1998)。但目前,主要靠分布式的成千上万个数据库来存贮海量的数据。
此外,还有神经网络计算机,超高速联机、脱机机术。神经网络计算机为第六代计算机,与传统计算机比较,其特点有:大规模并行分布处理;高度的容错性,任何局部错误不会影响整体结果;具有适应性,自学习能力和具有思维联想能力。
本文标题:海量数据的快速处理技术
手机页面:http://m.dljs.net/dlsk/shudao/10338.html
本文地址:http://www.dljs.net/dlsk/shudao/10338.html