您的位置 首页 报告

根据空间数据库的数据发掘技能

从空间数据库发现知识的传统途径是通过专家系统、数据挖掘、空间分析等技术来实现的。但是在空间数据库隐含知识的发现方面,只单独依赖某一种技术,往往存在着这样或那样的缺陷。

1 空间数据库常识发现面临的困难

空间数据库发现常识的传统途径是经过专家体系、数据发掘、空间剖析等技能来完结的。可是在空间数据库隐含常识的发现方面,只独自依靠某一种技能,往往存在着这样或那样的缺陷。

关于专家体系来讲,专家体系不具备主动学习的才干,GIS中的专家体系也达不到真实的智能体系的要求,仅能运用已有的常识进行推导。关于数据发掘来讲,空间数据库与一般数据库的在数据存储机制的不同和空间数据的彼此依靠性等特色决议了在空间数据库无法直接选用传统的数据发掘办法。

关于空间剖析来讲,虽然空间剖析中常用的核算办法能够很好地处理数字型数据,可是它存在的问题许多,如核算办法一般假定空间散布的数据间是核算上独立的,而实际中空间方针间一般是彼此相关的;其次,核算模型一般只需具有适当丰厚范畴常识和核算方面经历的核算专家才干用;别的,核算办法对大规模数据库的核算价值十分高,所以在处理海量数据方面才干较低。

从上面的剖析能够看出,因为空间数据具有许多特色,因而在空间数据库进行常识发现,需求战胜运用单一技能的缺陷,即需求交融多种不同技能。所以研究人员提出了空间数据发掘技能来处理从空间数据库常识发现隐含常识的难题。

空间数据发掘是多学科和多种技能交*归纳的新范畴,它归纳了机器学习、空间数据库体系、专家体系、可移动核算、核算、遥感、依据常识的体系、可视化等范畴的有关技能。

空间数据发掘运用空间数据结构、空间推理、核算几何学等技能,把传统的数据发掘技能扩充到空间数据库并提出许多新的有用的空间数据发掘办法。与传统空间剖析办法比较,它在完结功率、与数据库体系的结合、与用户的交互、发现新类型的常识等方面的才干大大增强。空间数据发掘能与GIS的结合,使GIS体系具有主动学习的功用,能主动获取常识,然后成为真实的智能空间信息体系。

2 扩展传统数据发掘办法到空间数据库

空间数据发掘技能按功用区别可分为三类:描绘、解说、猜测。描绘性的模型将空间现象的散布特征化,如空间聚类。解说性的模型用于处理空间联系,如处理一个空间方针和影响其空间散布的要素之间的联系。猜测型的模型用来依据给定的一些特点猜测某些特点。

猜测型的模型包含分类、回归等。以下介绍将几个典型的数据发掘技能聚类、分类、相关规矩扩展到空间数据库的办法。

聚类剖析办法按必定的间隔或类似性测度将数据分红一系列彼此区别的组,而空间数据聚类是依照某种间隔衡量原则,在某个大型、多维数据会集标识出聚类或稠密散布的区域,然后发现数据集的整个空间散布形式。

经典核算学中的聚类剖析办法对海量数据功率很低,而数据发掘中的聚类办法能够大大进步聚类功率。文献[1]中提出两个依据CLARANS聚类算法空间数据发掘算法SD和ND,能够别离用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类。

SD算法首要用CLARANS算法进行空间聚类,然后用面向特点归纳法寻觅每个聚类中方针的高层非空间描绘;ND算规律反之。文献[4]中提出一种将传统分类算法ID3决议计划树算法扩展到空间数据库的办法,该算法给出了核算附近方针非空间特点的聚合值的办法,而且经过对空间谓词进行相关性剖析和选用一种逐步求精的战略使得核算时刻复杂度大大下降。

Koperski等[4]将大型业务数据库的相关规矩概念扩展到空间数据库,用以找出空间方针的相关规矩。此办法选用一种逐步求精的办法核算空间谓词,首要在一个较大的数据集上用MBR最小鸿沟矩形结构技能对大略的空间谓词进行近似空间运算,然后在裁剪过的数据集上用价值较高的算法进一步改善发掘的质量。

3 空间数据库完结技能

空间数据发掘体系中,空间数据库担任空间数据和特点数据的办理,它的完结功率对整个发掘体系有着无足轻重的影响。所以下面具体介绍空间数据库的完结技能。

依据空间数据库中空间数据和特点数据的办理方法,空间数据库有两种完结形式:集成形式和混合形式。后者将非空间数据存储在联系数据库中,将空间数据存放在文件体系中。

这种选用混合形式的空间数据库中,空间数据无法取得数据库体系的有用办理,而且空间数据选用各个厂商界说的专用格局,通用性差。而集成形式是将空间数据和特点数据悉数存储在数据库中,因而现在的GIS软件都执政集成结构的空间数据库方向开展。

下面临集成结构的空间数据库技能中的两个干流技能依据空间数据引擎技能的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较剖析。

空间数据引擎是一种处于运用程序和数据库办理体系之间的中间件技能。运用不同GIS厂商的客户能够经过空间数据引擎将本身的数据交给大型联系型DBMS一致办理;相同,客户也能够经过空间数据引擎从联系型DBMS中获取其他类型GIS的数据,并转化成客户可运用的方法。

它们大多是在Oracle8i Spatial(较老练的空间数据库版别8.1.7于2000年9月推出)推出之前由GIS软件开发商供给的将空间数据存入通用数据库的处理计划,且该计划价格昂贵。

Oracle Spatial供给一个在数据库办理体系中办理空间数据的彻底敞开体系结构。Oracle Spatial供给的功用与数据库服务器彻底集成。用户经过SQL界说并操作空间数据,且保留了Oracle的一些特性,如灵敏的n-层体系结构,方针界说,强健的数据办理机制,Java存储进程。

它们保证了数据的完好性、可恢复才干和安全性,而这些特性在混合形式结构中简直不或许取得。在Oracle Spatial中,用户可将空间数据当作数据库的特征运用,可支撑空间数据库的仿制、散布式空间数据库以及高速的批量装载,而空间中间件则不能。

除了答应运用一切数据库特性以外,Spatial Cart ridge还供给用户运用队伍来快速拜访数据。运用简略的SQL句子,运用者就能直接选取多个记载。Spatial Cart ridge数据模型也给数据库办理员供给了极大的灵敏性,DBA可运用常见的办理和调整数据库的技能。

4 空间数据发掘体系的开发

4.1 通用SDM体系

在空间数据发掘体系的开发方面,国际上最闻名的有代表性的通用SDM体系有:GeoMiner,Descartes和ArcView GIS的S-PLUS接口。GeoMiner是加拿大Simon Fraser大学开发的闻名的数据发掘软件DBMiner的空间数据发掘的扩展模块。

空间数据发掘原型体系GeoMiner包含有三大模块:空间数据立方体构建模块、空间联机剖析处理(OLAP)模块和空间数据采掘模块,能够进行交互式地采掘并显现采掘成果。空间数据采掘模块能采掘3种类型的规矩:特征规矩、判别规矩和相关规矩。GeoMiner选用SAND体系结构,选用的空间数据采掘言语是GMQL。其空间数据库服务器包含MapInfo,ESRI/OracleSDE,Informix-Illustra以及其它空间数据库引擎。

Descartes可支撑可视化的剖析空间数据,它与开发此软件的公司所开发的数据发掘东西Kepler结合运用,Kepler完结数据发掘使命且具有自己的体现数据发掘成果的非图形界面。Kepler和Descarte动态链接,把传统DM与主动作图可视化和图形体现操作结合起来,完结C4.5决议计划树算法、聚类、相关规矩的发掘。

ArcView GIS的S-PLUS接口是闻名的ESRI公司开发的,它供给东西剖析空间数据中指定类。

除了以上空间数据发掘体系外,还有GwiM等体系。

从以上SDM体系能够看出,它们的一起长处是把传统DM与地图可视化结合起来,供给聚类、分类等多种发掘形式,但它们在空间数据的操作上完结方法不尽相同。Descartes是专门的空间数据可视化东西,它只需与DM东西Kepler结合在一起,才干完结SDM使命。而GeoMiner是在MapInfo渠道上二次开发而成,体系巨大,形成较大的资源糟蹋。S-PLUS的限制在于,它选用一种解说性言语(Script),其功用的完结比用C和C++直接完结要慢得多,所以只适合于十分小的数据库运用。依据现存空间数据发掘体系的结构所存在的缺陷,咱们提出空间数据发掘体系一种新的完结计划。

4.2 空间数据发掘体系一种新的完结计划

以上几种体系都是用自己开发的或GIS软件开发商供给的GIS渠道、组件或中间件来完结SDM体系中空间数据办理和剖析。本文中提出了空间数据发掘体系一种新的完结计划,即以现在通用空间数据库(Oracle Spatial)为中心,运用其空间数据办理和空间剖析的才干,完结空间数据发掘中很多的空间信息抽取使命,GIS组件只承当对发掘成果的地图化显现使命。

选用这种形式,不仅可完结GIS体系与空间数据发掘体系彻底集成,而且因为大部分空间信息抽取进程直接在低层数据库上进行,然后可大大进步核算功率。

新的空间数据发掘体系结构如图1所示。该体系的根本结构与一般数据发掘体系相同,仅在数据发掘和数据办理中增加了有关空间信息的抽取、空间数据办理和空间剖析的功用,并建立了一个人机接口处理用户的指令和显现发掘成果。

这种开发形式与现存开发形式的最大区别是用通用空间数据库替代专门的GIS商用软件完结空间数据办理和空间剖析功用。它的长处如下:

(1)GIS商用软件一般是为开发GIS体系而规划的。GIS作为一个独立软件体系时,需求具有完好的功用结构,而在为数据发掘服务时,其主要意图在于为决议计划者供给决议计划方针及显现作为发掘成果的地图,因而只需按需选取GIS的部分功用,而不用八面玲珑。

GIS的一些功用,如空间数据的办理和空间剖析等,在通用空间数据库体系中存在类似模块,因而可由通用空间数据库办理体系中已有功用得到。空间数据和特点数据的查询和空间操作可运用数据库办理功用,数据发掘剖析模块则可作为一个或多个模块,由数据发掘子体体系一办理,而空间数据的存储办理与剖析均交给通用空间数据库完结。

这样不仅可削减体系的功用冗余,进步体系的一致性,还可更好地运用商用数据办理体系的各种优化技能来进步体系空间数据办理与剖析的速度。

(2)从异构数据库的集成和空间数据与特点数据的一致办理来看,现在不同GIS厂商的遵从的空间数据格局规范不同,GIS通用渠道或组件一般只能直接处理本体系的空间数据文件,因而异种数据库的集成是一个难题。

而通用空间数据库供给了数据转化接口,能够将各种不同格局的空间数据转化为一致的格局存入扩展的方针——联系数据库,然后很好地处理了异种数据库的集成的问题。别的,它还战胜了GIS体系空间数据与特点数据别离的缺陷。

(3)从数据发掘与空间数据库技能结合来看,空间数据库体系与数据发掘体系彻底分隔的体系虽然简略,但有不少缺陷。

首要,空间数据库体系在存储、安排、拜访和处理数据立方体方面供给了很大的灵敏性和有用性。在空间数据库(SDB)/空间数据仓库(SDW)体系中,数据八成被很好地安排、索引、整理、集成或兼并,使得找出使命相关的、高质量的数据成为一件简单的使命。不运用SDB/SDW体系,数据发掘体系或许要花很多的时刻查找、搜集、整理和转化数据。

其次,在SDB或SDW体系中,有许多被测验的、可弹性的算法和数据结构,因而,运用这种体系开发有用的、可弹性的完结,是切实可行的。

此外,大部分数据现已或即将存放在SDB/SDW体系中,不与这些体系耦合,数据发掘体系就需求运用其它东西提取数据,使得很难将这种体系集成到信息处理环境。

(4)Oracle Spatial是专门为开发与履行大型企业空间数据仓库而研发的产品,它在海量空间数据的存储和安排上功能杰出,在开发依据空间数据仓库的空间数据发掘运用方面具有明显的优势。

(5)Oracle Spatial分管了SDM算法中部分空间数据抽取的使命,减轻了数据发掘子体系的担负;别的,因为Oracle对散布式运用的杰出支撑,然后为完结散布式空间数据发掘及并行空间数据发掘供给了最佳计划。

依据以上计划,笔者完结了一个依据Oracle Spatial的散布式空间数据发掘原型体系。体系由五部分组成:

①图形用户界面:用于进行交互式的发掘并显现发掘成果;

②数据预备模块:进行数据的挑选、预处理和转化;

③发掘模块:聚类、分类、相关规矩等空间数据发掘功用及发掘成果的点评;

④空间数据办理模块:履行数据预备模块及发掘模块指定的空间操作;

⑤数据库服务器:办理作为发掘方针的空间数据和非空间数据及概念层次库、发掘成果库。发掘方针的空间和非空间数据及概念层次的存储和空间数据的办理由Oracle8.1.7 Spatial完结。数据预备算法和聚类、分类、相关规矩等发掘算法在服务器端完结,并供给接口给客户端,在客户端用GIS组件MapX4.0完结发掘成果的专题图显现。其编程东西为VC++6.0。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/ceping/baogao/187346.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部