您的位置 首页 知识

根据GT4的聚类分析算法研讨

1.引言计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时

1.导言

核算机网络技能的遍及与运用给人们的日子带来了天翻地覆的改变,一同在网络上产生了很多乱七八糟的数据。而网格技能、Web技能的开展,为人们从散布的网络资源中寻觅有价值的信息供给了新的技能支撑,一同也产生了许多依据网格的数据发掘体系。而数据发掘算法又是决议一个数据发掘体系功用的首要衡量目标。任何软件体系的规划都离不开算法,数据发掘技能的履行功率也与数据发掘算法有关,跟着数据库技能与数据发掘技能的老练与开展,像分类、聚类、决议计划树、相关等等数据发掘算法已适当老练,能够研讨学习现有数据发掘办法、数据发掘形式、数据发掘流程,树立一个依据网格的数据发掘体系。笔者以很多数据发掘算法中的聚类剖析算法为例,介绍依据GT4(Globus Tookit 4.0的简称,GT4的中心开发东西包(Java Web Service Core))的数据发掘算法的规划进程。

聚类剖析(Clustering Analysis)是一个运用比较广泛的数据发掘算法,算法的理论研讨与实践运用都现已很老练,把这一老练的理论运用于依据网格的散布式体系中,会大大提高数据发掘的功率。本文首要研讨如何将聚类剖析的CURE(Cluster Using Representation)算法和K-均匀办法算法运用于依据GT4数据发掘体系中。

2.体系结构规划

依据GT4数据发掘体系的数据源是散布式数据源,散布式数据源是指在物理上散布而逻辑上会集的数据源体系。在该体系中,处在这个网格中的每台核算机便是这个网格的一个节点,称之为网格节点。在很多的节点中,要有一个网格节点来操控和办理其他的节点,这个节点就叫做网格中心操控节点,决议计划支撑都是由网格中心操控节点完结的。假如要完结某个数据发掘使命,则能够由闲暇的网格节点先按发掘需求来完结本节点的发掘使命,再由网格中心操控节点来汇总每个节点的数据发掘状况。部分网格节点办理的信息具有局限性,触及的规划较小,首要完结单个节点数据的办理,对部分的数据发掘成果进行汇总剖析,可是这些部分节点的数据与大局节点的数据又是有必定相关的。依据以上的剖析可知,网格平台下的数据发掘使命由大局数据发掘与部分数据发掘共同完结。

3.算法的Web Service规划

3.1 大局聚类算法的Web Service规划

网格环境下的大局操控网格节点与部分网格节点间的联系咱们能够理解为上基层的联系,这样就能够学习依据层次的聚类剖析算法,依照层次的自底向上的聚类办法,把大局操控节点当成是层次聚类的顶层。本课题大局聚类算法学习传统的运用代表点聚类算法CURE.

CURE算法将层次办法与区分办法结合到一同,选用有代表性的、固定数目的空间点来表明一个聚类。算法在开始时,每个点都是一个簇,然后将间隔最近的簇结合,一直到簇的个数为要求的K.首先把每个数据点即部分网格节点当作一个聚类,然后再以一个特定的缩短因子向中心缩短它们。

CURE算法的首要履行进程如下:

(1)从数据源样本目标中随机抽取样本集,生成一个样本调集S;

(2)将样本调集S分割为一组区分,每个区分巨细为S/p;

(3)对每个区分部分进行部分聚类;

(4)经过随机采样除掉聚类添加太慢的反常数据;

(5)对部分聚类进行聚类,落在每个新构成的聚类中的代表性点,则依据用户界说的缩短因子缩短或移向聚类中心;

(6)用相应的符号对聚类中的数据标上聚类号。

有了数据发掘算法,就能够完结数据发掘使命了。大局聚类算法的首要功用是响运用户的数据发掘恳求,将对应的恳求发送给部分网格节点,将部分网格节点的发掘成果收拾输出。大局聚类算法Web Service资源的结构包含算法Web Service接口、算法资源特点文档、算法功用完结和算法功用发布四个部分。

运用传统的聚类算法完结大局的数据的并行发掘最重要的一步便是将大局聚类算法布置到GT4中,完结大局聚类算法的Web Service规划要经过过以下几步:

第一步:用WSDL(Web Service描绘言语,是Web Service供给的XLM言语)来描绘数据发掘服务接口,该服务接口能够用Java来界说,运用Java-to-WSDL东西把Java界说的接口转为WSDL文件。

第二步:用Java编写大局聚类算法(CURE)代码;

第三步:用WSDD配置文件和JNDI(GT4自带文件)布置文件;

第四步:用Ant东西打包上面的一切文件,生成一个GAR文件;

第五步:向Web Service容器布置大局数据发掘服务。

3.2 部分聚类算法的Web Service规划

部分聚类算法的首要功用是完结部分网格节点的数据发掘使命,并把数据发掘成果上传到大局操控节点。部分网格节点的数据发掘使命与传统的单机数据发掘使命类似,本课题部分聚类算法运用传统的聚类算法K-均匀办法,以K为参数,把N个目标分为K个簇,簇内具有较高的类似度,而簇间的类似度较低[34].本论文的数据发掘使命首要是由部分网格节点完结的,下面就具体的介绍K-均匀算法的首要履行进程如下:

(1)从数据会集恣意挑选K个目标作为各个簇的初始中心。

(2)依据现有的簇中心状况,运用间隔公式核算其他目标到各个簇中心的间隔。(可选的间隔公式有:欧几里、行德公式、间隔公式、曼哈坦间隔公式、明考斯基间隔公式)。

(3)依据所得各个目标的间隔值,将目标分配给间隔最近的中心所对应的簇。

(4)从头生成各个簇的中心。

(5)判别是否收敛。假如收敛,即簇不在发生改变,那么中止区分,不然,重复(2)到(5)。

K-均匀算法是一个经典的聚类算法,将K-均匀算法布置到GT4中,完结部分聚类算法的Web Service规划,布置办法与大局算法类似。

4.定论

依据GT4的数据发掘体系中的数据发掘服务资源有网格的中心操控节点(即大局节点)进行一致的办理,在部分网格节点发掘进程中,依据其处理才能分配最佳的数据集给部分节点,从而使整个体系的核算负载相对均衡。其数据发掘体系的规划可跟着服务的多少动态弹性。当体系要添加新的部分发掘节点时,只需布置部分Web Service资源即可。将网格运用到散布式数据发掘体系中,树立一个依据网格的数据发掘体系,必将使其在各个领域都得到广泛的运用。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/zhishi/240749.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部