您的位置 首页 被动

基奇PCA的贝叶斯网络分粪器研讨

1 引言近几年来,贝叶斯网络已成为数据挖掘和知识发现中的一个主要工具,在分类、聚类、预测和规则推导等方面取得了良好的应用效果。从历史数据

1 导言
近几年来,贝叶斯网络已成为数据发掘和常识发现中的一个首要东西,在分类、聚类、猜测和规矩推导等方面取得了杰出的运用作用。从历史数据中学习贝叶斯网络可选用根据依靠剖析的办法。
常用的有:用Polytree表明概率网的办法、从彻底图删去边的办法等。这种办法需求进行指数级的CI测验以发现依靠联系,当结点集较大时,其核算功率低,所以大多数此类算法都假定结点有序;但这种假定可能会影响最终学习到的网络结构的正确性。关于稀少网络和具有较大样本数据集的体系,这种办法十分有用。
针对根据依靠剖析办法的这一缺陷,在网络结构学习之前运用主元剖析办法将数据降维,削减网络结点数目,可进步算法功率、简化网络结构。

2 数据处理及离散化
实践数据库中的数据常存在数据不一致、数据丢掉等现象,所以在运用数据学习网络结构前要对数据进行预处理。此外,关于接连性数据(如温度、湿度、长度等),直接树立贝叶斯网络模型核算杂乱度大,从接连数据中很难正确学习到变量间的联系。因此首先将数据标准化,再将标准化后的接连变量离散化,用离散化后的数据进行贝叶斯网络结构的学习。这儿选用含糊离散化办法,对数据集的每个特色别离进行离散化,每个特色都有3个标度:5标度、7标度、9标度能够挑选。算法过程如下:
(1)随机初始化从属度矩阵:

3 根据PCA的贝叶斯网络结构学习算法
主元剖析PCA(Principal Component Analysis)是经过可逆线性变换,将数据集转化为由维数较少的特征成分表明的、包括原数据集一切信息或大部分信息的技能。经过PCA技能,能够将杂乱数据简化,因此它现已被广泛运用于数据发掘、模式辨认、信号评价、信号勘探、图画编码等范畴。主元剖析的原理如下:
令x为表明环境的m维随机向量。假定x均值为零,即

E[x]=0 (4)
令w表明m维单位向量,x在ω上投影。该投影被界说为向量x和ω的内积,表明为:


主元剖析的意图便是寻觅一个权值向量w,使得表达式的值最大化:


即使得式(7)值最大化的w是矩阵的最大特征值所对应的特征向量。
鉴于主元剖析的长处,这儿引入主元剖析技能给数据集降维,然后用降维后的数据构建网络,进步学习贝叶斯网络结构算法的功率、简化网络结构。结构贝叶斯网络的算法过程如下:
(1)用普瑞姆算法生成最大似然树结构初始贝叶斯网络;
(2)对一切互信息大于阈值且在当时图中无边的结点对n1、n2:①找出它们邻接途径上的街坊结点,设n1、n2的街坊结点的结点集别离为S1和S2;② 令调集S1和S2中较小的一个作为条件调集C;③核算条件互信息v=I(n1,n2|c),假如vε,则回来别离;不然,假如C只包括一个结点,那么转去过程⑤,不然,对每一个i,令Ci=c{C中的第i个结点},vi=I(n1,n2|Ci);④假如vminε,则回来别离,不然回来过程③;⑤假如S2没有用过,那么用S2作为条件集C,回来过程③;不然,回来失利。⑥假如这对结点在当时图中能够被别离,则检测下一对结点,不然,向网中增加衔接这对结点的边。
(3)对每一条图中存在边的结点对,假如除这条边外它们之间还存在其他途径,那么暂时从图中移掉这条边,然后对这对结点进行过程①~⑥的查验;假如这对结点不能被别离,则仍将前面移掉的边参加图中,不然永久移除这条边;
(4)用磕碰辨认V结构的办法定向网络中的边,对不能构成V结构的边用打分的办法对其进行定向。

4 试验
用IRIS实践数据、Zoo Data、Glass Identification Data作为网络学习的数据集,这3组数据是UCI数据会集3个用于分类的数据集。
其间IRIS数据和Glass Identification Data是接连的,所以在用数据学习贝叶斯网络前需求对数据进行含糊离散化处理。以下试验中的每个特色的离散化标度是恣意挑选的。试验1,比较经PCA降维的数据结构贝叶斯网络并进行分类的成果与未经PCA降维的数据分类成果的准确率,如表1所示。

用经PCA降维的数据和未经降维的数据集别离进行贝叶斯网络结构的学习,所用时刻如表2所示。

对所用的贝叶斯网络学习算法进行CI测验,最坏情况下的时刻杂乱度为O(N4)。由表2可知,选用PCA降维后,算法所用时刻约占原结构算法时刻的34.58%,贝叶斯网络结构的学习功率有所进步。
经PCA降维,IRIS数据集的特色由4个削减为3个;ZooData的特色由18个削减到12个;Glass Identification Data的特色由11个削减为8个。特色数量的削减使得网络结构更为简略,而且由表2能够看出,经PCA降维后进行分类的成果准确率不低于不经过降维直接由数据集学习得到的贝叶斯网络分类成果的准确率。
经PCA降维后的网络结构如图1~图3所示。

用图1中的结点V4、图2中的结点F13及图3中的结点F8是类别标签结点,其他结点为原数据结点的线性变换,无实践意义。试验2用经过PCA降维后数据结构的贝叶斯网络器(BN)与朴素贝叶斯(NB)分类器、TAN分类器分类对以上3组数据进行分类。分类准确率的比较如表3所示。

由试验1可知,运用PCA降维后结构的贝叶斯网络与未运用降维数据学习得到的网络分类成果正确率相差不大,而这样结构的网络分类成果比其他分类器正确率高许多,一起运用降维后数据结构的网络还具有结点少、结构简略、学习功率高级长处。

5 结束语
根据贝叶斯网络结构学习中依靠剖析办法需进行指数级的CI测验因此存在结点集较大时核算功率低的缺陷,提出了将数据集先经过PCA主元剖析的办法降维。削减结点数,再用降维后的数据进行贝叶斯网络结构学习的办法,进步了网络结构学习的功率,并经过进步学习到的网络结构的正确性确保了较好的分类成果。此外。构建的网络还具有结点少、结构简略的特色,削减了网络的杂乱性。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/ziliao/beidong/132767.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部