摘要:商业企业每天发生很多的网格数据,作为网页信息交流的实践规范,最重要的应战之一是怎么有用地进行数据查找,数据查找能够以链接的办法进行。一些研讨人员现已研讨出了演算法,以削减查找进程中发生的无效信息。另一些研讨人员引入了记载法,能够进行相关元素的定位,无需查找原始网格文档,经过记载的办法完结查找进程。文中介绍的办法是根据正在被查找的数据的概念,以及对网格数据库的内容查找及要害字查找,运用概念查找能够进步查找功率。
要害词:网格;查找;最佳化;演算;网页描绘言语WSDL
半结构化数据在网页中的高档运用越来越遍及,商业企业每天出产及消费很多的数据。网格作为网页上半结构化的数据具有适当杂乱的内部结构,有时还被提取出来作为指令树。
在大大都的网格查找言语中,网格查询的结构以链接的办法出现,网格元素的价值被用作挑选谓词的一部分。有用链接办法匹配是网格数据库中网格查找程序的要害。
笔者概述了一种立异办法,将数据的概念考虑进来进行网格查找,介绍了在网格数据库中进行要害词查找的一种有用的演算法。该办法的本质是,假如数据的概念是已知的,那么数据的概念能够用于查找最佳化。
首要界说一个数据模型,称之为CRD—FS。半结构化的数据目标-联络-特点办法,包括概念数据模型的实体,以及层次结构网格数据。有了CRD—FS数据模型,许多网格数据库的概念能够清晰的被出现,可是不能被WSDL及网格办法所辨认。
1 相关作业
X途径是经过网格文档中的元素及特点,在网格文档中发现信息的一种言语,同UNIX文档体系中的目录类似。例如,经过X途径的标明:/院系/课程[代码=\cs4221”]/学生、学生名字。能够标明为\cs4221”课程的学生的名字。一条X途径的查找能够经树状图表标明,称为链接办法。X途径被作为链接办法查找的办法被出现。
Chippimolchai et al.开展了一种演绎数据库中概念查找的最佳化结构。他们概述了一种演算办法,能够将查找转换成查询及完整性束缚,这些整体性束缚是从实在国际发生的,不能从网格办法或WSDLs.中发生。
2 CRD-FS数据模型
半结构化的目标,联络,特点数据办法有4个基本概念:目标类,联络类别,特点及参阅,包括4个图表:办法图表、间隔图表、功用独立性图表及层次图表。
一个CRD—FS办法图表代表着作为标签的一个目标类。目标类之间的联络类型被描绘为标签名字(目标类清单),N,P,C”,此处的名字指示了联络类型的称号,目标类是参加到联络类型中的目标类清单,N是一个整数,标明晰联络类型的程度,P和C是联络类型中的参加约束,界说了运用规范的最小及最大的符号。两个目标类之间的边际能够有多于一个的这样的联络类型标签去标明目标类所参加的不同的联络类型。联络类的特点或许联络类型是有标签圆圈所注解的。目标类的标识符像填充的圆圈相同被注解,一切的特点都应当并强制的,单值的,包括一个“?”,标明这是单值的,可选的,或许是一个“+”标明多值而且是被恳求的,或许是一个“*”,标明其实可选多值的。目标类的特点能够从一个联络类型中相区别出来。前者没有边际标签,当后者的联络类型的称号归于自己的标签边际时。
特点的名字,代码和学生编号分别是目标类院系、课程和学生的标识符。每个学生都有其独有的学生编号。标题的特点、符号、地址和业余爱好都是可选的。业余爱好是多特点,而学生名字是必需的。这儿有两种联络类型,被称之为dc and cs.前者是目标类部分同课程之间的二进制联络类型,后者是课程同学生之间的二进制联络类型。一个院系能够由一个或更多的(1:n)课程,一项课程归于一个或只一个院系(1:1)。一门课程能够由零个或更多(0:n)学生;一名学生能够选修一门或更多课程。学生同符号之间的边际上的标签cs标明符号是联络类型cs的独自价值特点。也便是说,一门课程中一名学生的特点符号。从这些束缚条件中,能够派生出{课程;学生}→符号。
3 查找进程中概念的运用
概念是经过CRD-FS办法进行优化链接办法,从而用3个链接查询来进行查找评价的。
查找1:找出等同于“s123”的学生元素的学生名字值,X途径标明为://student[@stuNo=“s123”]/stuName
运用CRD—FS办法,能够知道学生名字是学生目标类的一个单一值特点,学生编号是学生的身份标识,因而学生编号→学生名字。为了处理查找,咱们只需求找出带有学生编号特点的网格中的第一个学生元素即可。
此外,Wu et al.现已提议了一种演算办法,它会集查找内容或具有概念信息值。
查找2:找出一切学生的平均分。
答复该查找处理器需求了解学生编号是目标类学生的标识符,而且要将课程同学生之间的联络类的单值特点符号出来。
查找3:找出课程中一切学生所获得的分数。
为了正确完结以上查找,用户需求理解学生编号是学生的标识符,代码是课程的标识符,符号是课程与学生之间联络类型的单值,每一门课程只是由一个院系所供给,每一门课程在网格文档中只是出现一次。当WSDLs办法无法捕捉一切所需概念时,该信息能够在CRD-FS办法图表中被捕捉。
有了CRD—FS数据模型所捕捉的概念,咱们能够解说网格问询是否正确,是否能够进步查找评价功能。运用存储在CRD-FS办法图表中的概念,图解查找言语GLASS能够主动生成查找所用的X查找,用户没有必要去编写X查找问询。
4 网格中的内容查找
网格文档中处理一个链接办法的查找包括结构查找及内容查找。大大都现有的演算办法无法将内容同结构查找相区别。在结构处理期间,它们将内容节点同元素节点相同处理,查找所问询的实践值需求依赖于原始文档。咱们提议将带有相关表格的一个新的演算值(VERT)提取来战胜这些限制。VERT技能是生成相关表格以便来存储文档内容,而不是将他们像节点那样进行处理和符号。笔者所说的演算是根据文档的概念信息。由于越多的概念被捕捉,笔者就能够进一步优化表格及问询这样能够极大的进步功率。
例如,考虑带有包括标签的网格树。能够将数值内容同联络标签中的母标签一起存储,而不是为每个网格标签和数值内容存储标签数据流。有了这些联络表,当用户在宣布一个链接查找时,体系就能够主动将其重写至查找中,这儿节点价格大于15,他们的PC联络被称之为>15的价格节点所替代。能够在表格Rprice中执行至带有数值的一切价格元素傍边。其功能结构以书本的标签数据流为根底。ISBN以及价格’> 15,以这种办法,可节约一切大于15的数值内容的数据流的本钱,以及在兼并标签数据流之间的结构的本钱。用这种办法,当处理链接查找时,也能够节约书本目标同其价值特点之间的结构及其价格。
终究,根据由ORASS所捕捉到的概念,标题,价格等是书本目标类的仅有价值特点,能够将这些特点的内容价值premerge到一个独自的带有书本目标标签的相关表格,有了premerged表格,能够对链接查找作出答复。在premerged表格上只是能够完结一种有用的挑选。
5 网格中要害字连同概念的查找
要害字的近似查找是查找网格数据库的一种友爱办法。该区域大都前期所做的尽力都是会集于网格要害字近似查找。网格的数据办法遍及都很简略而且有用。但是,它们并不捕捉数据库中的联络,例如身份参阅。相反,是根据图表办法的捕捉联络的技能,不过这些大多关于核算来说都是无效的。许多现有的技能并不开发办法信息,这些信息一般是以数据库的办法出现。没有了办法信息,要害词近似技能在成果中出现的可能性会很小,而且它们所回来的成果是不相关的。例如,LCA关于根据树状办法的要害字近似查找会很大一部分回来到其悉数数据库的根部。
笔者主张的是一种互连目标办法,能够充沛开发网格功能而且在办法出现时标示出其办法信息。在咱们的模型中,数据库管理员为成果标识出感爱好的目标类及同爱好目标之间的概念性衔接。
有了感爱好的目标类,关于要害字近似查找最具直觉成果的是含有一切要害字的爱好目标的清单。较之众所周知的LCA概念(Lowest Comm on Ancestor),将这些爱好清单称之为ICA(Interested Common Ancestor)。相同,用IRA(Interested Related Ancestors)概念来捕获爱好目标及包括更多相关成果。一个IRA成果是一对包括一切要害字的目标,而且同概念性衔接是联络在一起的。例如,为了查找“网格查找程
序”,带有标题“查找程序”的标题以及引证或被“网格“所引证的论文被看作是IRA目标。
就执行时间和成果质量而言,试验性的评价标明该办法要优于大多现存的学术体系。
6 定论
半结构化数据安排中的重要区域之一便是供给能够进行有用数据查找的演算。本文中概述了一个最佳化计划,在数据已知的时分能够被引证。介绍了一种数据模型,在ORASS中能够出现出必要的概念,而且已完结的最佳化计划进行描绘,展现了当概念被包括在内的时分,链接办法是怎么最佳化的。怎么处理前史链接演算中的价值,概念性的衔接与目标类之间怎么被运用在要害字挨近的查找中。
往后将研讨怎么运用ORASS中捕捉的其他概念进行链接办法问询的进一步优化,这些优化计划哪些地方是有价值的,经过试验来标明处理速度的进步。特别的信息是怎么同最优化办法所链接的,如母子、鼻祖一后嗣联络,否定,节点的指令,稳定值及节点输出。