一种基于元数据本体计算的网络信息检索方法*

2015-07-12 17:16
新技术新工艺 2015年3期
关键词:信息检索信息管理系统本体

李 彦

(西安翻译学院,陕西 西安 710105)

一种基于元数据本体计算的网络信息检索方法*

李 彦

(西安翻译学院,陕西 西安 710105)

为了提高Web信息检索和过滤的准确性,提出了一种基于元数据本体的网络信息检索方法,引入形式概念分析理论本体计算算法来描述本体特征检索领域的概念和关系,并通过构建以元数据为基础的信息管理系统,实现对语义元数据的检索。应用结果证明,采用该方法可有效提高信息检索的准确性。

元数据;概念相似度;本体;web网页;检索

随着当前网络信息量以几何级数的速度增长,传统的关键字检索方式不能满足用户对信息检索的有效需求,其在进行语义检索时准确性比较低;因此,如何提高对网页信息检索的质量成为当前思考的重要问题。当前,提高Web信息检索的技术方面思考主要为如何从大量的Web资源中附加计算机可以理解的内容(如元数据),以此使计算机更好地对其进行自动化处理,换句话说就是给出一种计算机能准确理解的资源手段,实现对异构分布信息的有效检索。解决该问题的关键在于:1)通过引入本体特征进行描述,从而提高检索的准确性;2)构建元数据信息管理系统,实现基于本体的元数据检索;3)针对其中的非元数据,如何实现转换。本文针对上述3个问题进行了探讨[1]。

1 本体概念相似度算法

目前,针对概念相似度的研究方法主要包括2种。

(1)

2)基于语义词典方法。该方法主要利用语义词典中的HowNet和WorNet等同义词所组成的树状层次体系结构,通过计算语义之间的距离或者是信息熵的方式对概念相似度进行计算[2]。

2 基于T-L BACH的改进CS0算法

传统的T-L BACH算法作为一种对本体间概念相似度的计算,与语义相似度算法等相比有着非常重要的特点,通过该算法可实现对 OWL DL等描述语言内涵的充分挖掘,从而得出本体概念以外的潜在的相关信息;但该算法也存在着很大不足,主要体现在计算本体概念相似度的时候,T-L BACH没有充分考虑到本体的概念特征间的相关结构关系,导致对相似度计算精确度不高。因此,为提高概念本体的计算的准确度,本文提出从 FCA 概念相似度和 RDF 图结构相似度两方面对其进行计算,其具体的计算公式为:

simcso=simfcawfca+simrdf+wrdf

(2)

式中,wfca为fca的权重,wrdf为rdf的权重,并有wfca+wrdf=1。

2.1 基于 FCA 的概念相似度计算

在FCA中,形式概念和形式为该算法的基础,还要通过形式反映其背景,因此,需要做以下几方面的定义。

定义1:形式背景K=(O,A,R)是由属性集合A、对象集合O以及由O和A关系R所共同组成。

定义2:假设E表示其对象集合O当中的一个自己,则定义E′={n∈A|∀m∈E,mRn}为E中所有对象的共同属性的集合;同理,定义I作为A当中的自己,定义I′={n∈A|∀m∈I,mRn}为I当中所有对象的共同属性。

定义3:采用二元组(E,I)表示形式背景K:=(O,A,R)的一个形式概念,有E⊆O,I⊆A,且满足E′=I,I′=E。其中,E表示(E,I)的外延,I表示(E,I)的内涵。用δ表示K:=(O,A,R)在背景为K上面所有概念的集合,δ表示背景上的概念格。

定义4:在概念格中,如果某元素不能被写成其他元素的下确界,则该元素和概念格中上方的元素仅能通过一条边进行连接,可将该元素称为是不可约下确界元素;同理,如果某元素不能写为其他元素的上确界,则将该元素称为不可约上确界元素[3]。

因此,通过上述定义,可得到基于FCA的相似度计算公式为:

(3)式3中,a(s1,s2)的值为0.5;s1∨s2为概念的上确界;(s1∨s2)∧为概念的上确界的内涵中其不可约下确界的元素集;(s1-s2)∧,(s2-s1)∧为在s1中却不在s2中的不可约下确界元素集,和在s2中而不在s1中的不可约下确界元素集。

2.2 RDF 图结构相似度计算

传统的针对RDF图结果相似度的计算公式为:

(4)

但是通过上述的数据可以看出,其充分地描述了RDF结构中的谓词关系,对其中的OWL语言的语义信息却不能充分表达;因此,在式4中增加了OWL属性的计算,将OWL的属性纳入到对相似度的计算中得到:

(5)

2.3 算法设计

通过上述分析,将对概念相似度的计算设计为如图1所示的算法。

图1 CSO 算法框架图

3 基于元数据和本体的管理系统构建

结合系统的需求,将该信息管理系统分为3层,并根据B/S访问模式对信息系统进行建构,其具体的建构如图2所示。

图2 元数据信息管理系统平台

构建元数据管理平台其主要的目的是对不同的业务信息进行分类,从而为基于本体的概念相似度计算提供相关的基础的素材。通过该平台将其分为3个不同的服务层:用户交互层主要为用户提供元数据管理交互的平台,包括对元数据的添加、修改、模板建模、查询、数据导入等操作;在登陆之后,通过基于本体和基于概念对网络信息进行搜索,一方面系统通过算法将用户提交的信息转换为基于本体领域的语义搜索,另一方面则生成基于本体概念的SPARQL;最后,将上述的信息传递给数据服务层,借助数据服务层对数据的处理和修改等完成对数据的搜索。在数据库中,通过采用一定的领域规则,并借助SWRL解析器对OWL文件进行解析,同时通过JESS推理引擎实现将数据传递给本体知识库。

4 基于元数据的信息搜集

在语义Web当中,最为核心的为 XML、RDF,这些作为解决对网络信息的搜集提供最为基础的技术框架;但是,在对信息的搜集过程中还存在着很大的问题就是当前大多数的网络资源其没有使用标准的元数据对站点信息进行描述,同时一些相关的网页或者图像资源也缺乏统一的元数据描述。因此,为了更好地解决该问题,本文采用了搜集过滤技术,在这个过程中,主动完成对语义元数据的搜集,过程为:1)如果该网络资源其本身则为元数据,则直接对其进行抽取;2)如果没有包含元数据,则首先根据文本摘要、关键词抽取和数据挖掘等方式将网络资源转换为元数据;3)对标注过的元数据进行抽取,抽取的元数据和对本体的描述统一采用RDF模式进行描述;4)基于过滤本体描述的条件表达式对网络资源所对应的元数据进行检索、分析和判别,以此来更新元数据库。

5 检索实现

5.1 实现工具

对于系统的实现,采用美国斯坦福大学开发的本体编辑工具Protege工具对该信息管理系统的领域本体进行开发,演示用的相关数据全部存放到SQL Server 2008数据库当中。采用Jena API接口对操作本体进行开发,最后通过JSP页面展现。

5.2 结果比较

为比较该算法的有效性,本文设计了2种方案,一种为现有的算法设计,另外一种为传统的关键词匹配,通过上述实现,得到的结果见表1。

表1 试验结果比较

6 结语

通过采用改进的CSO算法,加入OWL属性和引入形成概念,同时构建基于元数据的信息管理系统,得到了其检索的结果要远远好于传统关键字的匹配结果,从而证明了该算法的有效性。通过对该算法的改进,可实现对各种网络信息资源的搜索,提高搜索的准确性和实现语义延伸的搜索。

[1]王家琴,李仁发. 一种基于本体的概念语义相似度方法的研究[J].计算机工程. 2007,33(11):120-126.

[2]时维元,林正英.复杂设备制造企业远程服务文档管理与检索系统研究[J].新技术新工艺, 2013(2):41-45.

[3]李艳芳.多层网络中基于资源优化的配置方式[J].新技术新工艺, 2014(9):91-93.

*陕西高等教育教学改革研究(重点)资助项目(13BZ69)

责任编辑李思文

ANetworkInformationRetrievalMethodbasedontheMetadataOntologyCalculation

LI Yan

(Xi′an FanYi University, Xi′an 710105, China)

A network information retrieval method based on the metadata ontology was proposed to improve the accuracy of Web information retrieval and filtering. It introduced the formal concept analysis theory, calculation algorithm of ontology and describes the concept and relation to the ontology feature retrieval field. Meanwhile, through the establishment of information management system based on metadata, the method can realize the retrieval of semantic metadata. The results showed that the method can improve the accuracy of information retrieval effectively.

metadata, concept similarity, ontology, Web page, retrieval

TP 392

:A

李彦(1980-),女,讲师,硕士,主要从事计算机教学等方面的研究。

2015-01-05

猜你喜欢
信息检索信息管理系统本体
三维可视化信息管理系统在选煤生产中的应用
信息管理系统在工程项目管理的应用
眼睛是“本体”
高职院校图书馆开设信息检索课的必要性探讨
基于三维TGIS的高速公路综合信息管理系统
SaaS模式下的房地产中介公司信息管理系统
网络环境下数字图书馆信息检索发展
基于本体的机械产品工艺知识表示
基于神经网络的个性化信息检索模型研究
专题