日期:
2024年05月04日 星期六
数字方志馆搜索:
当前位置: 首页 >> 政务公开 >> 学会学术 >> 基于领域本体的档案信息检索系统构建研究

基于领域本体的档案信息检索系统构建研究

2015/1/26 14:05:00    作者:  张园 来源:     【字 号:  】   点击量:3974

1.绪言

档案信息检索从手工检索发展到计算机检索阶段,在检索速度、准确率方面都有了很大的进步。但是,传统计算机档案信息检索系统受制于关键词匹配技术,只能进行词形的机械匹配,加上“表达差异”、“信息孤岛”以及汉语中“一词多义”、“一义多词”等现象的共同影响,检索效果依然不能尽如人意:检索结果中常常包含大量的无用信息,真正有用的信息却又未被检索到,形成了检索出的档案没用,有用的档案又检索不到的利用矛盾。

作为一种能在语义和知识层面上描述信息系统的概念模型建模工具,本体理论提供了一种重要的解决上述问题的思路。研究表明,借助本体有助于实现语意层面的信息检索,并能在一定程度上提高检索效果。档案学领域于21世纪初开始引入本体的研究,但多集中于研究引入本体的必要性、可行性或者理论方法层面,大都没有涉及具体档案领域本体构建、系统框架搭建等方面。

2.基于领域本体的档案信息检索系统模型

为此,本文提出完整的基于领域本体的档案信息检索系统模型,设计思想是:首先,借助成熟的信息组织工具——档案主题词表,构建反应领域概念和知识体系的档案领域本体。第二步,借助档案领域本体推理出检索词的等价、上位、下位、反义等关系词,所有关系词组成导航列表(动态链接)返回给用户(引导查询),等价关系词和原检索词组成新的查询请求访问数据库(实现查询扩展)。第三步,新的查询请求访问数据库获得结果返回给用户。模型框架如图1所示。


1  基于档案领域本体的档案信息检索系统模型框架图

2.1档案领域本体构建

档案领域本体构建虽然没有现有的本体可以复用,但是档案领域有着应用广泛的主题词表即叙词表,可作为领域本体构建的基础。国内外已有十多种叙词表被成功地转换为领域本体:联合国粮农组织利用RDFSAgrovoc叙词表转换为农业本体,阿姆斯特丹大学的Wielinga等将艺术和建筑叙词表(AAT)转换为本体,国内李景整合FIGIS门户的参考目录、ASFA叙词表、AGROVOC叙词表渔业部分、One Fish主题树等4个叙词表,建立了FOS项目。在此,本文考虑利用档案主题词表作为构造档案领域本体的基础,借鉴七步法,同时结合付佳佳、唐爱民等人总结的基于汉语叙词表构建领域本体的特点,通过(1)建立档案领域本体的概念节点,(2)确定概念间关系,(3)为概念间关系添加属性设置,(4)构建及表示档案领域本体这4个步骤建立档案领域本体。

1)建立档案领域本体的概念节点

本文考虑从档案主题词表词族索引部分的词族出发,构建档案领域的概念节点。在此之前,首先需要对词族索引进行改造,构建陈既包含正式主题词又包含非正式主题,并揭示所有词间关系的“新词族”:从族首词开始,依次为词族中的每个主题词找出存在于主表中的所有关系词(包括非正式主题词),将词族中没有显示的主题词(含词间关系)添加进来,继而为新添加的主题词添加所有关系词和词间关系,直到再没有新的主题词添加进来为止。此外,也要为未在词族索引中出现(即没有属分关系词),但在主表中有关系词的主题词构造“词族”。改造好后,“新词族”中的主题词即可视为概念节点直接转换到档案领域本体中,即“类”。

2)确定概念间关系

档案主题词表中有代(D)、用(Y)、属(S)、分(F)、参(C)这5种词间关系,可以作为向档案领域本体概念间关系转化的基础。但这几种词间关系过于宽泛不够准确,需要进行细化和丰富后才能向档案领域本体概念间关系转换。

档案领域本体的概念间关系可以根据具体应用情况确定,例如可以设定等价、等级(上位-下位关系)、近义、反义、整体-部分、实例、属性、限定、学科-研究对象和参考共10种概念间关系。其中,参考关系用来包含那些细化后不能被归纳到其他关系中的词间关系。

代、用关系通常包含了正式主题词与非正式主题词之间的同义、近义、反义等关系,他的揭示有利于增加检索入口,主要能细化成等价、近义、反义、参考关系。属、分关系的揭示有助于扩大或缩小查找范围,提高检索能力,主要能细化成等级、整体-部分、属性、限定、学科-研究对象、并列、参考关系。相关关参可以揭示档案主题词之间的各种联系,可以根据实际情况细化成上述10种关系之一。

词间关系的调整需要在“新词族”中表示出来,即用细化后的关系代替细化前的关系,作为概念间关系确定下来。

3)为概念间关系添加属性设置

档案领域本体概念间关系的属性种类也可以根据实际情况确定,针对上述10种概念间关系的特点可以设定对称性、可传递性2种属性,具体设置如表1

1  档案领域本体概念间关系属性设置情况表

可能的领域本体关系

对称性

可传递性

等价关系

等级关系

×

近义关系

×

反义关系

×

整体-部分

×

属性

×

×

限定关系

×

×

学科-研究对象

×

×

并列关系

参考关系

×

4)档案领域本体的形式化描述

利用领域本体构建工具如Protégé来实现档案领域本体的形式化,可以避开繁琐的本体语言编写工作,本体构建完成后导出OWL语言格式的文本表示文件。

基于领域本体的档案信息检索系统通过语义分析上述OWL文本,可推理出与检索词有语义关系的所有关系词组成导航列表返回给用户,等价关系词和原检索词组成新的查询条件访问数据库。

基于领域本体的档案信息检索系统可采用关系数据库存储数据。一方面目前关系数据库的技术最为成熟,能够有足够的技术保障;另一方面,关系数据库是目前档案信息检索领域应用的最为广泛的数据库类型,选用关系数据库有利于兼容原有系统。

3.原型系统实现和功能评价

1)开发原型系统

为了检验上述基于领域本体的档案信息检索系统的可行性和检索效果,本文以环境管理领域为例,利用《环境保护档案主题词表》(1995年版)SA1(环境管理)类目内容为基础构建环境管理档案领域本体,并在此基础上建立一个检索原型系统。原型系统采用Windows XP操作系统进行开发,使用Java语言作为编程语言。

在领域本体构造方面,笔者首先遍历《环境保护档案主题词表》SA1环境管理类目下的833个主题词,手工构造了109个深度大于1(即至少由两个主题词构成)的“词族”,将这些“词族”中的主题词(去除重复部分)视为概念转换到环境管理档案领域本体中。

紧接着细化“词族”里各主题词的词间关系。在此为环境管理档案领域本体选择设置了等价、等级(上位-下位)、近义、反义、参考等5种概念间关系(具体定义如表2所示),词间关系需要细化成这5种关系之一。

2  5种概念间关系在Protégé3.1.1中定义的情况

环境管理档案领域

本体的概念间关系

关系的OWL表示

表达的意思

等价关系

equivalentClass

AB是等价类,即AB同义

等级关系

subClassOf

AB的下位类;BA的上位类

近义关系

SimilarClassOf

AB在意义上相近

反义关系

OppositeClassOf

AB在意义上相反

参考关系

relevantClassOf

AB相互交叉,可互为参考

接下来,为环境管理档案领域本体的概念间关系添加属性设置(对称性、可传递性),具体设置情况如表3所示。

3  概念间关系的属性设置

环境管理档案领域本体中概念间的关系

属性

等价关系

对称性、可传递性

等级关系(上位-下位关系)

可传递性

近义关系

对称性

反义关系

对称性

参考关系

对称性

再在Protégé 3.1.1中编辑环境管理档案领域本体,编辑好后利用“Code”选项里的“Show Source Code”功能导出领域本体的OWL描述文档。

检索原型系统利用Protégé OWL API访问上诉OWL文档,推理出等级、等价、近义、反义、参考等关系词,实现语义分析和推理。以下为等级关系的分析推理语句:

//subClassOf

public List<OntClass> getSubClasses(OntClass ontclass) {

List<OntClass> ontClassList = new ArrayList<OntClass>();

for(Iterator<OntClass>it=ontclass.listSubClasses();it.hasNext();) {

OntClass subClass = (OntClass)it.next();

ontClassList.add(subClass);

}

在此只进行一级推理,即只推理出检索词的直接上位和直接下位关系词。推理得到的关系词分类形成导航列表返回给用户,同时等价关系词和原检索词一同访问数据库。

检索原型系统采用Access数据库存储档案目录数据,数据结构表参考笔者所在档案馆现行检索系统数据库的数据关系模型设置,选取4个常用且必备的字段,如表4所示。将现行检索系统中环保局全宗下的文件级目录数据按照表4设置的数据结构保留相应字段存入数据库,共存入2971条数据。

4  数据库数据关系模型设置

字段名称

标识

类型

长度

档号

DH

字符

50

标题

BT

汉字

500

责任者

A2

汉字

100

成文日期

CWRQ

字符

20

2)运行结果

将检索原型系统与基于关键词的传统档案信息检索系统(以笔者所在档案馆现行的检索系统为例)的检索效果进行比较。例如,在用户查询界面输入“环保”一词,原型系统和现行系统的检索结果分别如图2、图3所示:

2  传统档案信息检索系统的检索结果


3  现行检索系统的检索结果

从图2、图3可以看出,基于领域本体的原型系统的输出结果不仅包含了“环保”,还包含了“环境保护”,而现行检索系统的检索结果只包含“环保”一词。在这里,“环境保护”就是通过环境管理档案领域本体推理得到的等价概念。同时,检索原型系统还返回了导航列表(图3的右侧部分),显示与“环保”有语义关系的概念,此时点击其中的任一概念,系统就会针对新的概念进行一次新的检索,导航列表也会进行相应更新。

4.结语

本文针对传统档案信息检索系统的不足,提出了基于领域本体的档案信息检索系统,并就档案领域本体的构建和表示、检索原型系统的开发等内容进行了研究,该检索系统可以实现一定程度的查询扩展和智能导航。检索原型系统的实践也证明了基于领域本体的档案信息检索系统的可行性和较之传统系统的优越性,具有一定的应用价值。但同时也应当看到,受限于当前档案自动标引技术发展水平的,本文提出的检索系统中档案领域本体仅作用于查询阶段,未能作用到档案的信息组织阶段,这也是有待进一步研究的重要方向。




电话:0512-63016908  传真:0512-63016927
地址:苏州市吴江区中山南路1979号 邮编:215200
吴江区档案馆版权所有