TPI对“刘三姐专题文献数据库”进行CALIS标准改建研究

2011-12-22 10:47
河池学院学报 2011年5期
关键词:刘三姐文献数据库检索

周 波

(河池学院 图书馆,广西 宜州 546300)

TPI对“刘三姐专题文献数据库”进行CALIS标准改建研究

周 波

(河池学院 图书馆,广西 宜州 546300)

由于原有的“刘三姐专题文献数据库”存在着检索功能方面专业化程度较低以及不符合CALIS统一标准等缺点,在此利用TPI系统对“刘三姐专题文献数据库”进行了CALIS标准化改建。改建后的“刘三姐专题文献数据库”将具有良好的管理及服务功能、软硬件平台以及统一的CALIS标准接口——可接入CALIS的特色资源服务体系中,以实现元数据检索与文献传递功能,达到效益的最大化。

特色数据库;数字化文献;TPI系统;CALIS标准

0 引言

在计算机网络高速发展、数字化信息急速爆发的时代背景下,我们需要对传统图书馆进行重新定位和调整,使它能同时具备传统和数字图书馆双重职能。除传统方式的馆藏之外,我们还需要对相关的文献资源进行数字化收集、处理、存储、利用等多方面系统管理,以此能更好地发展数字化馆藏和虚拟化馆藏图书馆[1]。专题特色数据库建设的目标就是充分体现出文献信息与数据资源的特色,根据不同的地方特色、馆藏特色和专业特色将各类文献资源进行集中数字化处理,建立数字化文献资源库;同时,以专题网站为发布平台,通过Internet中的WEB服务方式,提供数字化文献资源的全文检索、浏览、下载、打印等服务。专题特色数据库应全面的反映其特定领域中的文化科技等发展全过程,充分展现其特定领域中的国内外最新研究动态和水平。专题特色数据库承担着存续民族文化和地方文化遗产的责任,以及为地方特色文化的传播、研究、开发利用提供数字化文献资源信息的支持。

由于原有的“刘三姐专题文献数据库”[2]研究开发人员的专业知识和技术水平有限,加之当时数据库开发过程中手中缺乏集成化、专业化、数字化的特色数据库建设系统软件,使得原有的“刘三姐专题文献数据库”所运用的技术与国内外先进技术相比尚处于初级水平;因此原有的“刘三姐专题文献数据库”无论是检索功能、安全性、可管理性方面都还存在着很大的不足和缺陷。同时,原有的“刘三姐专题文献数据库”也难以满足CALIS(中国高等教育文献保障体系China Academic Library&Information System)专题特色数据库子项目关于构建统一的公共检索平台、进一步统一数据库的建库标准和服务功能要求。集采集、制作、发布、管理功能于一体的TPI系统作为“刘三姐专题文献数据库”改建的技术平台将可解决原有的“刘三姐专题文献数据库”建设中专业化程度不高、效率低下等问题。同时,TPI系统在2005年通过CALIS专题特色数据库子项目认证,可为改建后“刘三姐专题文献数据库”与CALIS特色数据库共享资源预留了系统接口。

1 “刘三姐专题文献数据库”

关于“刘三姐”专题的各类文献资源不但是“刘三姐”山歌文化研究、保护、开发利用的基础资源,也是“刘三姐”山歌文化及其研究成果的重要载体,是“刘三姐”山歌文化的有机组成部分。“刘三姐专题文献数据库”依托“刘三姐”故乡宜州,具有各种“刘三姐”山歌文化相关文献资源丰富的优势,通过多种途径汇集了各类“刘三姐”研究相关文献资料,以现代数字化、网络化技术进行整理和共享。“刘三姐专题文献数据库”为学术界关于“刘三姐”山歌文化研究,地方“刘三姐”旅游品牌建设的规划、决策提供完备的、便捷的文献资料支持。同时,“刘三姐专题文献数据库”的文献资料保存功能,使其还具备有非物质文化遗产的保护、传承的作用。

1.1 原有数据库特点

“刘三姐专题文献数据库”在人机界面上运用了流行的“百度”搜索引擎风格——可使用户在使用时产生亲切感,操作方式也保持与百度相似——可使用户即使是第一次使用也可以轻松掌握使用方法。同时,“刘三姐专题文献数据库”的资料类型和载体类型具有丰富的多样性特点,并按照资源类型分别建立了新闻动态数据库、研究资料数据库、图片数据库、书目数据库、影音资料数据库等5个子数据库。截止2007年,数据库及各类电子资源共397 MB,全文内容约合200万字,包括新闻238篇、研究资料367种、图片582张、书目47 种、影音资料84 种[3]。

从整个内容体系以及资料的时代、地域、类型结构上分析,原有数据库收集的资源已具有较强的系统性、完整性和客观性,数量丰富,内容详实,具有一定的研究参考价值。

图1 原有“刘三姐专题文献数据库”

1.2 原有数据库架构

原有数据库系统采用了B/S(浏览器/服务器)架构,服务器端为ASP+ACCESS的WEB服务器,客户端为WEB浏览器。原有数据库系统可对各类资料的标题与摘要进行全文检索并且支持多条件的智能检索[4],其中多条件智能检索主要包括index.html、web.asp、web_detail.asp等文件。index.html文件用于接受用户输入的检索词,多个检索词用空格间隔;web.asp文件接受检索词,构造SQL语句,执行查询,在结果列表中加亮显示每一检索词;detail.asp文件显示每一记录的详细信息和全文信息。原有数据库在充分契合时下用户的检索习惯下,通过客户端浏览器向服务器发出数据访问请求,服务器端在本地完成数据检索等处理,并将结果以HTML形式回传给客户端浏览器(如图2所示)。

图2 数据库检索结果

1.3 原有数据库的局限

首先,由于在原有数据库建设过程中从文献资源的数字化录入、发布、管理分别使用不同的软件来实现,因此在工作流程上被割裂为一个个独立的工序,需要研发人员花费大量的时间进行工序协调,建库的效率大受影响,在大量资料需及时处理时,往往无法达到预期的目标。其次,原有数据库系统没有使用SQL、ORECL等主流大型数据库管理系统,系统的安全性、稳定性、可管理性不强,随着数据库建设的持续进行,数据库容量将不断扩大,作为桌面数据库系统的ACCESS将最终无法胜任。最后,原有数据库的检索功能还比较弱,主要提供单一途径的检索,由于缺乏专业全文搜索引擎的支持,未能实现真正意义上的全文检索,检索算法效率低,没有组合检索、结果内检索、关联检索等高级检索功能。

2 TPI系统

TPI系统是清华同方研制的用于知识信息创建、生产、管理、维护和发布的工具软件。它采用流行的B/S浏览器的检索方式和先进的3层C/S架构[5],能够同时管理文字、图片、多媒体等多类型信息,并能够提供全文检索服务、支持网页的动态发布[6]的专业数据库制作管理系统。以Kbase全文检索技术为核心的TPI系统可建设基于Internet的数据仓库,实现单位知识信息资源整合,能够同时管理多种类型的信息资源,集成各类电子资源采集、加工,内容发布与管理,在智能搜索引擎的支持下,实现内容管理与知识挖掘,并提供全文检索服务。

TPI系统中的“OCR识别服务”、“电子书加工工具”、“元数据加工工具”、“内容加工发布工具”等工具,可将“刘三姐专题文献数据库”中的纸质文献进行数字化加工处理,使之形成可利用计算机识别、传递的数字化资源,而后通过特定的数字技术进行采集、制作、存储、传输和发布,以此实现对现有和潜在的文献资料进行组织、利用和管理。

3 “刘三姐专题文献数据库”改建方案

“刘三姐专题文献数据库”改建方案立足于对现有数据库的开发、利用及扩充(即:边扩建边改建边维护),使其既能发挥现有文献信息的潜能又能使文献内容更加丰富。“刘三姐专题文献数据库”改建过程中涉及了数据库改建项目的组织规划、文献资源的数字化采集及加工、元数据的规范和标准、数据的分类导航与发布等操作流程(如图3所示)。

图3 “刘三姐专题文献数据库”改建流程

3.1 数据库改建项目的组织规划

我们将按照“刘三姐专题文献数据库”改建的目标组建可管理和可控制的各个工作单元,并组织各职能部门以及调集专业人才,为实现目标各司其职又相互协调、统一步骤,完成改建项目。“刘三姐专题文献数据库”改建项目将分解成3个工作单元。

(1)文献采集、加工单元:承担数据库原始文献的采集、甄别、评估,并按数据库资源组织分类标准对原始文献进行分类集中,再根据不同的资源类型采取不同的转换与加工方法;文献采集由具备广博知识面、熟悉地方文献工作和馆藏、能熟练运用各种检索手段和工具的工作人员组成,文献加工工作主要由熟悉计算机、数码设备的技术人员组成。

(2)资源标引、录入单元:承担运用IPI系统将采集加工好的数字化文献进行标引、录入及校检;工作由熟悉文献标引、编目工作,有较丰富文献标引、著录工作经验的人员组成。

(3)网络系统服务单元:承担数据库的发布、维护、数据备份等技术工作;工作主要由技术部门的网络工程师和系统维护员组成。

3.2 文献资源的数字化采集及加工

搜集文献资源进行数字化处理加工应严格按照CALIS标准的统一文本格式。图书、报刊、文件、照片、手稿、拓片、缩微平片、胶卷等各类文献资源经过图像扫描、OCR识别、数字图像压缩、用数字建模等技术处理,将重现和展示文化遗存、原始风貌、人文景观和地域特色文化。TPI系统的“Bookshop加工工具”和“Adobe Acrobat软件”可便捷的将如WORD、HTML等各种类型以及不同文本进行编辑整理、快速转化、加工处理成符合CALIS标准的数字资源,以此达到CALIS严格的统一数据格式要求。音频资料如原始资料CD光盘转换为可支持网络在线播放的WMA和MP3流媒体音频格式;影视资料如电影《刘三姐》、舞台剧《刘三姐》VCD、《印象刘三姐》DVD转换为可支持网络在线播放的RM流媒体格式。

3.3 元数据的规范和标准

元数据为描述数据库中数字化文献的数据,选择适合的元数据描述将关系到数据库文献资源著录与CALIS数字化、网络化资源规范的是否一致,以便能够在更大范围内实现与其它CALIS特色数据库的数据共享。元数据规范标准可以依据CALIS专题特色数据库项目管理组颁发有关网络信息资源、图像资源和全文信息等元数据规范要求[7]。采用“CALIS特色数据库建设与共享项目指定的规范”这一标准可为今后与其它CALIS成员馆开展资源共享奠定技术基础。对于元数据采集我们可以通过TPI系统提供的“元数据转换工具”,将原有的“刘三姐专题文献数据库”中ACCESS格式的描述性元数据和管理性元数据转换成符合CALIS规范的元数据并导入到改建后的“刘三姐专题文献数据库”中。

3.4 数据的分类导航与发布

“刘三姐专题文献数据库”的建设目的是实现网上共享、信息发布、资源导航、文献传递等。而TPI系统能够不需要任何其它程序编写或网页制作,可快速地将加工好的数据发布到因特网上,使“刘三姐专题文献数据库”可以被用户更加方便快捷地浏览、检索和下载。利用TPI系统的“内容加工、发布工具”,我们可以根据数据库内容的不同预制与之相对应的不同形式和不同特点的发布模板及检索模式,如GOOGLE风格、CNKI风格、OCLC风格、EI风格等,以及配置个性化的高级检索界面,使数据库形成多元化的检索途径,实现各个专题数据库间的无缝衔接和跨库检索功能。改建后的“刘三姐专题文献数据库”将提供全天候的服务,可定期对数据库数据进行更新、追加以及对数据库运行情况进行分析、维护。

4 小结

借助TPI系统,将简化“刘三姐专题文献数据库”改造与建设的工作流程,改变数据库(包括文献资源)更新与维护的模式,以及保证数据库安全通畅的运行。TPI系统的运用将有助于提高研究人员的工作效率,使其摆脱繁琐的工作程序,将主要精力集中于原始文献资源的收集、分析及处理之上,从而进一步提高“刘三姐专题文献数据库”的专业品质。今后新的“刘三姐专题文献数据库”将不断地得到完善,特色文献资源质量也将不断地得到提高,以此实现“刘三姐专题文献数据库”更大的实用价值,使其获得最大的社会效益和经济效益。

[1]宁锐.浅议高校图书馆创建特色数据库的思路与策略[J].科技情报开发与经济,2007,17(17):60-62.

[2]河池学院图书馆.刘三姐专题文献数据库[EB/OL].[2008-04-08].http://www.hcclib.net/lsj/index.html.

[3]李波.西部地方高校图书馆特色数据库建设的实践与思考——以《“刘三姐专题文献数据库”》为例[J].农业图书情报学刊,2009,21(7):23-26.

[4]罗岗生,李波.河池学院图书馆地方特色文献网络信息服务平台研究报告[DB/OL].2011-05-07.http://www.hcclib.net/intro.htm.

[5]董敏红.基于TPI平台的专题数据库建设探讨[J].情报探索,2010,(1):93-95.

[6]杨小琴,袁润.基于TPI的教学参考信息系统研究[J].现代情报,2007,(9):165-166.

[7]CALIS专题文献数据库中心网站.项目概况[DB/OL].[2009-08-06].http://tsk.cadlis.edu.cn/tskopac/projectInfo.do.

Research on CALIS Standardized Reconstruction of the Special Bibliographic Database of Liu Sanjie with TPI

ZHOU Bo
(Library of Hechi University,Yizhou,Guangxi 546300,China)

Because such shortcomings exist in the original Special Bibliographic Database of Liu Sanjie as low retrieval capabilities and failure to meet the CALIS standards,the paper reconstructs the Special Bibliographic Database of Liu Sanjie with CALIS standards using TPI System.The reconstructed Special Bibliographic Database of Liu Sanjie will be characteristic of better management function,service function and the platforms of software and hardware,the unified CALIS standardized interfaces,which can get access to the service system of characteristic resources so as to bring about the functions of data retrieval and literature delivery,thus maximizing the benefits.

characteristic database;digital document;TPI system;CALIS standards

G250.74

A

1672-9021(2011)05-0101-06

周波(1979-),男,湖南湘潭人,河池学院图书馆助理馆员,主要研究方向:数据库、企业信息管理、Web信息融合技术研究。

广西教育厅科研基金资助项目(201106LX612),河池学院青年科研B类资助课题(2010BN005)。

2011-06-21

[责任编辑 刘景平]

猜你喜欢
刘三姐文献数据库检索
《感染、炎症、修复》杂志检索数据库
《感染、炎症、修复》杂志检索数据库
向往刘三姐的故乡
论我国学术文献数据库的质量调控
专利检索中“语义”的表现
中文文献数据库中撤销论文的分布规律研究
寻找刘三姐(外一首)
黄四姐牵手刘三姐 同心共筑旅游梦
浅谈刘三姐文化档案
国际标准检索