古籍数据库利用探索

2015-11-16 04:58阮晓东
剧影月报 2015年6期
关键词:四库全书电子版书目

■阮晓东

古籍数据库利用探索

■阮晓东

我国的中文古籍数字化工作自20世纪80年代以来逐步推进,并取得了较为显著的成果。先后建成了一系列大、中型古籍数据库,具有代表性的如《古今图书集成》数据库、《文渊阁四库全书》电子版、《中国基本古籍库》、书同文全文检索系统。这些数据库,为文史工作者进行学术研究提供了极大的便利。

而作为图书馆工作者,则可以利用这些古籍数据库,进行本馆特色资源的开发和建设,或编制专业工具书等,收到事半功倍的效果,对此我们做了一些探索。

一、古籍数据库概况

古籍数据数字化形式主要有古籍书目型、全文型、全图像型和图文型。

古籍书目型数据库是最早建立起来的有关古籍资料的数据库,只能说是古籍数字化的雏形。它将馆藏古籍的书目、著者、分类、索引等信息录入计算机而形成,其代表是南京图书馆建立的中文古籍书目数据库,共收录了40万条数据。再有是我国清华、北大两所高校各自编撰的馆藏古籍书目数据库,其资源库投入使用后,极大的方便了读者。

全文型古籍数据库是通过手工或者扫描录入古籍资源,形成电子文本,供用户查询。优点便于阅读,便于检索,储备量大且存储空间小,缺点文字录入艰难,无古籍原貌。其代表可见台湾的汉籍全文资料库。

全图像型古籍数据库是直接通过扫描,以图片格式,配以标引,再进行分类存储,目前是各大图书馆采用最多的手段。优点是保存古籍原貌,缺点是检索困难。其代表为武汉大学出版社以文渊阁本《四库全书》为底本的“四库全书光盘版”。南京图书馆2010年推出的《中国近代文献图像数据库》,目前已汇集中华民国时期文献中的图片十余万幅。

图文型古籍数据库是在存储古籍图像基础上,将书中具有检索内容数字化,借助软件工具,读者可以快捷的查询。

二、古籍数据库建设现状

全文图像型,是通过光学扫描,获得古籍的原始影像,再经过修正、标引、编辑等工序,将此影像直接存入数据库中。这种数据库,其制作优势是方便快捷,不必对古籍文字进行录入、识别和校对,且其内容完整,原汁原味。缺点也很明显,它其实就是纸本图书的图像版。虽然有一些辅助检索功能,但检索点少,实用性不高。

全文检索型,其制作方式,一是通过人工文字录入,获得可以任意编辑的文本文字,这是目前采用的主要方式。二是通过光学扫描后,采用文字识别软件,对扫描出的原书图像进行分析和识别,产生可编辑的文本文字。由于古籍印刷方式多样,且字体差异大,并含有异体字,缺笔避讳字等,采用通用文字识别软件进行识别极为困难,除非花高价专门设计针对特定图书的文字识别软件,因此无法普及。

总之,全文检索型古籍数据库制作困难,要进行大量的文字录入、校对等人工劳动,费工费力,造价昂贵。但其优势也极为明显,即可以进行任意字词的全文检索,实现查全查准,这是古籍电子资源最重要的优点之一。

三、古籍数据库的选择

当前,大大小小的古籍数据库层出不穷,为我们利用古籍数据库制作图书馆特色数字资源和编制专业工具书提供了极好的条件。而要合理地利用古籍数据库,首先需要对其进行科学的选择。我们的选取原则,是优先选择大、中型全文检索型数据库。

以南京图书馆的中文电子文献为例,目前我们可以获得的古籍全文检索型数据库如下:

《瀚堂典藏》古籍数据库:此数据库采用大字符集和通用浏览器模式。以小学工具类、古代类书类数据、出土文献类数据为基础,大量纳入包括经、史、子、集四部、中医药典籍、古典戏曲、敦煌文献、儒、释、道等历代传世文献,文字总量超过15亿字,篇幅惊人。

《瀚堂近代报刊》数据库:这是瀚堂公司推出的另一大型数据库。到2011年,全库数据总量约300万笔,图文对应的报刊图片近80万帧。并汇集了300多种清末至民初的报纸和刊物。

《瀚堂典藏》新增分库:这是瀚堂公司2010年推出的《古本小说》分库,收录唐以前至民国初年的志人类、志怪类、传奇类、话本类、章回类、短篇类等,文言、白话小说书目约400种。

《文渊阁四库全书》电子版:清代乾隆年间编纂的《四库全书》,是中国古代最大的一部丛书。其电子版共收书3461种,总字数约七亿字,全书分为经、史、子、集四部,内容涵盖广博,包括哲学、历史、文艺、政治、社会、经济、军事、法律、医学、天文、地理、算学、生物学、农业、占卜等。

中国基本古籍库:分为4个子库、20个大类和100个细目,共收录上自先秦,下迄民国的历代名著和各学科基本文献一万种,每种均提供一个通行版本的数码全文,和1-2个珍贵版本的原版影像。总计收书约17万卷,版本12500多个,全文17亿字,影像1200万页。

书同文全文检索系统:南京图书馆试用其全文检索产品有:《大清五部会典》《大清历朝实录》《四部丛刊》及增补、《历代石刻史料汇编》和《十通》等。

此外,还有南京图书馆自建的馆藏古籍全文数据库等。

上述这些大、中型全文检索型数据库,我们可以在馆内直接获取,而无需付出任何费用,尤其是其中的大型全文检索型数据库,是我们编辑专业工具书,制作特色数据库的主要工具。

四、利用古籍数据库的实践

这里以《文渊阁四库全书》电子版的利用为例,探讨编辑《中华大典·军事典》和制作“金陵掌故”特色数据库的方法和技巧。

1、编撰《中华大典》的实践和体会:《中华大典》是国家“十一五”时期文化发展规划纲要的重要项目。这部类书巨著,共设24个分类典。其中《中华大典·军事典》的编纂工作,于2009年4月正式启动。

《军事典》共设6个分典,其中《军事人物分典》,由南京政治学院担负编纂任务,南京图书馆是其合作单位。这也是南京图书馆为科研单位提供高端服务的一次有益尝试。《军事人物分典》内容涉及上迄先秦,下至辛亥革命的数千年的军事人物,以及浩如烟海的历史典籍。

编辑《军事人物分典》这一类专业工具书,首先必须从成千上万种古籍中筛选出最核心的善本典籍,制定为专用书目,从而为古籍的使用划定一个科学合理的范围。以后还可以根据专用书目,查找原始的善本资料。而单纯用人工方式,通过对纸质文献进行逐类逐种筛选,其工作量惊人,且难以全面准确地查出所有核心文献。我们采用《文渊阁四库全书》电子版,辅以其它古籍数据库,再通过对原始古籍的检索查询,较好地完成了编制专用书目的任务。

《文渊阁四库全书》电子版界面友好,易学易用,除了支持全文检索,可以进行整段、片段甚至单个字词查询,还具有一些实用而重要的功能,例如原始文献对照功能。用户在阅读文本文档时,可以随时调阅原始的扫描影像,进行对比校对,有利于保证文字的正确性。还有单种文献查询功能,即可以针对某一类型甚至某一种书进行全文查询,即提高了检索结果的单纯性,也提高了检索速度。此外,《文渊阁四库全书》电子版不仅有网络版,也有单机版,便于用户在图书馆以外的地方独立工作。这些优点,使我们可以在较短时间内组织专人,利用此数据库进行所需的加工制作。

以我们负责的魏晋南北朝时期为例。按计划,选有军事人物约150人。我们选择了其中的重要人物30余名,将其姓名逐个输入“四库全书”数据库中,进行查检。例如曹操,以其本名及魏武、魏公、阿瞒等作为检索词,搜得相关结果一万余条。逐条阅读,以筛选出包含重要内容的古籍,再经参照其他古籍数据库,得出用于魏晋南北朝时期的专用书目。其中经类书25种,史类书140种,子类书90种,集类书100种。最后,再从馆藏中查找出列入书目中的较好版本的古籍,完成通用书目的编制。

通用书目完成后,即可进行军事人物词条的检索和选取。同样,以曹操的相关称谓为检索词,分别从经、史、子、集四部得到相关记录。其中仅曹操一词即检出四千余条记录。逐条筛选,获得时间早、内容丰富、罕见的条目,而剔除大量简单重复的记录。

这些极大检索量的工作,采用手工劳动方式是无法完成的。

2、制作《金陵掌故》全文数据库的实践和体会:《金陵掌故》数据库是我们初步开发的一个地方文献数据库。其收录范围,涉及上古到清代与南京有关的尽可能多的文献,包括图书(含单篇文章)库和词条库两部分。其内容以地理、历史、风俗及与之相关的人物、故实为主。数据库按分类组织,支持全文检索,其文字可以任意复制和编辑。

初期制作中,我们从《四库全书》电子版等古籍数据库中,提取相关古籍电子资源,如《景定建康志》《江南野史》《至大金陵新志》《金陵百咏》《六朝事迹编类》等数十种,另制定了扫描计划,拟将一些没有电子文本的南京地区的地方文献进行文字录入,与现有电子文献共同形成文本型的图书库。

词条库部分,设置历史、地理、风俗、人物,文学等大类,其下再逐级设置二级和三级等类目,进行深度的细分。例如地理类的,则按传统方式,设置城邑、山陵、湖沼、河流、楼台等二级类目,以及各自的三级乃至四级类目。

词条的选取方法,首先是利用《四库全书》电子版等古籍数据库,对相关词条进行搜索、比对,选择出最原始,或内容最丰富的词条。最后根据预先制定的标引规则进行标引。在此搜检过程中,还可能不断发现和充实新词条,使特色数据库更加完善。限于篇幅,这里就不详述了。

需要注意的是,现行古籍数据库的古籍,绝大多数未断句和加标点。而我们据此制作的特色数据库,考虑到普及性和可读性等因素,需要断句和加上句号、逗号等基本标点。这是一项严肃且较为艰难的工作。应直接套用中华书局及各省正规古籍出版单位出版的标点本同一图书,进行断句和标点。确实没有合格的同一纸质文献,再考虑聘请专家,进行标点工作。

近几年来,我国古籍电子资源建设的步伐不断加速,2011年,文化部发布了《关于进一步加强古籍保护工作的通知》,要求加快古籍的数字化建设。2012年5月,文化部主办了“全国古籍数字化建设与服务工作研讨会”,对全国古籍数字化合作服务机制、国内外古籍数字化保护利用、古籍数字化成果共享方式和古籍数字化标准规范等问题进行了研究,并提出了要求。国家古籍保护中心和各省级古籍保护中心进行了规模宏大的中华古籍数字资源库的建设。

长期以来,图书馆大量投资,致力于古籍数据库的购置和自建,供用户科研学习之用,而对图书馆自身如何利用这类数据库,制作二三次文献或特色数据库,乃至进行其它电子资源的开发,似并未加以关注。特撰写此文,抛砖引玉,希望引起同仁们的广泛重视,从而使大量涌现的古籍数据库不仅是用户学术研究的工具,也是图书馆工作者拓展服务的利器。

猜你喜欢
四库全书电子版书目
敬告著作权人
推荐书目《初春之城》
敬告著作权人
经史子集——《四库全书》
《围城》70周年首推电子版
藏书楼
《全国新书目》2009年1月荐书榜
赠书书目
《中学生物学》杂志电子版征订启事
中央文献出版社等提供869种可供书目