中文古籍数字化的开发层次和发展趋势❋

2014-12-25 02:15马创新曲维光陈小荷
图书馆 2014年2期
关键词:古籍语料库本体

马创新 曲维光 陈小荷

(1.南京师范大学文学院 江苏南京 210097;2.南京师范大学计算机科学与技术学院 江苏南京 210097)

1 中文古籍数字化的开发层次

中文古籍数字化是指利用现代信息技术对中文古籍进行加工处理,使其转化为电子数据形式保存和传播,它是中文古籍再生性保护的重要手段,是古籍整理工作的一部分。古籍数字化的研究和开发层次涉及传统古籍的加工处理深度,毛建军认为古籍数字化开发分为五个层次:编制古籍电子索引、建立古籍书目数据库、古籍原文图像复制、汇编古籍电子丛书、古籍标点今译与普及等。〔1〕王立清认为,按照古籍数字化处理深度的不同,其开发层次可以包括古籍书目的数字化、古籍载体的数字化、古籍图文的数字化、古籍知识及关联的数字化。〔2〕徐清等人认为古籍数字资源的深度开发至少包括三个方面内容:提供基于超文本的立体阅读环境、建立强大的智能化检索系统、提供科学、准确的统计数据和信息分析。〔3〕

表1 中文古籍数字化的开发层次及其主要内容

我们根据数字化加工的深度对古籍数字化进行层次划分,在表1中列出了古籍数字化的层次及其主要内容,其中第一层解决了古籍的录入和数字化存储问题;第二层基本上解决了古籍的网络传播和信息检索问题;第三层是古籍书目基本信息的标注问题、古籍内容的浅层标注与系联问题;第四层是古籍内容的深层语义标注和知识检索方法。第一、二层的内容属于“表层数字化”,第三、四层的内容属于“深层数字化”。当然这种层次划分是相对的,实际上并没有区分层次深浅的绝对标准。

1.1 表层数字化

在古籍数字化的初期,主要任务是解决如何把几千年来一直保存在竹简、木牍、纸张等实物介质上的古籍内容以数字形式存入计算机中的问题。古籍善本的图像扫描录入是对存储在实物介质上的古籍分页做光学扫描,每页内容作为一个图片存储,该方法能在短时间内将大量古籍转储在计算机中,但是以图片形式存储不便于古籍内容的检索。OCR识别通过对图片进行分割、对图像轮廓进行识别匹配,能够辨析出图像中的文字,把图片中的古籍内容转化成字符序列。经过OCR识别并且按字符建立索引之后,对古籍内容的检索将会变得高效便捷,但是当今的OCR识别技术还有待提高,各种OCR识别技术的准确率和召回率都无法达到百分之百,需要在机器识别之后再做人工校对。

汉字从产生到今天已经有几千年,在这漫长的历史时期中,产生了大量汉字字形,《康熙大字典》收录的汉字就有47035个,实际使用的汉字还要更多一些。然而,当前计算机中常用的字符集如GB2312、Big5、GBK等都没有收录这么多汉字。并且由于使用汉字记录的古籍文献浩如烟海,在这些文献中存着大量停用字和异体字,有些汉字字形使用的频率极低,所以这个问题不能仅靠扩大字符集的规模来解决,必须研究字符集之外文字的存储方法。

在研究古籍文献录入与存储方法的同时,还要研究如何便捷地阅读和检索文献内容,在当今互联网时代,古籍文献阅读检索的单机版形式显然无法满足研究者的需要,必须要实现古籍全文的互联网发布和基于网络的全文检索。

1.2 深层数字化

古籍的表层数字化主要解决古籍的数字化存储、网络传播和全文检索的问题,而深层数字化深入到“内容和意义”层面研究古籍文献,包括研究古籍著录和描述的元数据标准、古籍内部知识元的标注问题、知识元之间的联系方法、以及古籍之间的联系方法。

元语言,“就是描述语言的语言,它通过定义一套描述文档结构与含义的语法标记,使人或计算机能够利用这些标记快速准确地找到并理解文档中包含的特定语义信息”〔4〕。通过制定通用的古籍著录和描述的元数据标准,并且使用该标准对古籍进行描述,能够使计算机快速准确地找到目标古籍。由于元数据标准(如DC元数据、MARC元数据等)能够对古籍的基本内容特征做具体的描述,所以描述古籍基本内容特征的“元数据信息库”要比单纯的“书目索引库”应用价值大得多。表层数字化研究中的全文检索仅能够通过简单的字符串匹配技术查找到指定的字符或者字符串,无法满足研究者多层面的检索需求,通过制订系统的元数据标记,对古籍内容进行标注,如标注出古籍中的命名实体或者某类特定信息,能够满足研究者较高层次的检索需求。经过元数据标注后,接下来可以继续研究如何在古籍之间、章节之间、内部知识元之间自动地设置锚点和链接,构造超文本的立体阅读环境。

“本体是关于领域知识的概念化、形式化的明确规范。”〔5〕本体通过概念描述揭示领域知识,古籍领域本体能够展示古籍中丰富的语义关系,并且可以保证语义的一致性。各个学科领域的专家能够构建适用于特定领域的规模较小的本体,如:古籍著录与描述本体、训诂学本体、音韵学本体、文字学本体等等。古籍数字化研究专家能够使用本体集成技术将所需要的多个领域本体集成在一起,构成一个规模较大的应用于古籍数字化领域的专业本体。

古籍知识网络建设就是利用计算机技术、信息技术等新兴技术手段,对蕴含在古籍中的知识进行多元的组合,在多部古籍的内部知识元之间建立起联系,把多个一维的线性序列转化为一个多维的知识网络,使多部古籍成为一个结构化的知识集合。在古籍领域本体和知识网络的基础上设计的检索系统能够实现智能的知识检索。

1.3 表层数字化与深层数字化之间的主要区别

中文古籍的表层数字化与深层数字化之间有以下区别:①古籍的表层数字化研究起步较早,至今已取得丰硕成果,一些疑难问题基本上得到解决,古籍的深层数字化研究起步较晚,也取得了一定的成果,很多问题现在正处于攻坚阶段。②古籍数字化是一项多学科交叉的研究课题,主要牵涉到文献学和计算机科学。古籍的表层数字化更多的依赖计算机技术,像OCR识别、大字符集的研制等都是通过技术创新来推动古籍数字化的发展。而古籍的深层数字化则是建立在对古籍内容本身有着较为深入理解的基础之上,对于研究者在文献学、语言学、版本学等方面的知识素养有更高的要求,“应该有朴学的根底、科学的精神、数字化的研究手段。”〔6〕③在古籍数字化的主要研究内容中,有些内容是与现代中文信息处理所共有的,有些内容是古籍信息处理时所特有的。古籍表层数字化研究中的大部分内容是与现代中文信息处理所共有的,而深层数字化研究中的大部分内容是利用计算机处理古籍文献时所特有的。

2 中文古籍数字化的发展趋势

古籍数字化研究在我国已有三十多年的历史,发展到今天,产生了大量成果,并且表现出由表层数字化向深层数字化发展的趋势,〔7〕具体表现在:

2.1 统一标准

为了减少重复开发、实现资源共享,一些资源丰富的研究单位制订了古籍文献存储、标识和传输的统一标准,并且逐渐得到认可和推广。例如:北京大学古籍数字图书馆制订了古籍元数据著录规范和标准框架,针对在我国广泛应用的数字对象分别建立了相应的数字规范,编制了各个专门元数据的应用指南、元数据定义信息、应用协议和转换工具的等级机制,目的就是要解决对物理实体古籍和数字化古籍的著录和描述问题。〔8〕

2.2 重视网络技术的研究与应用

为了使古籍文献的检索和传输更加方便快捷,古籍数字化研究者重视当代网络技术的研究与应用。例如:万维网联盟定义的可扩展标记语言近年来被广泛应用于古籍数字化工作中。山川等人应用XML和XML Schema语言来描述古籍元数据,利用XML提出了一套完整的著录古籍元数据的方案。〔9〕吴琴霞等人采用XML+XML Schema对甲骨文语料库进行结构化标注,使不同类型的数据表示成统一的格式,方便了数据的交换和共享。他们在甲骨文领域专家的帮助下对已有的甲骨文语料库进行标注,标注时抽取出对甲骨文考释有帮助的信息,把这些信息作为XML文档的词汇集,词汇之间的关系通过建立XML Schema来确定,然后根据定义好的 XML Schema使用 XML对甲骨文语料库进行标注。〔10〕

2.3 引入统计模型和计算机语言学方法

古籍数字化研究中引入了统计模型和计算语言学方法,对古籍内容进行深入分析,研究古籍文献的自动分词、自动断句和版本校勘等方法。例如:石民等人研究使用CRF模型对《左传》进行自动分词、词性标注、分词及标注一体化的方法。〔11〕于丽丽等人使用CRF模型,利用复合特征模板和增加语言学特征的模板,在古汉语语料上进行词义消歧实验。〔12〕段磊等人以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行评测,为古汉语双字词自动获取提供了相应的解决方案。〔13〕

2.4 重视相关古籍之间的关系

研究者重视相关古籍之间的关联,在研究某一古籍时,同时分析多部相关文献,通过相互佐证,得到验证某一观点的丰富材料。例如:在古代有很多对经典古籍做注解的注疏文献,这些注疏文献中蕴含着古代的语言、文化和历史等方面的丰富知识。在研究某一经典古籍时,通过分析它的注疏文献可以得到大量有用信息。马创新等人把《论语》的注疏文献中蕴含的信息作为研究《论语》原典的依据和资源,研究了构建《论语》与其注疏文献对齐语料库的基本方法。〔14〕

2.5 探索基于本体语义的建库方案

(5)研究者开始探索基于本体语义的古籍知识库建设方案。例如:罗晨光等人在古籍描述元数据著录规则的基础上,结合本体理论,将古籍元数据映射为一个基于本体的知识库,并且使用OWL语言实现了这个知识库的结构框架。〔15〕谷建军分析了适合中医古籍数据库的本体表示语言和编辑工具,建立了一个以“病症”概念为核心的中医古籍文献领域本体模型。〔16〕

1.毛建军.古籍数字化理论与实践.北京:航空工业出版社,2009:8

2.王立清.中文古籍数字化研究.北京:国家图书馆出版社,2011:25

3.徐清,石向实,王唯.古籍数字化资源的深度开发.图书情报工作,2007(3):95 -97,79

4.胡佳佳.《说文解字》语料库的XML标注设计.社会科学论坛,2011(7):214-223

5.戴维民.语义网信息组织技术与方法.上海:学林出版社,2008:13

6.尉迟治平.汉语信息处理和计算机辅助汉语史研究.语言研究,2004(3):7-10

7.马创新,陈小荷.基于XML的《论语》与其注疏文献对齐语料库的知识表示.图书情报知识,2013(1):107-113

8.姚伯岳等.古籍元数据标准的设计及其系统实现.大学图书馆学报,2003(1):17-21

9.山川,罗晨光.XML著录古籍元数据初探.图书馆工作与研究,2007(6):53-56

10.吴琴霞,刘永革.基于XML/Schema甲骨文语料库语料标注的研究.科学技术与工程,2009(17):5185-5188

11.石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究.中文信息学报,2010(2):39-45

12.于丽丽等.基于条件随机场的古汉语词义消歧研究.微电子学与计算机,2009(10):45-48

13.段磊,韩芳,宋继华.古汉语双字词自动获取方法的比较与分析.中文信息学报,2012(4):34-42

14.马创新等.《论语》与其注疏文献对齐语料库的构建.现代教育技术,2012(7):109-113

15.罗晨光,山川,王珊.基于本体的古籍知识库建设初探.现代图书情报技术,2007(4):8-11

16.谷建军.基于叙词表的中医古籍文献领域本体建模方法研究.中国中医科学院博士论文,2006

猜你喜欢
古籍语料库本体
中医古籍“疒”部俗字考辨举隅
眼睛是“本体”
关于版本学的问答——《古籍善本》修订重版说明
《语料库翻译文体学》评介
关于古籍保护人才培养的若干思考
我是古籍修复师
基于本体的机械产品工艺知识表示
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
专题