基于语料库的《黄帝内经》研究方法探索

2011-02-12 00:30闻永毅樊新荣
中国中医基础医学杂志 2011年5期
关键词:赋码分词黄帝内经

闻永毅,樊新荣

(1.陕西中医学院,陕西 咸 阳 712046;2.国家中医药管理局机关服务局,北京 100700)

《黄帝内经》研究,自成书以来,唐·王冰的补全《素问》81篇、隋·杨上善的《黄帝内经太素》19种分类、北宋·林亿等校勘的《素问新校正》、明·张介宾注释《黄帝内经》的成果《类经》等,据统计多达400余种。今天借助计算机技术,《黄帝内经》研究更加全面、深入、细致。张登本[1]等的《内经词典》统计出《内经》载有汉字2286个、分离出词语5580个,列出了每个字词的出现频率(即词频)。然而这些研究还未形成完整的存储、检索、分析等研究方法以及系统性的概念分析理论,致使各种统计数据以及检索结果难以发挥其应有的作用,研究方法也难以推广应用。本文从整体的角度,运用语料库语言学的研究方法,以现代语义学的理论为指导,深入探讨了基于语料库的《黄帝内经》的研究方法和研究步骤,以期填补此方面的空白。

1 《黄帝内经》语料库的建立

语料库的建立总是从各种方式的文件输入为开端。《内经》文件的输入必须解决好两个基本问题,即版本选择和计算机对汉字的支持问题。

不同版本的文本可能在繁体、简体汉字处理方面存在较大出入,通假字处理、标点符号的选用、段落的划分、注解的编排方式等差别则更大。本项研究在决定使用张登本校注的简体汉字版本《黄帝内经》之后,文件输入时我们做了一些必要的处理。

1.1 使用特定过滤符标记非相关文字

如〈序言〉等。

1.2 系统性替代计算机不能识别的汉字

如“月左吕右”使用yuelv代替,“病头珍下”使用bingSzhen代替;替代法必须具有惟一性、易辨认性以及整体性(计算机识别为1个单位)。

1.3 删除编辑添加的字符

如“原文”、注解及编号、空行、多余空格和语料库系统难以处理的图表等。

1.4 简单标记文本信息

主要有文件的标题和段落。

经过以上步骤的处理并把文件保存为纯文本格式,我们就拥有了一个专著性质的《黄帝内经》生语料库(Raw corpus)。生语料库能够提供的检索项目和统计量跟检索工具的处理能力密切相关,其中的字词检索(Concordance)、字词表生成(Wordlist)为基本的检索项目;语符数(Token)、类符数(Type)、句子总数(Sentence)、分隔符(Punctuation)、字词频率(Word Frequency)等是基本统计量,一般语料库检索工具都具备这些项目的检索能力。本项研究使用的Wordsmith 4.0还能够提供形符比(TTR)、标准形符比(STTR)等其他多项统计量。生语料库的文本样例如下:〈P〉丈夫八岁,肾气实,发长齿更。二八,肾气盛,天癸至,精气溢泻,阴阳和,故能有子……〈/P〉。

2 库文件的分词处理

生语料库由于没有经过加工,能够提供的检索项目还是有限的,如上文建立的生语料库只能提供单个汉字的相关信息,不能生成多个汉字组成的词语表。为达到检索《内经》中多字词语的目标,我们必须对库文件进行分词处理。下面是未经分词处理语句和分词处理后的库文本的实例对比。

〈P〉丈夫八岁,肾气实,发长齿更。二八,肾气盛,天癸至,精气溢泻,阴阳和,故能有子。…〈/P〉(共30个汉字)。〈P〉丈夫八岁,肾气实,发长齿更。二八,肾气盛,天癸至,精气溢泻,阴阳和,故能有子……〈/P〉(共26个词语)。

《黄帝内经》文件的数量不大,可以人工完成分词任务,但是当面对大批量文件时,人工分词的办法显然无法胜任。从长远计,本项研究中我们采用了汉语自动分词技术和人工辅助校正相结合的方案。

3 语料库的标注

理论上讲,分词处理本身就是对语料的一种标注,而且目前广为使用的现代汉语分词系统实际上也是分词与词性标注同步完成的。不过,《黄帝内经》的中医学研究重点不是语法、语言结构,而是语义的理解、概念的辨析与分类,实施语义标注才是基于语料库的《黄帝内经》研究的核心问题。给分词处理之后的语料中的每个词语都贴上语义标签需要2种技术的支撑,即语义分类系统和语义赋码系统。

3.1 语义分类系统

汉语词汇语义分类的研究已经具有了一定的基础。梅家驹的《同义词林》、董大年的《现代汉语分类大词典》以及詹卫东[2]等使用的语义分类方法和研究思路,都为《黄帝内经》词汇语义分类体系的研制提供了非常有价值的参考。具体分类过程如下。

3.1.1 使用语料库检索工具Wordsmith4.0把经过分词处理的《黄帝内经》文件中的词汇提取出来组成内经词汇表。

3.1.2 采用自下而上的总体语义分析路线,不预先设计语义总体框架,而是凭借直觉和词汇的语义组合关系把词汇表中的词语分为词汇群。如与“人”相关的词汇“丈夫、男子、上工、黄帝”等等临时归为一个语义类,判断时借助“——想/要/爱/恨/死了”组合体帮助语义分析过程。“精、气、血、肉、津液”等归为“人体基本物质类”。

3.1.3 直觉法分类工作完成后,根据上下义关系、同义关系等语义学原则,调整分类结果、为每个词汇群命名,其名称就是系统中的一个节点。节点在本项研究中是一个非常重要的概念,是1组词汇语义特征的代表或抽象概括,其名称或者用1组词汇中最具原型(Prototype)特点的词命名,或者以1个适当的上位词命名,如果没有适当的词就使用1个适当词组命名。这个名称就是即将用于标注库文件的“语义标注符号”。节点与节点之间的语义关系分为:一是构成某种上下义关系,即上一节点与下一节点在语义上具有控制与被控制的关系,如分类关系、层级关系、比例关系、部分与整体关系等;二是构成同义关系,如近义或同义、反义,功能、属性等同或相近等。如脏腑、经络、四肢、骨骼等就被处理为同义关系,其节点名称为“器官”;然而“脏腑”又是一个节点名,带有心、肝、脾、肺、肾、三焦等等为其成员,此处“器官”与“脏腑”就形成上下义关系;三是系统外关系,主要涉及虚词、标点符号等,它们虽然在语言学研究中非常重要,但不是中医古典文献研究所关注的对象,这些虚词在标注时按1个一级类对待,留待日后必要时再细分类别。

3.1.4 语义分类系统的层次 经过节点命名分类的“内经词汇表”就形成了一个语义关系网络:纵向为数量有限的具有控制与被控制关系的层次结构,呈金字塔状;横向则为具有《内经》语义特征的同义关系词汇群。每一个纵向聚合顶端的节点在系统中被规定为一级标注符号,向下依次为二级、三级等,下级节点继承上级节点的语义特征,所有一级标注符的语义概括抽象就是《内经》所表达的内容。

3.2 语义赋码系统

语义分类系统给《黄帝内经》中的每一个词语都指派了一个恰当的位置,贴上了语义标签。接下来就可以照此给分词处理后的库文件赋码了。语义类型的赋码任务与人工分词的任务一样,大规模的赋码工作绝非人工所能完成,即使能够完成也难免有各种疏漏。因此,我们专门开发了一款内经语义赋码工具,赋码之后的文件样例如下:【标注文件I】〈P〉丈夫〈人〉八〈数〉岁〈量〉,〈dian〉肾气〈构件〉实〈状态〉,〈dian〉发〈构件〉长〈动作〉齿〈构件〉更〈动作〉。〈st〉二〈数〉八〈数〉,〈dian〉肾气〈构件〉盛〈状态〉,〈dian〉天癸〈构件〉至〈动作〉,〈dian〉精〈构件〉气〈构件〉溢〈动作〉泻〈动作〉,〈dian〉阴〈法则〉阳〈法则〉和〈状态〉,〈dian〉故〈yu〉能〈动作〉有〈动作〉子〈人〉。〈st〉

计算机自动语义赋码工作结束之后,人工检查修正的工作在所难免。人工校对既能够修正自动赋码的错误标记,更重要的是能够为改进系统提供更为准确的训练材料。

3.3 层级语义标注法

3.3.1 主观意志对语料库使用价值的影响语料库的标注在本质上是开发人员思维方式和价值观念的具体体现,因为语料标注就意味着对语言材料的某种分类,而分类就有主观意志的参与。词性标注体现了开发人员重语言形式研究的语言学观;语法错误标注反映了对语法错误是什么的理解与判断。当然,语义标注更是涉及对同义、近义、上下义等主观认识,且语义的类型分得越细,开发人员主观意志对分类结果的影响就越大。

语料库开发人员主观意志对标注体系的影响会损害语料库的使用价值和适用范围,主观意志参与得越多,语料库能够适用的范围就会越窄。例如,“毛、发、四肢、骨骼”等词语被划归“肢体”语义类可能就得不到广泛的认可。更为重要的是,即使能够得到认可,当某项研究临时需要把“发、口、鼻、脚、手”划分到其他语义类中而已经赋码的符号却无法更改时,语料库开发人员的主观意志对语料库使用价值的影响就会愈加充分地显现出来。

主观意志对标注活动的影响是不可避免的,但是如何把影响降低到最低限度却不仅仅是尽量减少人为规定成分所能解决的,我们还需要在标注技术方面有所创新,用技术手段尽量降低直至抵消主观因素的影响。

3.3.2 语义标注符的数量对标注的影响 理论上讲,语义分类越精细,标注语料库能够提供的信息量就越大,不过分类的详细程度与需要的标注符号的数量成正比关系。我们暂且不讨论分类的详细程度问题,从语义分类业已取得的成果来看,总体上语义分类至少需要5个层次,否则很难达到分清语义类型的目的,这就意味着上千的标注符号。在一个文件中同时标记上如此众多的标注符号,会对标注符号的校对、语料库的维护、文件的检索、检索结果的使用等等带来巨大的压力。而如果采用数据库方式处理具体词语以上各节点,又会造成分类系统固化死板,语料库使用人员难以自由组合检索项目等问题。因此,语义标注符号的数量问题要求语义赋码时不能采用常规的一次性赋码的方式。

3.3.3 层级标注语料库 为了解决以上问题以及其他一些因素对《黄帝内经》语义分类语料库的影响,我们设计了层级标注库文件的方法,具体做法如下:把语义分类体系按照语义节点拆分,形成一级、二级等相对独立的标注符号集合,每个集合中的其他节点全部撤销,其成员保留。如一级语义类由以下节点组成:【标符Ⅰ】人、构件、疾病、动物、植物、药物、自然物、人造物、现象、时间、空间、颜色、法则、观念、情欲、动作、状态、数、量、语法、标点。其中“人”这个一级标注符号下聚集了所有表示人的词语,标注后的文件中也只有〈人〉这个标注符号。语料库中所有文件在一级赋码之后被存储为“一级标注”文件夹(一级标注后的文本样例参见4.2)。在二级标注符号集合中,“人”与“构件”控制的节点有:【标符Ⅱ·人】泛称、定称、年龄人、角色人、职业人。【标符Ⅱ·构件】肢体、感官、脏器、经络、精微、神貌。

此时,库文件中表示“人”的词语不再有〈人〉标注符,而是分别被标记上了二级中的名称。二级赋码工作完成后的库文件被存储到“二级标注”文件夹,余者依次而行。二级标注后的文本样例如下所示:【标注文件Ⅱ】〈P〉丈夫〈泛称〉八〈数〉岁〈量〉,〈dian〉肾气〈精微〉实〈功能态〉,〈dian〉发〈肢体〉长〈动作〉齿〈肢体〉更〈动作〉。〈st〉二〈数〉八〈数〉,〈dian〉肾气〈精微〉盛〈功能态〉,〈dian〉天癸〈精微〉至〈动作〉,〈dian〉精〈精微〉气〈精微〉溢〈动作〉泻〈动作〉,〈dian〉阴〈阴阳〉阳〈阴阳〉和〈功能态〉,〈dian〉故〈yu〉能〈动作〉有〈动作〉子〈泛称〉。〈st〉

4 语料库的检索

语义标注后的语料库构成了一个带着大量语义分类信息的文本文件库,如何把这些语义信息灵活方便地按照研究人员的需要提取出来并给予科学的数据分析,则需要语料库检索工具的支持。检索工具现在很容易找到,任何能够支持汉字的检索工具都能用于检索目的,甚至可以使用Word自带的查找工具进行检索,只不过语料库专用检索工具如Wordsmith能够提供更为有效、更加专业的检索和数据统计。

语义标注语料库提供的检索项目主要以标注符号为基础,可以说是对标注符号的检索。对《黄帝内经》语义标注语料库而言,每一个标注符号的检索就是一个语义类型的所有文本资料及相关数据的汇集;标注符号的组合检索理论上没有限制,只要语义组合的模式在原文件中存在,就可以把几个不同标注符号组合起来、甚至可以使用正则表达式(regular expression)进行组合。

《黄帝内经》语义标注语料库的语料虽然按照标注符号的级别被存储到几个文件夹中,而且几个标注后的文件的初始文件相同——同为分词处理后的文件,但是这不会影响到对库文件的检索以及所提供数据的有效性,因为标注符号的惟一性能够充分保证检索到的文件只涉及到1个库文件,不会出现1个检索项目同时使用多个库文件的情况。

如在上面列举的样例中检索〈构件〉,就会得到“肾气、发、齿、天癸、精、气”,检索任务只在一级标注文件中执行。如果语料库使用人员需要更细的语义类型如构成人体的基本物质,只要了解这种语义被标注为〈精微〉,搜索它就可以得到“肾气、天癸、精、气”。同理,构成人体的、外观可见的组成部分的词语被标记为〈肢体〉,搜索它就可得到“发、齿、手、脚、唇、舌”等这些存放在二级标注文件中的语义类型。各级库文件虽然分级别存储,检索平台却只有1个,因此检索会非常方便。

5 结语

《内经》研究离不开概念的分类,对概念之间相互关系的研究更需要大规模的资料搜集和整理工作。单个概念的研究如“气”或“血”等,或者某一个概念群的研究诸如“精微物质”等已经不能适应更深层次研究的需要。多种概念之间相互关系的探讨需要中医领域与语义学、语料库语言学、计算机科学等学科的通力协作,特别是语料库语言学,其严格的标注、检索、数据分析等研究方法必能在中医文献研究领域发挥重要作用。

[1]武长春,张登本.内经词典[M].北京.人民卫生出版社.1990.206-209.

[2]詹卫东,刘 群.词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题[J].语言研究.2003,5.

猜你喜欢
赋码分词黄帝内经
Instructions for Authors
Screening influencing factors of blood stasis constitution in traditional Chinese medicine
分词在英语教学中的妙用
Network Biological Modeling:A Novel Approach to Interpret the Traditional Chinese Medicine Theory of Exterior-Interior Correlation Between the Lung and Large Intestine
Mathematical Analysis of the Meridian System in Traditional Chinese Medicine
结巴分词在词云中的应用
结巴分词在词云中的应用
英语视频新闻语料库的构建
迎接食品安全新法麒锐与您共谋发展
加强科学化管理 全面提高代码工作质量