基于词价理论的争议性异形词的主形择定研究

2019-10-30 08:13李家琦王东海
辞书研究 2019年5期

李家琦 王东海

摘 要 争议性异形词指语言文字规范与语文辞书所择定的主形不同的异形词,可借助异形价体系进行主形择定。异形价体系包括基本核心价、扩展辅助价和外围补充价。基本核心价包括通用价、理据价和系统价,通用价又包括公众使用价和媒体公信价,理据价又包括字面理据价和历史沿用价;扩展辅助价包括易识价、易读价和易写价;外围补充价是开放价群,在根据前两个价群无法做出选择时增加补充条件。文章据此对九组争议性异形词的主形进行了择定。

关键词 争议性异形词 词价理论 主形择定

异形词的整理及异形词主形的择定需要遵循一定的原则。目前现有的研究大多是通过对异形词的定性研究来确定推荐词形,这一整理方式带有一定的主观性,标准不统一。要保证异形词整理工作的统一性、客观性,必须有一个更为多元、统一的标准。

因此,本文基于“词价”理论,构建了“异形价”体系,以用来确定争议性异形词的主形,为争议性异形词主形的择定提供新的思路,也为异形词整理表的修订,词典主词条的确立提供一定的参考。

一、 研究背景

(一)研究缘起

词汇是语言三大要素中最活跃、最能够反映社会变化的部分。异形词作为一类意义相同、读音相同但写法不同的词,给人们的书面交际产生了一定的影响,也给编辑出版、课堂教学、信息处理等领域带来了一定的麻烦。为推动词汇的规范化和标准化进程,教育部和国家语言文字工作委员会于2002年3月31日发布试行了《第一批异形词整理表》(以下简称《一表》)。此后,相关单位又沿用《一表》的整理原则对一批异形词进行了整理,订成《264组异形词整理表》(以下简称《264组》),作为行业规范在编辑、出版、新闻媒体等领域试行。

如今,距两异形词整理表的发行或试行已有十余年,而在这期间异形词的使用情况发生了较大的变化,已有的规范已不能满足实际工作的需要,因而我们需要对其进行修订,以更好地为语言的规范化服务。

若要对两整理表进行修订,我们不可避免地要参照其他相关的研究成果,其中《现代汉语词典》作为规范性的语文辞书,对异形词的整理具有较大的参考价值,“语文辞书是语言文字规范体系的重要成员,应当模范执行规范文件,同时又要充分发挥自身功能,检视规范文件之不足”(李宇明2004)。我们在对比《现代汉语词典》第7版(以下简称《现汉7》)与《一表》和《264组》对异形词的整理情况时发现,《现汉7》与两整理表在对一些异形词的处理上存在分歧,两者在对同一组异形词进行整理时,选取的推荐词形略有不同。

我们将这些《现汉7》与整理表推荐的主词形不同的异形词,或广而言之,语言文字规范与作为语言文字准规范的语文辞书所择定的主形不同的异形词,定义为“争议性异形词”。这些模棱两可或两者皆可的标准容易造成语言文字在使用上的混乱,因此需要为其确定推荐主形。

现有的异形词整理大多是根据一定的整理原则对异形词进行定性研究,从而择定主形。这种方式带有一定的主观性,且标准不够统一。因此,本文拟基于“词价”理论对这些争议性异形词进行定量研究,并依此进行主形择定的操作,确定争议性异形词的主形。同时,也力图为异形词的整理提供一个客观统一、具有可操作性的整理方法,以减少或避免主观性对异形词整理的影响。

(二)词价理论与方法及相关研究

“词价”理论在1971年由加拿大学者琼盖伊·萨瓦尔德(Jean-Guy Savard)正式提出(苏向丽 2010),他将词的定义能力、包含能力、组合能力和扩展能力作为“词汇价”计量的四个标准,并将其应用于法语词汇的研究领域内。

国内有学者将其引入,借助“词价”理论对汉语中的问题进行研究。苏向丽(2010)在其博士论文《现代汉语基本词汇的词价研究及应用》中将Savard的四个计量标准演绎为十个维度,对现代汉语中的基本词汇进行研究。在之后的研究中,苏向丽和李如龙(2011)将词价研究与汉语词汇知识的深入习得研究相结合,苏向丽(2012)还借用了词价理论为汉语国际教育基础词汇表的优化提供了理论支撑。孙彩惠和张志毅(2011)在《新词个体和世界整体》一文中借用了苏向丽的五个词价,并另构建了三个词价,对新词“靓丽”词群进行了词价的计量。王东海(2014)在其《法律术语“术语价”研究》一文中构建了“术语价”,为术语工作提供客观的量化标准。王磊(2017)的硕士论文《异形法律术语规范化研究》在王东海“术语价”的研究基础上提出了四大术语价群和十六个术语价,用不同的术语价来量化异形法律术语的价值,从而对异形法律术语进行整理和规范工作。渠斐斐(2014)在其硕士论文《基于文献实态的辞书学术语标准化研究》中用四个术语价对辞书学中的变体术语进行了标准化研究。王磊和王东海(2016)在《中国内地和香港法律术语的译差及其规范化》一文中提出了五个术语价,对中国内地和香港法律术语的译差进行了规范化整理和操作。

通过合并去重,以上与“词价”理论相关的研究中共包含认知价、普通认知价、专家认知价、结构价、语义价、使用价、频率价、兼通价、释义价、丰度价、自由价、聚合价、组合价、时域价、地域价、语域价、修辞价、理据价、反映价、系统价、异形价、语形价、易识价、分布价、语体价、时代价、凸显价、元语言价、语义透明价、法律色彩价、模因结构价等31种不同类型的词价,我们就将从以上词价类型中选取与异形词整理相关的价来构建“异形价”体系,用来对争议性异形词进行词价的计量及主形的择定。

二、 研究对象的确定

我们对比了《现汉7》与《一表》和《264组》两整理表对同一组异形词的处理方式,将两整理表中推荐立为主形的詞形与《现汉7》中推荐立为主词目的词形进行了整理和比较。对比的结果可分为以下六种情况:

1. 《一表》与《现汉7》选择的推荐词形不同,即对同一组异形词,《一表》与《现汉7》列出的主词形存在差异。共2组,差异情况如表1所示。

2. 《一表》与《现汉7》对异形的整理不同。即对同一组异形词,《一表》与《现汉7》确立的主形相同,但其所规范的异形不同,具体可分为两种情况。

(1)《一表》当作异形词整理但《现汉7》中无对应异形,共17个:

账本 纽扣 百废俱兴 辈分 本分 沉思 戴孝 凋敝 凋零 凋落 凋谢 分量 分内分外 分子 过分 直截了当

(2)《现汉7》与《一表》整理的异形不同,具体情况如表2所示。

3. 《一表》与《现汉7》设立的词条不同:“红彤彤”和“红通通”这组词在《现汉7》中均立词目,而《一表》则选取“红彤彤”为推荐词形,将“红通通”定为异形。

4. 《264组》与《现汉7》选择的推荐词形不同,即对同一组异形词,《264组》与《现汉7》所出示的主词形存在差异,共9组,差异情况如表3所示。

5. 《264组》与《现汉7》对异形的整理不同,即对同一组异形词,《264组》和《现汉7》确立的主形相同,但其规范的异形不同,具体可分为两种情况。

(1)《264组》当作异形词整理但《现汉7》中无对应异形的,共112个:

嗒嗒 愤恨 根底 脚趾 精华 渺小 黏稠 煽风点火 什么 视域 玩耍 走漏 安分守己 棒槌 悲愤 部分 策划 长年累月 词汇 褡裢 大放厥词 丢三落四 哆嗦 发愣 反复 愤怒 福分 赋予 干吗 宫廷 勾勒 孤零零 痼疾 哈腰 黑咕隆咚 哄堂大笑 哄笑 洪亮 花里胡哨 花哨 浑身 混沌 辑佚 开销 乐呵呵 乐滋滋 伶牙俐齿 乱哄哄 毛骨悚然 贸然 藐视 冥冥 模棱两可 秣马厉兵 闹哄哄 黏糊 黏土 黏液 判词 平白匍匐 起锚 起讫 枪支 情分 雀斑 热辣辣 如雷贯耳 散佚 霎时 山巅 闪烁其词 省份 誓词 摔跤 水分 思辨 素来 题词 托付 顽皮 委顿 萎谢 文采 无精打采 无上喜滋滋 陷阱 项链 兴高采烈 雄赳赳 熏陶 哑巴 言不由衷 一塌糊涂 引申 硬邦邦 鱼汛 陨落 在座 张皇 照相 真相 支吾 装聋作哑 装束 作弊 作美 作弄 坐落 砂糖 暗渡陈仓

(2)《现汉7》与《264组》整理的异形不同的,共5组,具体差异情况如表4所示。

6. 《264组》与《现汉7》设立的词条不同:

(1)《现汉7》将《264组》整理的3组异形词的主异形均立为词条,分别为:报道(报导)、启程(起程)和神父(神甫)。括号内为《264组》整理的异形,《现汉7》将括号内外的主异形均立为词条。

(2)《264组》整理的异形词中,有8组《现汉7》未收录:当当(铛铛)、峨眉山(峨嵋山)、煞尾(杀尾)、仕女画(士女画)、黏性(粘性)、砂壶(沙壶)、宿儒(夙儒)、装作(装做)。括号内为《264组》整理的异形,《现汉7》对括号内外的主异形均未进行收录。

《现汉7》与两个异形词整理表在异形词整理上的差异主要有以上六种情况。因本文拟通过对争议性异形词的定量分析讨论推荐词形,即异形词主形的确定依据,故仅对《现汉7》与两整理表选择的主形不同的词进行研究,即第一种和第四种差异情况中的11个词,又因第一种情况中的“逗趣儿” 和“逗趣”,“月牙”和“月牙儿”,词根相同,只是在构词词缀上有所差别,故在此也不做讨论。因而,我们最终确定的研究对象为:一唱百和/一倡百和,比划/比画,得意洋洋/得意扬扬,故伎/故技,拾遗补缺/拾遺补阙,漩涡/旋涡,约摸/约莫,丫环/丫鬟,暗渡陈仓/暗度陈仓等九组争议性异形词。我们将用“词价”理论对这九组争议性异形词进行定量研究,用量化的方式计算词的价值,从而根据词的综合价确定主形。

三、 “异形价”体系的构建

《一表》在对异形词整理时遵循了三个主要原则:通用性原则、理据性原则和系统性原则。《一表》将通用性原则定为异形词整理的首要原则,根据词的使用频率将目前普遍使用的词形作为推荐词形。《一表》指出,若一组异形词“目前较少使用,或词频无显著性差异,难以依据通用性原则确定取舍”,则依据理据性原则,从词的理据性角度确定推荐词形。同时,《一表》在对异形词进行整理时也会遵循系统性原则,考虑同系列异形词的一致性。

以往的主形择定研究大多像《一表》一样,遵循一些主要原则进行主形的选择,在对一组具体的异形词进行整理时再综合考虑其他方面,这就使得异形词的整理没有一个相对统一的标准,在具体实施时具有一定的主观性。因此,我们将借助“词价”理论构建一个与异形词整理相关,用来确定争议性异形词主形的“异形价”体系,将原有的整理原则细化、量化,从多方面综合计量争议性异形词的词价,并根据综合价的高低确定推荐的主形,试图为异形词的整理提供一个相对客观、统一且多元的量化标准。

我们在继承原有整理原则的基础上构建了“异形价”体系,该词价体系包括“基本核心价”“扩展辅助价”和“外围补充价”三个价群。基本核心价包括“通用价”“理据价”“系统价”等三个子价。其中,通用价又包括“公众使用价”和“媒体公信价”两个次子价,理据价又包括“字面理据价”和“历史沿用价”两个次子价。扩展辅助价则包括 “易识价”“易读价”“易写价”等三个子价。基本核心价和扩展辅助价共同构成争议性异形词的综合价(若争议性异形词两词形的综合价相同则再加入外围补充价辅助判断),综合价构成如图1所示。

因各词形在语料库中出现的次数差异较大,为标准统一及计算方便,我们将综合价的总值定为100,然后根据“异形价”体系三个价群在争议性异形词主形择定操作中的重要性分配比重。外围补充价在两词形的基本核心价与扩展辅助价之和相同时才纳入计量范围,比重较轻占10%;扩展辅助价作为基本核心价的辅助条件,赋值为基本核心价的一半,占比30%;基本核心价占比60%。经计算,基本核心价群赋值60,三个子价各赋值20,子价下细分的次子价平均分配各子价的赋值;扩展辅助价群赋值30,三个子价各赋值10;外围补充价群赋值10;综合价合计100。下面我们将对每一种词价及其赋值方式进行详细说明。

(一)基本核心价

基本核心价是据我们在对异形词进行取舍时的主要评判标准构建的,其通用价、理据价和系统价,分别对应《一表》中的三个整理原则:通用性原则、理据性原则和系统性原则。

1. 通用价

通用价体现一组异形词的各词形在当今社会中的通用程度,我们又将其具体分为公众使用价和媒体公信价两个部分,每部分的赋值为10。

(1)公众使用价

公众使用价体现广大人民对某词的使用情况,我们主要借助北京大学中国语言研究中心CCL现代汉语语料库(以下简称“CCL现汉语料库”)及国家语言文字工作委员会现代汉语语料库(以下简称“语委现汉语料库”)来对公众使用价进行考察,在两语料库中出现次数多的词,公众使用价就高,赋值为10,另一个公众使用价低的赋值为0。

例如“比划—比画”这组争议性异形词,“比划”在CCL现汉语料库中的词频为735[1],在语委现汉语料库中的词频为38,在两语料库中共出现773次;而“比画”在CCL现汉语料库中出现了138次,在语委现汉语料库中出现3次,在两语料库中共出现141,“比划”在两语料库中出现的次数多,故其公众使用价高,赋值10,“比画”赋值为0。

(2)媒体公信价

媒体公信价则由新闻媒体对词的选择决定,我们主要借助人民网的检索功能对其进行考察,在人民网中出现次数多的媒体公信价就高,赋值10,反之赋值为0。

仍然以“比划—比画”这组争议性异形词为例,在人民网中进行检索之后得到8232 篇有关“比划”的页面,而与“比画”有关的页面只有731篇,故“比划”的媒体公信价比“比画”高,赋值10,“比画”赋值为0。

2. 理据价

理据价由词形与词义的相关度及该词形的历时使用情况决定,由字面理据价和历史沿用价两部分构成。

(1)字面理据价

字面理据价体现某词形从字面上看语素义与词义的联系,若联系密切,从字面上看词义明确,则字面理据价高,联系不明朗则字面理据价低。我们将借助《汉语大字典》《说文》《汉字源流字典》等参考资料,来判定一个异形词的词形与其词义的相关性,相关性大,联系明确则字面理据价高,赋值10,反之赋值为0;若两者构词理据都比较清晰,则均可赋值10。

例如:“丫环—丫鬟”这组争议性异形词指的是“婢女”,也就是旧时有钱人家雇用的年轻女仆,使其造成异形的是“环”和“鬟”两个字。《说文》:“环,璧也。” 其本义是指边与孔等同的璧,引申泛指圆圈形的东西;“鬟”指古代妇女梳的环形发髻,“丫鬟”最初指女子的发式,即左右对称类似于“丫”字形的圆环状发辫,因年轻婢女多梳此种发式,因此用“丫鬟”这种发式代指婢女。由此可见“丫鬟”的字面理据性比“丫环”更强,故赋值10,“丫环”赋值为0。

(2)历史沿用价

历史沿用价反映各异形词在古代汉语中的使用情况,通过在北京大学中国语言学研究中心CCL古代汉语语料库(以下简称“CCL古汉语料库”)及国家语言文字工作委员会古代汉语语料库(以下简称“语委古汉语料库”)中的检索结果推测其沿用至今的可能性,最有可能沿用至今者价高,赋值10,反之赋值为0。

例如“丫环—丫鬟”,表5中体现的是“丫鬟”和“丫环”在两个古代汉语语料库中首次出现后各朝代的出现词频之和,从数据可以看出,除了民国时期外,“丫鬟”的用例皆高于“丫环”,故“丫鬟”沿用至今的可能性略大,赋值10,“丫环”赋值为0。

3. 系统价

系统价体现异形词与其他语素义相同的系列詞用字上的一致性的强弱,主要的考察方式是通过查阅《现汉7》《倒序现代汉语词典》等资料首先确定有没有其他意义相同或相近的同系列词,再比较其用字情况,一致性强的系统价高,赋值20;一致性弱的系统价低,赋值为0。若两者均有一致性较强的同系列词,则均赋值20;若无意义相同或相近的同系列词,则赋值均为0。

例如:“约莫—约摸”这组争议性异形词有“估计”“大概”的意思。《现汉7》中将同样表示“估计”的同系列词“估摸”立为主词条,且未体现异形词,“约摸”与其一致性强。但同时,《倒序现代汉语词典》中“莫”字头下与“估计”“大概”同样具有揣测义的还有“莫非”“莫不是”,“约莫”与其一致性强,因此两者的系统价均可赋值20。

(二)扩展辅助价

在对异形词进行整理的时候,除了考虑上述几点之外,还要综合考虑异形词的形、音、义等方面。一般被确立为主形的词语都较容易掌握,词语中没有生僻字出现,且读音明确,书写方便。以往不少专家学者也指出异形词整理“从俗”“从简”的原则。因此,我们设置了易识价、易读价和易写价三个子价共同构成扩展辅助价。扩展辅助价在计量争议性异形词词价的过程中起到补充作用,因不是争议性异形词取舍的主要依据,故扩展辅助价的各项赋值为基本核心价的一半,价高者赋值为10。

1. 易识价

易识价主要取决于异形词中有无复杂字形,是否容易掌握及是否均为常见字、通用字。因《汉语水平词汇与汉字等级大纲(修订本)》(以下简称《等级大纲》)以字词的常用程度划分等级,故易识价的考察方式是查找造成异形的字在《等级大纲》中处于哪一层级,按甲乙丙丁的顺序排列,处于高一层级的易识价高,赋值为10,另一个处于较低层级的赋值为0,若两者处于同一层级则其赋值均为10。

例如:“一唱百和—一倡百和”这组争议性异形词中,造成异形的为“唱”和“倡”两个字。通过查阅,“唱”属于甲级字,单字“倡”在《等级大纲》中未出现,但含有“倡”字的“提倡”为乙级词,“倡议”为丁级词,均位于甲级之后,故含有“唱”字的“一唱百和”易识价高,赋值为10,“一倡百和”赋值为0。

2. 易读价

易讀价强调读音明确,考察标准为:通过《现汉7》确定造成异形的字的读音,读音单一、明确的单音字易读价高,赋值为10,多音字易读价低,赋值为0。若两者都是单音字,则其赋值均为10;若两者都是多音字,则赋值均为0。

还以“一唱百和—一倡百和”这组争议性异形词为例,通过查阅《现汉7》,“倡”有chāng和chàng两个读音;而“唱”只有chàng一个读音,读音单一明确,故“一唱百和”的易读价高,赋值为10,“一倡百和”赋值为0。

3. 易写价

易写价由字形的繁简决定,判断其易写价高低的主要标准为笔画的多寡,笔画多者易写价低,赋值为0,笔画少者易写价高,赋值为10。

例如:“故伎—故技”这组争议性异形词,使其造成异形的是“伎”和“技”两个字。从字形的繁简,即笔画的多寡来看,“伎”为6画,“技”为7画。“伎”的笔画少易写价赋值为10,“技”赋值为0。

(三)外围补充价

外围补充价是一个开放的价群,不设立具体的子价,是在争议性异形词两词形的基本核心价和扩展辅助价之和相同时做补充用的,若不同则不必考虑此项。若根据“基本核心价”和“扩展辅助价”计算出的综合价相同,则根据具体实际情况再设置其他的价帮助确定争议性异形词的主形。

四、 基于异形价体系的争议性异形词主形择定操作及原则

在本文第三部分,我们对“异形价”体系中各子价的赋值依据及赋值方式进行了详细说明,在这一部分我们将基于该体系,对上文提到的九组争议性异形词的综合价进行计量,确定推荐词形,并据此提出争议性异形词主形择定的相关原则。

(一)基于异形价体系的争议性异形词主形择定操作

我们将以一组争议性异形词为例,依据“异形价”体系对其进行综合价的计量及主形的择定。

拾遗补缺 拾遗补阙

《264组》将“拾遗补缺”定为推荐词形,《现汉7》将“拾遗补阙”定为推荐词形,虽然在《现汉7》中“拾遗补缺”亦出条,但在释义中注明:“同‘拾遗补阙。”因此,“拾遗补缺—拾遗补阙”是一组争议性异形词。

从通用价下设的公众使用价来看,“拾遗补缺”在CCL现汉语料库和语委现汉语料库中的用例之和为175,“拾遗补阙”在两语料库中的用例之和为22,“拾遗补缺”在语料库中出现的次数多,故“拾遗补缺”的公众使用价高于“拾遗补阙”,赋值10。

从通用价下设的媒体公信价来看,“拾遗补缺”在人民网中出现的次数为1075,“拾遗补阙”为90,故“拾遗补缺”的媒体公信价高于“拾遗补阙”,赋值10。

从理据价下设的字面理据价来看,“拾遗补缺/拾遗补阙”表示“补充他人遗漏的事物或缺失的地方”,造成异形的是“缺”和“阙”两字。《说文》:“缺,器破也。”本义为器具残破、损坏而不完整,后特征缩小,应用范围扩大,泛指“缺少,残破”。《说文》:“阙,门观也。”本义为宫门外两边的楼台,因宫阙左右各一,中间有道如空缺,故又引申指“缺口,空缺”。(谷衍奎2008)“缺”和“阙”都具有“缺失”这一语素义,构词理据清晰,二者的字面理据价均可赋值10。

从理据价下设的历史沿用价来看,“拾遗补缺”在CCL古汉语料库和语委古汉语料库中的用例之和为4,“拾遗补阙”在两语料库中的用例之和为112,根据其在古代汉语中的使用情况来看,“拾遗补阙”沿用至今的可能性更大,故“拾遗补阙”的历史沿用价较高,赋值为10,“拾遗补缺”赋值为0。

从系统价来看,形容保守不知改进的“抱残守缺”中的“缺”也表示“残缺的东西”,《现汉7》将其立为词条,未收录其他异形,“拾遗补缺”的用字与其一致性高。因此“拾遗补缺”的系统价高,赋值为20,“拾遗补阙”赋值为0。

从易识价来看,“缺”在《等级大纲》中属于乙级,而“阙”在《等级大纲》中未出现,“缺”的通用程度高。因此,“拾遗补缺”的易识价较高,赋值10,“拾遗补阙”赋值为0。

从易读价来看,“阙”有quē和què两个读音,而“缺”只有quē一个读音,读音单一明确,故“拾遗补缺”的易读价高,赋值10,“拾遗补阙”赋值为0。

从易写价来看,“阙”的总笔画数为13,“缺”则为10,笔画较少。因此,“拾遗补缺”的易写价高,赋值10,“拾遗补阙”赋值为0。

以上为基于异形价体系得出“拾遗补缺—拾遗补阙”这组争议性异形词两个词形综合价的整体过程,为了更清楚地观察,列表6如下。

通过表6,我们可以清晰地看到,“拾遗补缺”的综合价为80,“拾遗补阙”的综合价为20,两词形的综合价不同,因此不必考虑外围补充价。“拾遗补缺”的综合价高于“拾遗补阙”的综合价。因此,若要在二者之间选择一个作为该组争议性异形词的主形的话,我们建议选择“拾遗补缺”。

类推以上操作,我们得到了《现汉7》与异形词整理表在主形择定上出现分歧的九组争议性异形词的综合价,以及据此我们建议选择的异形词主形,具体如表7所示。