藏语三音动词短语自动抽取研究

2015-04-21 08:33赵维纳刘汇丹普布顿珠
中文信息学报 2015年3期
关键词:互信息藏语语素

赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健

(1. 青海师范大学,青海 西宁 810008;2. 中国科学院软件研究所,北京 100190;3. 中央民族大学,北京 100081)



藏语三音动词短语自动抽取研究

赵维纳1,2,李 琳1,刘汇丹2,普布顿珠3, 吴 健2

(1. 青海师范大学,青海 西宁 810008;2. 中国科学院软件研究所,北京 100190;3. 中央民族大学,北京 100081)

藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。

中文信息处理;藏语信息处理;词汇获取;藏语三音节复合动词短语

1 引言

藏语三音动词短语是指由双音节名词或形容词与单音节动语素构成的动词短语,这种结构在较早的历史文献中也存在,但是数量不多。然而在现代藏语中这种现象大量产生[1]。三音动词短语的识别问题已经影响到藏语自动分词、组块分析、句法分析以及机器翻译等各领域的研究。由于它具有开放性、能产性、数量的不确定性以及结构的不稳定性等特点,三音动词短语的识别与抽取目前还没有较好的处理策略。如何从大规模真实语料中自动获取三音动词短语是一项值得探索的课题。

目前,从大规模语料库中自动提取多词表达式、短语或搭配等语言知识的研究已经在国内外流行,并获得了较多的研究成果与研究经验,这些研究可以为藏语三音动词短语的研究提供可借鉴的经验。如文献[2]采用了互信息、t检验,χ2检验,似然比四种度量方法进行了搭配自动获取的比较测试。文献[3]采用互信息通过对两个词语在语料库中的相关性进行度量,从而获取搭配。文献[4]提出了一种利用互信息与熵融合的方法自动获取动宾搭配的方法。结果表明,互信息与熵融合的方法虽然采用的度量少,但取得的实验效果仍然较好。文献[5]提出了包括强度、离散度及尖峰三项指标的定量评估体系,对“能力”一词构成的搭配进行了全面分析。文献[6]利用互信息在大规模语料中进行词语搭配自动抽取,然后利用语言学中词语搭配规律对候选搭配进行过滤。文献[7]提出了统计和规则相结合的语块自动获取算法,首先利用融合的方法获取候选块,然后利用语言学规则对候选块进行过滤。

在藏语三音动词短语识别方面,已有的研究主要采用规则的方法,从构词法角度对文本中的三音动词短语识别。文献[1]剖析了三音动词短语的基本构成及语法功能。文献[8-13]梳理了三音动词短语的基本类别,分析了三音动词短语的结构,文献[9]提出了基于规则的方法对由三个常用的动词后缀构成的三音动词短语进行了识别。在此基础上,本文提出了统计和规则相结合的自动获取方法。首先利用互信息和熵相融合的方法从未经任何标注的藏语语料库中抽取三音动词短语的候选项,然后利用三音动词短语的结构规则对候选项过滤,实验取得了令人满意的结果。

2 藏语三音动词短语的特点

从结构上看三音动词短语是由两部分组成的,即三音动词短语=双音节词语+单音节动语素。其中,大部分双音节词是名词或形容词,而动语素是由单音动词虚化而来的,因此三音动词短语的词义主要由双音名词或形容词决定。

2.1 三音动词短语的动语素

2.2 藏语三音动词短语中的双音节词的构成

2.3 插入性成分

3 三音动词短语候选词抽取

根据上述三音动词短语的一些特点,本节主要讨论三音动词短语候选词的抽取过程。我们的基本思路是将动语素作为标志进行抽取,因此首先需要构造动语素。《藏汉对照拉萨口语词典》收录了部分常用三音动词短语,我们根据这些三音动词短语,建立了动语素表。首先从该词典抽取出所有由三个音节构成的词语。并人工筛选和标注三音动词短语。经过统计,共有875个可能的动语素。我们结合文献[1]和文献[8,10-11]列举出了部分动语素,对筛选出的动语素表进行了整理。

利用该动语素表,从藏语真实文本中抽取三音动词短语候选词。值得注意的是,这些语料均是未经过任何标注的语料。在抽取过程中,充分考虑到了三音动词短语的插入成分,对不同情况抽取不同位置的音节。具体抽取过程如表1所示。

表1 三音动词短语候选词抽取过程

4 基于统计的候选词过滤方法

我们利用统计的方法对候选词进行评分来判断该词是否是三音动词短语。三音动词短语具有两个特点: 首先,经常同时出现;其次,三音动词短语与其上下文词汇之间有比较清晰的界限。所以,利用两个度量值对候选词进行过滤,一是“内部结合紧密度”,二是“外部边界判定”[7]。

4.1 内部结合紧密度

从统计学的角度看,某个音节串的共现频率越高,音节间的结合紧密性越强。基于这一基本假设,经常共现的音节串更有可能是一个词或者固定结构。衡量词语共现频率的方法较多,本文使用了互信息的度量方法。互信息在信息论中常被用来衡量两个随机变量的相关程度,适用于衡量两个部分如两个词语在语料库中共同出现概率的显著程度,互信息越大,说明两部分之间结合得越紧密。互信息的内部紧密度计算公式如式(1)所示。

(1)

其中,PXY表示由两部分组成的音节串出现概率;PX是前两个音节的概率,PY是该动语素的出现概率。

4.2 外部边界独立度

一般来说,通过观察词语和词语周围语境的关系,可以判定词语的外部边界。本文使用最大熵的方法,分别考察候选项左边界和右边界的熵,以此作为衡量候选项的边界独立度的指标。根据信息熵的理论,熵越大说明该候选项上下文出现的词语形式越多,该候选项就更有可能是一个三音动词短语。信息熵的计算公式如式(2)、式(3)所示。

(2)

(3)

公式中,Le和Re分别表示左边界熵和右边界熵;W表示候选词;A表示候选词左边出现的所有音节的集合,a表示左边出现的某一个音节;B表示候选词右边出现的所有音节的集合,b表示右边出现的某一个音节。

我们将式(2)和式(3)结合起来,得到外部边界独立度计算公式如式(4)所示。

(4)

4.3 内部结合紧密度与外部边界独立度融合方法

以上两种统计过滤方式都各有优点和不足,如果把这两种方法结合起来,能取长补短,更有效地获取三音动词短语。我们将内部和外部计算公式结合起来,形成一个综合过滤公式。在这个公式中我们还考虑了音节串的频度信息F(W)对结果的影响,具体的计算方法如式(5)所示。

(5)

利用这种融合的方法,对三音动词短语的过滤效果要比单纯的统计方法要好,详细结果请参见实验部分。

5 基于语言规则的过滤方法

三音动词短语前两个音节主要是名词,格标记、名词化标记等通常不会出现。如果候选词中出现了这些成分,那么该词就不太可能是三音动词短语。这些过滤规则是相对的,而不是绝对的,可以根据文本类型和实际情况增补或改变。鉴于三音动词短语的特点,特制定如下的过滤规则库,如表2所示。

表2 三音动词短语过滤规则库

6 实验设计与分析

6.1 实验过程以及结果分析

本实验采用书面藏语句子共五万句作为实验语料,利用统计和规则方法对这些候选项进行了过滤。为了比较统计方法和规则方法的得到的不同结果,分别进行了三组不同的实验。

• 统计方法1: 互信息

• 统计方法2: 互信息+左/右熵

• 统计方法和规则结合的方法: 互信息+左/右熵+规则

此外,考虑到动语素表对实验精度的影响,我们根据动语素(MV)在词典中的出现频度(Frequency,F)作为依据构造不同规模的动语素表进行对比实验,实验正确率(Precsion, P)如表3所示。

表3 三音动词短语抽取准确率

实验结果表明,动语素表的规模对实验结果有很大影响。整体上看,利用频度越高的动语素构成语素表,实验的准确率越高,最好结果的准确率达到了91.8。 但是由于过滤掉了大部分动语素导致获取的结果数量较少。因此在考虑到实验效果的前提下,我们选择频度大于等于10的动语素构造语素表,这样得到了包含161条记录的表,将这些语素不同的时、体形式扩充到表中,扩充后的表共包含271个动语素。

以该表中的动语素为标志从文本中抽取出了65 764个词,经过词形还原后得59 899个候选项。删除出现次数小于3的低频项,候选项减少到11 243个。从实验结果可以看到,融合的统计方法比单一的互信息方法效果要好,单纯使用互信息的准确度比较低,平均为0.759。而将互信息和左/右熵方法融合起来后,平均准确率提高了0.04。语言规则对准确率影响很大,加入规则后,平均准确率达到了0.892,比融合的方法要好接近0.1,更比单独的互信息方法提高了0.133。表4列举出了正确抽取结果的例子。

表4 获取的三音动词短语样例

6.2 错误分析

总体上,利用统计和规则相结合的过滤方法获取藏语三音动词短语的效果还是比较好的。如表4中的结果示例,都是符合三音动词短语结构规律且在真实文本中大量出现的短语。但是抽取结果中也存在一些非三音动词短语的音节串,大部分错误属于以下四类情况之一。

针对上述四种情况,我们后续研究中将考虑细化规则,利用规则对过滤结果矫正,进一步提高精确度。

7 结语

本文利用统计和规则相结合的方法,对藏语三音动词短语自动抽取,实验结果表明: 互信息和熵相融合的统计方法效果比较好,当加入规则库后,较大地提高了抽取的准确率。说明统计和规则相融合的方法比单一方法要好。后续我们将努力提高三音动词短语抽取的精度,同时把这种尝试应用到抽取其他藏语动词短语的研究中去。

[1] 江荻,孔江平.中国民族语言工程研究新进展[M].北京:社会科学文献出版社,2005:106-122.

[2] 孙健,王伟,钟义信.基于统计的常用词搭配Collocation的发现方法[J].情报学报,2002,21(1):12-16.

[3] Kenneth Ward Church, Patrick Hanks. Word association norms, mutual information, and lexicography [J]. Computational Linguistics, 1990, 16(1):22-29.

[4] 王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2005,20(6):31-37.

[5] 孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997,(1):29-38.

[6] 曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24.

[7] 姜柄圭, 张秦龙, 谌贻荣, 等. 面向机器辅助翻译的汉语语块自动抽取研究[J]. 中文信息学报, 2007, 21(1): 9-16.

[8] 胡坦.藏语研究论文[M].北京:中国藏学出版社,2002:505-519.

[9] 龙从军.藏语三音动词分析及自动识别方法[C]//民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集.中国云南西双版纳傣族自治州.2007: 548-555.

[10] 胡坦.藏语研究论文[M].北京:中国藏学出版社,2002:505-519.

[11] 王志敬.藏语拉萨口语语法[M].北京:中央名族大学出版社,1994:46-67.

[12] 格桑居冕.实用藏文文法[M].四川: 四川民族出版社,1987: 477-488.

[13] 胡书津.简明藏文文法.云南: 云南民族出版社,1994:75-89.

[14] 周季文,谢后芳.藏语拉萨话语法.北京: 民族出版社,2003:50-59.

Automatic Extraction of Trisyllabic Verb Phrases in Tibetan

ZHAO Weina1,2, LI Lin1,LIU Huidan2, Pubudunzhu3, WU Jian2

(1.Qinghai Normal University, Xining, QING Hai 810008; 2. Institute of Software, Chinese Academy of Sciences, Beijing 100190; 3. Minzu University of China, Beijing 100081)

Trisyllabic verb phrases in Tibetan are flexible with complex structures. In this paper, an algorithm for the automatic extraction of trisyllabic verb phrases is designed by combining statistical models with linguistic rules. First, the candidate trisyllabic verb phrases are retrieved according to the verb phrases morphemes. Then filters by various statistical or rule-based methods are developed. The efficiency of this method are validated by the experiment.

Chinese information processing; Tibetan information processing; lexical acquisition;Tibetan trisyllabic verb phrases

赵维纳(1979-),博士,副教授,主要研究领域为藏语信息处理。E⁃mail:490333294@qq.com李琳(1980-),博士,讲师,主要研究领域为藏语信息处理。E⁃mail:lilin20081@foxmail.com刘汇丹(1982-),博士,副研究员,主要研究领域为操作系统、中文信息处理和多语言信息处理。E⁃mail:huidan@iscas.ac.cn

1003-0077(2015)03-0196-05

2013-06-14 定稿日期: 2013-11-25

青海省科技创新能力促进项目(2015-23-923Q)

TP391

A

猜你喜欢
互信息藏语语素
浅谈藏语中的礼仪语
藏语传统辞书词目编排法探析
当代女性藏语长篇小说《花与梦》中女性成长主题研究
《最低入门等级音节、汉字、词汇表》语素和语素义分析
多义语素识别及教学探讨
——针对对外汉语语素教学构想
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
基于改进互信息和邻接熵的微博新词发现方法
基于互信息的图像分割算法研究与设计
基于互信息的贝叶斯网络结构学习
基于增量式互信息的图像快速匹配方法