基于框架的汉语篇章结构生成和篇章关系识别

2015-06-09 23:45吕国英王智强柴清华
中文信息学报 2015年6期
关键词:语料库短语语义

吕国英,苏 娜,李 茹,2,王智强,柴清华

(1. 山西大学 计算机与信息技术学院,山西 太原 030006;2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006;3. 山西大学 外国语学院,山西 太原 030006)



基于框架的汉语篇章结构生成和篇章关系识别

吕国英1,苏 娜1,李 茹1,2,王智强1,柴清华3

(1. 山西大学 计算机与信息技术学院,山西 太原 030006;2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006;3. 山西大学 外国语学院,山西 太原 030006)

针对汉语篇章分析的三个任务: 篇章单元切割、篇章结构生成和篇章关系识别,该文提出引入框架语义进行分析研究。首先基于框架构建了汉语篇章连贯性描述体系以及相应语料库;然后抽取句首、依存句法、短语结构、目标词、框架等特征,分别训练基于最大熵的篇章单元间有无关系分类器和篇章关系分类器;最后采用贪婪算法自下向上生成篇章结构树。实验证明,框架语义可以有效切割篇章单元,并且框架特征可以有效提升篇章结构以及篇章关系的识别效果。

篇章单元;篇章结构;篇章关系;贪婪算法

1 引言

篇章分析是自然语言处理领域的一项重要任务,它[1]是指对篇章结构以及结构中篇章单元之间的语义关系进行分析。篇章由一个以上的语段或句子构成,例如,给定一个由一个句子“中国梦只有被世人理解和接受,才能加快实现进程。”构成的简单篇章,通过篇章分析后,得到如图1所示的篇章关系结构树。在结构树中,“中国梦只有被世人理解和接受”和“才能加快实现进程”两个篇章单元在条件关系基础上构成了一个只有一个层次的篇章结构树。该项研究对自然语言处理的许多领域起到了很大的作用,如问答系统[2]、文本连贯性[3]等。

图1 简单篇章分析示例

目前,针对篇章分析的研究主要面向英语,其中一个原因就是英文的相关理论体系和语料库比较完善。Mann和Thompson提出的修辞结构理论(Rhetorical Structure Theory,RST)[1,4]认为所有好的篇章都是在篇章关系基础上形成的篇章层次化结构。基于RST的篇章分析器自动构建过程主要有两个子任务: (1)切割基本篇章单元; (2)根据RST确定篇章单元之间的语义关系,生成有层次的篇章结构树。目前,已有许多研究者针对这两个任务在修辞结构理论篇章树库(Rhetorical Structure Theory - Discourse TreeBank,RST-DT)[5]上展开了研究和实验。在基本篇章单元分割任务上,Hernault[6]等人将该任务看作序列化标注问题,使用词汇、句法等平面特征训练CRF模型,已取得了94%的F值。在篇章结构生成任务上,Wei Feng[7]等人提出使用双线性链条件随机场模型和贪婪策略进行篇章分析的方法,得到了58.2%的正确率。

宾州篇章树库(Penn Discourse Treebank,PDTB)[8]主要标注与英语篇章连接词相关的篇章关系。基于PDTB的篇章分析器自动构建过程主要有三个子任务: (1)判定篇章中的连接词是否充当连接词;(2)识别存在篇章关系的两个论元(arg1,arg2);(3)篇章关系识别,在PDTB中,篇章关系细分为隐式关系(Implicit)、显式关系(Explicit)、替代关系(AltLex)、实体关系(EntRel)、无关系(NoRel)五类。篇章关系识别方面,由于显式篇章关系具有篇章连接词,易于识别,Pilter[9]等人仅仅利用连接词的统计特征已取得了93.09%的显式篇章关系识别准确率。Ziheng Lin[10]等针对PDTB的第二层语义进行识别,提出了短语结构树、依存句法树、上下文、词对等有效特征,取得了40.2%的隐式篇章关系识别准确率。

在汉语方面,孙静[11]等人在自建的汉语语料库(Chinese Discourse Treebank,CNDB)上进行了相关实验。张牧宇[12-13]等人在从OntoNotes4.0中随机筛选出1 096篇文本构成的语料库上进行了相关研究与实验。涂眉[14]等人在标有复句逻辑语义关系的清华汉语树库上,提出了基于最大熵的汉语篇章结构分析方法。但是,相对于英语篇章分析的快速发展,汉语的研究还很少,其中的主要原因是相关的理论体系与汉语篇章语料库还不够完善,且汉语在构建篇章上与英语有较大差异,使得英语的标注体系和分析方法不能完全应用到汉语上。因此,本文尝试将框架语义学与汉语篇章分析相结合,构建了相应的理论体系以及篇章框架语料库。

虽然面向篇章分析的理论以及语料库不尽相同,但从他们的实验中,可以看出句首、短语结构、依存句法等一些篇章浅层特征对篇章分析具有很大的作用。然而,篇章分析是一项艰巨的任务,仅依靠这些浅层特征还不能有效完成篇章分析任务。Ziheng Lin[10]等人曾指出识别篇章关系的难点在于歧义性、推理、上下文、世界面,篇章分析只有在分析了篇章上下文知识、理解了有联系的篇章单元的语义、对篇章单元间的语义进行合理推理等的基础上,才能分析出篇章单元之间的语义关系以及篇章的结构。Fillmore[15]的框架语义学是对世界知识和语言知识之间关系的描写,用框架对篇章进行分析,既可以在一定程度上模拟篇章的语义内容,使其具有可计算性,而且为篇章连贯提供了新的描写机制,从而有效改善篇章分析的性能。基于此,本文在框架语义基础上构建了篇章连贯性描述体系以及相应语料库,并展开了初步的句子级实验,验证了框架在汉语篇章单元切割、句子级篇章结构生成以及篇章关系识别上的作用,为进一步研究框架在篇章分析技术方面的作用奠定了基础。本文的具体组织结构如下: 第2节介绍汉语篇章框架语料库;第3节构建篇章分析器;第4节是实验设置与结果分析;第5节为结语。

2 汉语篇章框架语料库介绍

本文利用山西大学在Fillmore[15]提出的框架语义学理论基础上构建的汉语框架网(Chinese Framenet,简称CFN)[16-17],建立了方便计算机实现的篇章框架连贯性描述体系。本体系将篇章看作是由裹挟在语言符号中的框架构成的框架集合,即框架可以构成篇章单元,并且这些框架依据篇章关系自底向上组合形成一棵意义上连续的语义结构树,框架之间的篇章关系通过显式或隐式的连接词语连接起来。

2.1 框架

该体系认为篇章是由裹挟在句子等表层语言符号中的框架构成的框架集合。CFN中的框架提供了汉语词语在语言中使用的背景和动因,是人类在理解语言时,储存在人类认知经验中的图式化场景。框架语义学根据各框架对应的场景,将具有相同基本意义、支配相同类型语义角色的词语归入一个框架,例如,“包含”框架下的词语有“包含”、“构成”、“涵盖”等,描述的是部分包含在整体中。篇章中裹挟在句子中的目标词(目标词是指在一个具体的句子中能够激起框架的词)激起一个与句子情境相一致的框架,句子的其他成分充当该框架的语义角色,如:

例1 “典型的两栖动物包括青蛙、蟾蜍、蝾螈和火蜥蜴。”进行框架语义分析后得: 。例1中的词语“包括”激活了“包含”框架,“”、“”是“包括”框架所支配的语义角色,其中“tot”,“par”为语义角色类型标记,分别指“整体”与“部分”。 此外,一个句子可能包含多个目标词,例如,“他希望专家学者持续关注、参与教育实践活动。”由三个目标词“希望”、“关注”、“参与”激起的框架构成。

2.2 切割篇章语义单元

针对汉语篇章由一系列句子构成,每个句子由系列小句构成的特点,本体系将一个篇章(Discourse,简称D)中的句子经“,”、“:”等分割的语义单元定义为初级篇章单元(Primary Discourse Unit,简称PDU);一些PDU没有能激起框架的目标词,即不能构成篇章的基本单元,因此将不具有框架的PDU与相邻具有框架的PDU合并在一起,构成一级篇章单元(First Discourse Unit,简称FDU),其他含有框架的PDU直接向上构成FDU;句子定义为二级篇章单元(Second Discourse Unit,简称SDU)。这种切割方式与英语按照词汇或句法标记来划分篇章单元相比,不仅充分考虑了汉语篇章的特点,而且充分考虑了篇章单元的语义信息。

例2的篇章构成如图2所示,例句中“()”内内容为初级篇章单元,“[]”内内容为一级篇章单元,“{}”内内容为二级篇章单元,黑体字为目标词。

例2 {[(今天上午)PDU1,(张乐认真听取发言)PDU2]FDU1,[(并与参加座谈的同志探讨交流)PDU3]FDU2}SDU1。{[(他强调)PDU1]FDU1,[(对各位专家学者提出的思想观点、意见建议)PDU2]FDU2,[(要认真归纳、研究、吸收)PDU3]FDU3}SDU2。{[(他希望专家学者持续关注、参与教育实践活动)PDU1]FDU1}SDU3。

如图2所示,在PDU这一层级,从每个初级篇章单元中抽取出(目标词-框架),其中第一个句子的PDU1没有能激起框架的目标词;在FDU这一层级,SDU1下的PDU1没有框架,与PDU2合并为FDU1,包含自主感知框架,SDU1下的PDU3含有框架直接向上构成FDU2,包含研究、信息交流框架,篇章中其他篇章单元分析与此一致。

图2 篇章语义单元构成

2.3 篇章框架结构

如2.2的例2形成的篇章框架结构树如图3所示,句子“{[(今天上午)PDU1,(张乐认真听取发言)PDU2]FDU1,[(并与参加座谈的同志探讨交流)PDU3]FDU2}SDU1。”具有三个基本篇章单元PDU1、PDU2、PDU3,两个一级篇章单元FDU1、FDU2,其中FDU1和FDU2是一般递进关系,篇章中其他篇章单元分析与此一致。

图3 篇章框架结构树

2.4 篇章关系

本文基于黄伯荣和廖序东的《现代汉语》中关于复句以及句群之间关系分类体系[18],建立了三层级篇章框架关系结构: 第一层级根据篇章单元间意义是否平等将篇章关系划分为联合关系和偏正关系两大类别;在第二层级篇章关系中,在传统的偏正关系中加入属于关系这一类别(表1给出了细化至二层级的篇章关系),属于关系表示篇章的意图以及意图的所有者的所属关系;第三层级篇章关系,根据前后篇章单元的发展顺序以及逻辑关系细分为24类。在该篇章关系层级结构中,如果无法区分篇章单元之间的关系,可以将其归入承接关系的连贯关系中。

表1 篇章关系类型

2.5 篇章语料库现状

鉴于目前关于汉语篇章语料库的缺乏以及标注体系的不同,我们在该理论体系下构建了一个包括496篇篇章的语料库,每篇文章都由人工标注了框架、篇章结构以及篇章关系。这些篇章都来自于人民日报,最小的篇章包含一个句子,最大的篇章包含五个句子,从表2的句子级语料库现状中,可看出总共标注了1 915个篇章关系,其中并列关系、承接关系、因果关系和属于关系所占比例较大,并列关系比例最大,达到了21.98%;选择关系、假设关系和转折关系所占比例较小,选择关系实例数最少,只有四条,造成语料库这种分布状况的原因与语料体裁选取和关系本身使用频率具有较大关系。此外,三名标注人员对其中160篇篇章进行了同时标注,在篇章结构上取得了大于0.9的kappa值,在篇章关系上取得了大于0.8的kappa值。

表2 句子级语料库现状

3 篇章分析器

针对篇章框架语料库的篇章自动分析任务主要包括三个子任务: (1)根据篇章激起框架的情况,将篇章切割为一级篇章单元(FDUs)和二级篇章单元(SDUs);(2)篇章结构生成,即生成有层次的篇章结构树;(3)篇章关系识别。为完成篇章分析的任务,本文设计了相应的篇章分析器,其具体流程如图4所示。

1. 将进行框架分析后的篇章切割生成FDUs和SDUs,以及生成篇章对应的短语结构树和依存句法树,并根据篇章单元向上组合的跨度范围与相应的短语结构树和依存语法树进行边界对齐后,分别生成训练数据集和测试数据集;

2. 抽取特征训练篇章单元之间是否具有关系的最大熵分类器,对测试数据集的篇章单元对进行关系有无的预测,并利用最大熵分类模型给出的篇章单元间具有关系的概率值,采用贪婪算法生成篇章结构树;

3. 抽取特征训练篇章关系分类器,对生成的篇章结构树中的篇章单元对进行关系类别预测;

4. 输出标注了篇章关系的篇章框架结构树。

图4 篇章分析器流程图

在训练分类器的时候,本文选用了五类特征: 句首特征、依存句法特征、短语结构特征、目标词特征和框架特征。

3.1 特征

(1) 句首特征

在汉语中,每个篇章单元的句首通常起到承上启下的作用,能够起到指示篇章关系的作用。因此本文分别抽取篇章单元对的第一个篇章单元和第二个篇章单元的句首作为特征。

(2) 依存句法特征

依存句法分析使用依存句法树来描述各个词语之间的语义依存关系,这种依存关系描述了篇章单元的主要信息。本文使用Stanford Parser对句子进行依存句法分析,然后从篇章单元向上组合的跨度范围对应的依存树中获得所有拥有被支配者的词和依存类型。图5显示了“张乐认真听取发言”对应的依存树,从这棵树上,收集到的依存句法特征是: 听取 ← nsubj advmod dobj。每一个依存特征都表示为三个二元特征,来检测该特征是出现在第一个篇章单元中、第二个篇章单元中或同时出现在两者中。

图5 依存句法树

(3) 短语结构特征

篇章单元的短语结构往往限制了篇章的结构以及篇章关系。本文使用Stanford Parser对每个篇章中的句子进行分析得到短语结构树,然后从这些树上提取相应篇章单元向上组合的跨度范围的短语结构特征。图6显示了“张乐认真听取发言”的部分短语结构树,从这棵子树上,收集到的短语结构特征是: IP→NP VP,NP→NR,VP→ADVP VP,NR→NN,ADVP→AD等。每一个短语结构特征都表示为三个二元特征,来检测该特征是出现在第一个篇章单元中、第二个篇章单元中或同时出现在二者中。

(4) 目标词特征

目标词作为激起整个句子语境的词汇,在语义表达中起着很大的作用,且它们之间的关系通常反映了篇章单元间的篇章关系。在CFN框架体系中,能承担起框架的目标词包括动词、名词和形容词。

图6 短语结构树

如例3 [第一次被严重打击,]FDU1[心情相当难过。]FDU2。

其中,FDU1的目标词“打击”和FDU2的目标词“难过”代表了一种隐式的因果关系,同时也指示了FDU1和FDU2之间是因果关系。

(5) 框架特征

框架能够表达文本的语义信息,选用框架作为特征不仅可以减少词语的种类,而且可以有效挖掘出框架之间的语义关系,如图7所示,由词语“敲打”等词语激起的框架“造成伤害”与“疼”等词语激起的框架“身体感知”是因果关系,与“惶恐”等词语激起的框架“心理刺激”同样是因果关系,除此之外,“造成伤害”框架还会与其他框架具有其他种类关系。

图7 框架特征

3.2 篇章结构分析器

3.2.1 篇章单元对是否有关系分类模型

在相邻篇章单元是否具有有关系的分类模型中,本文首先将篇章生成相应的篇章单元对训练集和测试集。其具体流程如图8所示。

图8 结构分解

1. 给定篇章集合D={D1,D2,…Dn};

5. 生成篇章单元对,并根据标注真实情况,为每一对篇章单元对标注是否具有关系,生成篇章结构的训练数据和测试数据。

采用拉格朗日乘数法求解最大熵,计算公式为式(2)~(3)。

其中,fi表示每个特征,n代表特征总数,λi为特征的权重。

3.2.2 贪婪算法

图9 无重合

图10 新节点的第一棵子树与已有节点的最后一棵子树相同

图11 新节点的最后一棵子树与已有节点的第一棵子树相同

图12 新节点的第一棵和最后一棵子树与已有节点的最后一棵子树和第一棵子树相同

图13 自下向上生成篇章结构树

① 将四个一级篇章单元形成叶子节点T(1,1)、T(2,2)、T(3,3)、T(4,4);

⑥ 因为⑤中的T(1,4)已包含所有篇章单元,因此停止比较,并删除节点T(2,2)和T(2,4)。从T(1,4)开始从上向下输出这四个一级篇章单元生成的篇章结构树,如图14所示。

图14 输出篇章结构树

3.3 篇章关系分类模型

4 实验设置与结果分析

(1) 篇章框架标注情况

由于CFN框架本身覆盖率的问题,导致篇章中的目标词不能完全标注出所属的框架,表3统计了篇章的框架标注情况。

从表3可以看出,总共标注了4 472次,其中3 679次标注了框架,所占比例为82.27%;涉及不同词语909个,其中679个词语具有框架,所占比例为74.70%,共涉及框架193个。

表3 框架标注情况

(2) 篇章单元间有无关系识别效果

本实验采用框架特征、目标词特征、短语结构特征和依存句法特征生成篇章结构对应的特征实例集5 585个篇章单元对,采用五折交叉验证进行实验,表4给出了每个类别特征的正确率。

表4 基于单个特征篇章单元之间有无关系实验效果

表5 基于多个特征篇章单元之间有无关系实验效果

通过表4可以看出每类特征对篇章结构分类效果的影响相继是框架特征、目标词特征、短语结构特征、依存句法特征,框架特征取得了最好的实验效果,这表明框架特征包含了更多的语义信息,更有助于识别篇章单元之间是否存在关系。

为了验证组合特征对篇章结构识别的影响,表5给出了特征组合对实验结果的影响。在该实验中,使用MI特征选择方法,选择400个短语结构特征、150个依存句法特征、全部框架特征、100个目标词特征生成篇章结构对应的特征实例集,通过表5可以看出组合特征的实验结果要优于单个特征,其中,框架、短语结构、依存句法和目标词特征的组合识别效果最好,这表明特征组合时,篇章结构识别效果最好。

表6 篇章单元之间有无关系实验总效果

表6给出了在所有特征组合下的篇章单元有无关系的P,R和F值。从表6中可以看出有关系的篇章单元对的识别效果较差,F值只有31.70%。

(3) 篇章关系实验效果

本实验采用频数大于3的框架特征、目标词特征、短语结构特征、句首特征和依存句法特征生成篇章关系对应的特征实例集2 110个,采用五折交叉验证进行实验。为了验证各类特征在篇章关系识别上的作用,我们首先在正确标注篇章关系的数据上进行了实验,表7给出了各类特征的实验结果。将篇章关系中占据比例最大的并列类设置为基准系统,正确率为22.46%。

表7 基于单个特征篇章关系实验效果

表8 基于多个特征篇章关系实验效果

通过表7可以看出,本文选择的几组特征都是有效的,总正确率都超过了基准系统,每个特征对篇章关系分类效果的影响相继是框架特征、目标词特征、句首特征、短语结构特征和依存句法特征;框架特征的识别效果要优于目标词特征、句首特征、短语结构特征和依存树特征,达到了40.69%,这表明标注框架对于识别篇章关系是有效的。

为了验证组合特征对实验结果的影响,表8给出了特征组合对实验结果的影响。通过表8可以看出,当所有特征组合时,实验效果最好,达到了49.25%,比单个特征效果最好的框架提高了8.56%,这表明组合特征时,篇章关系识别效果要明显优于单个特征。

表9 篇章关系总效果

表9分别给出了基于所有特征组合的每种篇章关系类别的P,R和F值。通过表9可以看出,选择类与转折类没有识别出来,假设类识别准确率较低,这是由于数据稀疏引起的,在整个语料中,选择类的实例仅有四个,假设类所占比重为2.61%,转折类所占比重为2.66%。递进类的识别效果较差,是由于递进类与并列类的特征具有较大的相似性,如若没有明显的连接词作指示,很难区分这两个类别。属于类的识别效果最好,是由于属于类别的篇章关系,多是由“说”、“宣布”等一些表达篇章意图的句首表达,这些词语激起了“陈述”框架,特征明显且属于类的实例数较多,对于属于类识别具有较强的针对性,因此属于类识别效果最好。并列类、承接类、解说类、条件类、因果类、目的类的识别效果相当。

(4) 整体性能实验效果

为检验篇章分析器的整体性能,即完全由篇章分析器完成篇章结构生成以及在结构树上识别篇章关系,本实验首先使用贪婪策略自下向上生成篇章结构树,然后使用篇章关系分类模型对篇章结构分类模型输出的有关系篇章单元对进行关系类型预测。本实验使用397篇篇章作为训练集,99篇篇章作为测试集,使用标准Parseval[19]中的指标P,R和F值作为测试标准,实验结果如表10。

表10 整体实验效果

通过表10可以看出,使用贪婪策略生成的篇章结构树,F值可达到64.55%。在关系实验中,使用自动生成篇章结构的F值29.99%比使用标准结构的F值49.39%有所下降,这是由于自动生成的篇章结构准确率较低且篇章关系分类器的准确率也较低,以至于在下一步的自动篇章关系识别上准确率有所下降。

5 结语

本文研究了如何运用框架语义切割汉语的篇章单元以及自动分析汉语篇章结构和篇章关系。在篇章自动分析过程中,我们提出了基于最大熵的分析方法,对篇章结构和篇章关系分别建模。在建模过程中使用到句首特征、依存句法特征、短语结构特征、目标词特征、框架特征,实验结果验证了框架特征可以有效提高这两个任务的准确率,为以后进一步的工作奠定了基础。但是由于本文的框架覆盖不全,造成实验效果并未达到最优,因此在以后的工作中,我们将进一步进行框架的构建工作,同时有效地使用框架语义资源在汉语篇章分析方面的研究,如框架的语义角色、框架关系等,并扩大篇章单元的研究范围。

[1]MannWC,ThompsonSA.Rhetoricalstructuretheory:Aframeworkfortheanalysisoftexts[J].IprapapersinPragmatics, 1987,1: 79-105.

[2]PrasadR,JoshiA.Adiscourse-basedapproachtogeneratingwhy-questionsfromtexts[C]//ProceedingsoftheWorkshopontheQuestionGenerationSharedTaskandEvaluationChallenge,Arlington,VA. 2008.

[3]LinZ,NgHT,KanMY.Automaticallyevaluatingtextcoherenceusingdiscourserelations[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1.AssociationforComputationalLinguistics, 2011: 997-1006.

[4]MannWC,ThompsonSA.Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization[J].Text, 1988,8(3): 243-281.

[5]CarlsonL,MarcuD,OkurowskiME.Buildingadiscourse-taggedcorpusintheframeworkofrhetoricalstructuretheory[J].CurrentandNewDirectionsDiscourseandDialogue, 2003: 85-112.

[6]HernaultH,BollegalaD,IshizukaM.Asequentialmodelfordiscoursesegmentation[C]//ProceedingsoftheComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg, 2010: 315-326.

[7]VanessaWeiFeng,GraemeHirst.Alinear-timebottom-updiscourseparserwithconstraintsandpost-editing[C]//Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics,Baltimore,Maryland,USA, 2014:511-521.

[8]PDTBResearchGroup.Thepenndiscoursetreebank2.0annotationmanual[R].Philadelphia:UniversityofPennsylvania, 2008.

[9]PitlerE,RaghupathyM,MehtaH,etal.Easilyidentifiablediscourserelations[C]//ProceedingsoftheInternationalConferenceonComputationalLinguistics. 2008:87-90.

[10]ZihengLin,Min-YenKan,HweeTouNg.Recognizingimplicitdiscourserelationsinthepenndiscoursetreebank[C]//Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Morristown:AssociationforComputationalLinguistics, 2009: 343-351.

[11] 孙静,李艳翠,周围栋,等.汉语隐式篇章关系识别[J].北京大学学报(自然科学版),2014,(1):111-117.

[12] 张牧宇,宋原,秦兵,等.中文篇章级句间语义关系识别[J].中文信息学报,2014,27(6):51-57.

[13] 姬建辉,张牧宇,秦兵,等.中文篇章级句间关系自动分析[J].江西师范大学学报(自然科学报),2015,2(2):124-131.

[14] 涂眉,周玉,宗成庆.基于最大熵的汉语篇章结构自动分析方法[J].北京大学学报(自然科学版),2014,1(1):125-132.

[15]Fillmore,CharlesJ.Framesemantics[A].InLinguisticsintheMorningCalm,theLinguisticSocietyofKorea,Seoul:Hanshin,1982:111-137.

[16] 李茹.汉语句子框架语义结构分析技术研究[D].山西大学博士学位论文. 2012.

[17] 郝晓燕,刘伟,李茹等.汉语框架语义知识库及软件描述体系[J].中文信息学报, 2007, 21(5): 96-100.

[18] 黄伯荣,廖序东.现代汉语[M].北京: 高等教育出版社.2011.

[19]AbneyS,FlickingerD,GdaniecC,etal.ProcedureforquantitativelycomparingthesyntacticcoverageofEnglishgrammars[C]//ProceedingsoftheWorkshoponSpeech&NaturalLanguage, 1991:306-311.

Frame-Based Discourse Structure Modeling and Relation Recognition for Chinese Sentence

LV Guoying1,SU Na1,LI Ru1,2,WANG Zhiqiang1,CHAI Qinghua3

(1. School of Computer & Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China;2. Key laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, Shanxi 030006, China;3. School of Foreign Languages, Shanxi University, Taiyuan, Shanxi 030006, China)

Frame semantics is introduced to the research of Chinese discourse analysis which includes three subtasks: discourse segmentation, discourse structure modeling and discourse relation recognition. First, the Chinese discourse coherence framework and a corresponding corpus is built based on frame semantics. Then two kinds of maximum entropy classifiers are applied to recognize the relation between discourse units and the class of discourse relation based on lexical features, dependency parser features, syntactic parser features, target features and frame sematic features. Finally, we use probability of the relation existence between discourse units to generate the discourse structure by greedy bottom-up method. Experimental results show that frame sematic can segment discourse units effectively and frame sematic feature can improve the performance of discourse structure construction and discourse relation recognition.

Discourse units; Discourse Structure; Discourse Relation; Greedy Bottom-up Method

吕国英(1964—),通信作者,硕士,副教授,硕士生导师,主要研究领域为自然语言处理。E-mail:english@sxu.edu.cn苏娜(1989—),硕士研究生,主要研究领域为中文信息处理。E-mail:cindysunas@163.com李茹(1965—),博士,教授,博士生导师,主要研究领域为自然语言处理。E-mail:liru@sxu.edu.cn

1003-0077(2015)06-0098-12

2015-07-10 定稿日期: 2015-10-10

国家自然科学基金(61373082);山西省科技基础条件平台建设项目(2014091004-0103);山西省回国留学人员科研资助项目(2013-015);国家863计划项目(2015AA015407);中国民航大学信息安全测评中心开放课题基金项目(CACC-ISECCA-201402)

TP391

A

猜你喜欢
语料库短语语义
真实场景水下语义分割方法及数据集
平行语料库在翻译教学中的应用研究
语言与语义
《语料库翻译文体学》评介
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
《健民短语》一则
语篇元功能的语料库支撑范式介入