融合多特征的汉泰双语新闻主题句相似度计算

2018-03-02 17:32孙帅强郜洪奎
软件 2017年9期

孙帅强+郜洪奎

摘 要:句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。

关键词:汉泰双语;新闻主题句;相似度计算;多特征融合;權重

融合多特征的汉泰双语新闻主题句相似度计算

孙帅强 郜洪奎

摘 要:句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。

关键词:汉泰双语;新闻主题句;相似度计算;多特征融合;权重

0 引言

句子相似度是对句子间的相似性给出一个度量,其在自然语言处理领域占有很重要的地位。句子相似度的计算是信息检索、机器翻译、自动问答系统以及多文档文摘等应用领域中的关键技术之一。目前,大多数的句子相似度研究都仅针对单语环境,主要包括基于编辑距离、基于词和词序、基于语义依存、基于框架语义分析、基于本体词典或知网语义以及基于语义单元的句子相似度等计算方法。双语环境下句子间的相似度由于语言之间的转换会引入更多的噪声,同时也需要使用更多的资源,使问题更为复杂。

目前,双语句子相似度的计算方法主要有两种:一种是利用双语平行语料;另外一种是利用双语词典。基于平行语料的方法就是利用大规模的语料去统计贡献的词对或者在找出相似的句对的基础上作词语的替换,但是这种方法的准确性取决于语料库的规模和质量;基于词典的方法就是利用双语词典找出句子中互译的词对,虽然没有基于平行语料那样对大规模语料库的依赖,但是基于词典的方法会出现一词多译的现象。目前,面向英语、法语、德语、汉语等多种语言的句子相似度研究都得到了快速的发展,如张贯虹等利用词典和词向量空间模型计算汉蒙句子的相似度。Erdmann等人使用机器翻译工具将源文本翻译成目标文本所用的语言然后再使用单语言句子相似度算法计算英德两者之间的句子相似度;Smith等人利用汉英之间的翻译概率词典,将所含的互译词对的个数作为相似性的度量。但关于汉泰双语句子相似度的研究目前还不多见。因此,本文结合汉泰双语新闻主题句的句式特点,提出了一种基于多特征的汉泰新闻主题句相似度计算方法。该方法融合了词性、句法成分和句子依存关系三个特征,可以更全面、更准确地衡量汉泰句子之间的相似度。

1 汉一泰新闻主题句描述

新闻主题句是从新闻的核心事件中抽取得到,且概括了新闻发生的时间、地点、参与者等信息,是由中心词(或者说触发词)及其连接起来的有约束作用的主要组成部分(如参与者、时间、地点等)构成。与一般的句子相比,新闻主题句更关注的是事件的发生时间、地点、人物等要素。所以汉泰双语新闻主题句相似度的计算不仅要考虑一般句子相似度计算,还要考虑加入句子中心词以及和中心词有联系的事件要素的相似度计算。

根据Web新闻特点,新闻主题句的句法比较固定的使用主谓宾的形式,而汉泰两种语言的主干成分的语序在句式上基本一致。下面的一个例子是从汉泰双语新闻中抽出来的一个平行的新闻主题句对,标有特殊字体的是句子的主干,相同的特殊字体代表互译,两个句子的主干都符合S+V+B的句式:

中文句子:中国首架极地固定翼飞机成功飞越南极最高区。

泰语句子:

2 基于汉泰新闻主题句不同特征的相似度计算

通过对新闻主题句的深入分析,并结合汉泰的句式特点,我们提出了一种基于多特征的汉泰新闻主题句相似度计算方法,选择词性、句法成分和句子依存关系三个特征,分别计算他们的相似度。基于多特征的新闻主题句相似度计算方法框架如图1所示。下面分别对基于这三个特征的主题句相似度的计算方法进行具体描述。

2.1 词性相似度计算

词性表示词所属的类别,是语言的基本结构。词性的不同往往引起词义和作用的不同。如下面两个句子:

句子1:中国召开了“两会”,为未来的发展指明了方向。

句子2:“两会”的召开,为未来的发展指明了方向。

在上述例子中,“召开”一词在两个句子中的词性不一致,句子1中是动词,作谓语;句子2中为名词,作主语。因此可以看出,词性的不一样导致了两个词在句子中所起的作用也不一样。

新闻的主题句就是对新闻所报道的事件的一个全面的概括,基本上涵盖了新闻事件的所有要素。所以在汉泰新闻主题句相似度计算时,我们更关注的是句子中所含有的实体要素和句子的中心词。所以我们在计算汉泰新闻主题句同性相似度的时候只选择句子中的表示时间的词性(t)、名词词性(N)、和动词词性(V)来做词性的相似度。计算公式如下所示:其中,cn、ct、cv分别表示中文句子分词后词性为名词、时间词和动词的数量;vn、vn、vv。分别表示泰语句子分词后词性为名词、时间词和动词的数量。相似度中除以3是对词性的一种平滑。

2.2 句法成分相似度计算endprint

汉语和泰语都是基于语义的句子,并且在Web新闻中,主题句一般采用比较通用的主谓宾的句式。在这种句式中,汉泰双语在句法和句子成分方面一致的。所以在相似的汉泰新闻主题句中,句子成分也是有着很大的相似性。根据这个特点,我们在计算汉泰双语新闻主题句相似度的时候,将双语句子的句子成分考虑在内。

经过对汉泰双语的新闻主题句的句法分析,我们可以得到双语句子的各个句法成分信息。根据分析,本文选取了主谓、动宾、定中、状中和动补这五大类句法成分信息,并且用向量来表示这五大类句子成分在句子中出现的次数,叫做句法成分向量。并且用求余弦夹角的方法求出两个句子的句子成分向量的相似度。

例如:

句子1:世界经济增长的重要推动力量是中国。

句子2:(中国依然是世界经济增长的重要推动力量)。

对句子1和2经过句法分析后,可以得到句子1和2成分关系向量分别为: A1[2,2,2,1,0],A2[2,2,2,2,0]。句子l和2成分关系向量的余弦相似度计算公式如下所示:

带入向量A1和A2,最后得到句子l和句子2的句法成分相似度为0.97。

2.3 句子依存关系相似度计算

在句子中,每一个词并不是独立存在的,它们每一个的存在都具有语法意义上的作用。所以在句子相似度的计算过程中,利用句子中的词语和他们之间的依存关系可以更好的去表征两个句子之间的相似度。基于此我们对汉泰双语的新闻主题句进行句法分析,中文句子利用哈工大的LTP平台进行句法分析‘14],泰语句子利用昆明理工大学智能信息处理重点实验室的句法分析工具。下边的例子是利用上述的工具分别对汉泰句子进行句法分析,结果如图2、图3所示:

通过上面对句子的句法分析我们可以发现,无论是汉语句子还是泰语句子,都有一个在句法中被称为ROOT的词语来串联整个句子,其他的词语都是围绕这个词来进行修饰描述的,我们称这个词为根项。其他的词有些和根项直接关联,有些不直接和根项直接关联,我们统称为非根项。在非根项中我们选择和根项有主谓、谓宾关系的词语作为直接项,再从剩余的词语中选择实体词,即时间、地点、人物作为非直接项。

下面,采用巴克斯范式(BNF范式)形式化定义汉泰主题句。

主题句::=<非直接项×直接项><根项>

非直接项::=<时间×地点><人物><动作>l<时间><地点><人物>l<时间><地点×动作>l<时间><人物><动作>l<地点><人物><动作>l<时间><地点>l<时间><人物>l<时间><动作>l<地点><人物>l<地点><动作>l<人物><动作>l<时间>l<地点>l<人物>l<动作>

直接项::=<对象1><对象2>l<对象1>1<对象2>

<时间>::=时间表示格式

<地点>::=地点表示格式

<人物>::=人物表示格式

<对象1>:=可表示为人物或者地点

<对象2>:=可表示为人物或者地点

直接项和非直接项中的人物、地点等实体是可以重复的。利用上述范式表示,例子中的中文句子可以表示成{中国,南极,飞机,最高区,飞越};泰语句子可以表示成

通过上述范式表述,将汉泰新闻主题句表述成向量模式,即:

主题句={直接项,非直接项,根项}

转换为数学表达式为:

其中,o表示人物实体,f表示時间实体,,表示地点实体,v表示动作要素,o1和o2表示根项中人物、地点实体,厂表示非直接项,z表示直接项,r表示根项。

公式(3)给出了汉泰双语主题句的依存关系表示模型,下边就是为每个维度赋值,我们采用以下策略:

(1)初始化向量:将对应的句子成分映射到公式(3)所示的向量空间模型中,若对应的维度上有实体我们就将权值置为1,否则置为0。

(2)调节泰语句子权重:若sv和sc,对应维度上的初始权重不都是1我们不需要调节;针对权重都是1的维度我们采用相似度方法来调节,对于时间要素若是相差一天之内我们将泰语句子的权重置为0.5,若是相差大于一天我们将泰语权重置为0。具体相似度的计算方法是借助维基百科中的概念可以表征词语的特性,用维基百科中的概念作为向量空间,对词语进行向量表示。

通过以上两个步骤我们可以得到汉泰和泰语句子的依存句法向量,然后利用向量之间的余弦相似度计算两个句子的依存句法相似度,如下式所示:

2.4 汉泰双语新闻主题句计算

综合以上三个方面的特征,给出如下具有多特征的汉泰双语新闻主题句相似度的计算公式如下:

其中,α、β、γ分别是区分度的权重,取值都在o到1之间且α+β+γ=l。我们的目标函数是寻找一组可能的参数组合α,β,γ,在随后的相似度计算评价函数中,使准确率的指标值达到最大。我们人工选取了100对相似的汉泰新闻主题句,采用遗传算法求权重,根据经验取适当的代数,经过多次迭代选优,找jL}{参数的最佳组合。最后我们取α=o.15,β=0.35,γ=0.5。

3 实验与结果分析

3.1 实验数据集

对于新闻语料的来源,本文选取了主流的180个中文门户网站和20个论坛,以及125个不同专题的泰语网站。中文新闻包括人民日报、新华社、门户网站,泰语网站也以每日新闻、早报、芭堤雅新闻在线等核心平台为主。

本文从爬取到的汉泰新闻语料中抽取出2487个句子,其中有2000个句子是噪音句子,构成噪音集,没有类别区分;另外487个句子构成标准集,它们分属于军事、体育和社会政治三个大类,各个大类别中含有157、145、185个句子。在句子处理过程中,中文分词使用中科院的分词工具ICTCLAS3.0,中文的语法分析利用哈工大的语言技术平台云LTP。泰语的分词、词性标注均采用昆明理工大学智能信息处理实验室开发的工具,实验时我们把标准集和噪声集混到一块进行试验。具体的实验语料如表1所示:

3.2评价指标

本文采用准确率(Precision)来进行评价本文方法的性能.

3.3 实验结果对比与分析

将本文提出的基于多特征的汉泰新闻主题句相似度计算方法与基于词典的双语句子相似度计算方法进行对比,对比试验结果如表2所示:

实验结果显示两种方法在体育和军事这两个类别下的准确率都不及社会政治,原因是这两个类别下的新闻报道在书写方面都没有社会政治类别规范,尤其是体育类别中经常会出现各种人名,在分词过程中很容易分错;军事领域中许多的武器介绍,武器名字也会在分词的过程中错误分掉。

虽然两个方法在不同的领域有着不同的问题存在,但是还是能看出来本文提出的基于多特征的汉泰新闻主题句相似度计算方法在三个领域中的准确率都要高于基于词典的双语句子相似度计算方法,平均准确率更是高于基于词典的方法。所以说本文提出的基于多特征的汉泰新闻主题句相似度计算方法是可行的。

4 结语

本文通过分析汉泰双语新闻主题句的特点,选取了汉泰新闻主题句的三个特征,即词性特征、句子成分特征和句子依存关系特征,并通过对不同的特征加不同的权值来调节各个特征对相似度计算的贡献,进而提高汉泰新闻主题句的相似度。实验结果表明,该方法是有效可行的.下一步以融合更丰富的语言特征以及语义特征,进一步提高汉泰新闻主题句的相似度的准确率。endprint