基于句子多种特征的相似度计算模型

2016-11-07 18:27李秋明张卫山张培颖
软件导刊 2016年9期

李秋明++张卫山++张培颖

摘要:句子相似度计算模型在基于实例的机器翻译中有着举足轻重的地位。提出了一种基于多特征加权的句子相似度计算模型,在对中文句子的词形、词序、句法和语义4种特征相似度计算的基础上,融合这4种特征,通过采用不同的特征权重来调节不同特征对句子相似度计算的影响,使得句子相似度计算更加准确。实验结果表明,该算法在计算句子相似度方面准确性较高。

关键词:句子相似度;词语相似度;词序相似度;句法相似度;语义相似度

DOIDOI:10.11907/rjdk.161604

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2016)009000402

基金项目基金项目:山东省自然科学基金项目(ZR2014FQ018)

作者简介作者简介:李秋明(1981-),女,山东济宁人,中国石油大学(华东)计算机与通信工程学院硕士研究生,研究方向为自然语言处理、句子相似度计算;张卫山(1970-),男,山东莱阳人,中国石油大学(华东)计算机与通信工程学院教授,研究方向为大数据处理和普适云计算;张培颖(1981-),男,辽宁盘锦人,中国石油大学(华东)计算机与通信工程学院讲师,研究方向为自然语言处理、未来网络架构和云计算。本文通讯作者为张培颖。

0引言

度量两个文本之间的语义相似度是自然语言处理领域中基础的研究课题。两个文本之间的语义相似度度量可以应用在许多自然语言处理任务中,例如:文本抄袭检测、查询结果评价以及自动问答系统等。

由于中文句法表达的多样性和中文标注语料库资源的缺乏,导致计算两个句子的相似度非常困难。研究人员只能利用有限的语料资源和句子的表层特征进行句子相似度计算。随着自然语言处理技术的迅速发展,学者对句子之间的语义相似度提出了许多计算方法。这些方法按照对语句的分析程度分为基于统计的方法和基于知识的方法。基于统计的方法借助大规模语料库计算句子中的词语或短语出现的频次,或者利用N-Grammar的方法计算短语出现的频次来度量两个句子之间的语义相似度。代表性方法有基于向量模型的方法[1]、句子相似模型和最相似句子查找算法[2];基于知识的方法主要是利用语义知识计算句子的相似度,比较有代表性的有:基于中文句子的依存关系计算句子之间的相似度[9]、多种层次融合的句子相似度计算模型[10]、一种改进的句子相似度计算模型[11]。

本文主要从中文句子所包含的多种特征角度出发,考虑中文句子的词形、词序、句法和语义4个方面特征,这4个特征在表达句子信息时各有侧重、互为补充。实验数据表明,该算法在计算句子相似度方面具有较高的准确率。

2实验结果分析

测试采用MSRP语料库中的句子。MSRP语料库中的句子是英文的,我们首先翻译成中文,然后利用本文方法进行句子相似度计算。

对比句子相似度算法有:TF-IDF方法、语义依存方法和本文方法,测试实验结果如表1所示。

从实验结果可以看出:本文提出的多特征融合句子相似度计算方法性能优于语义依存的计算方法,原因在于该方法综合考虑了中文句子中包含的词语、词序、句法和语义4种特征。我们对计算错误的13对中文句子仔细分析,发现产生计算错误的句子中包含未登录词,在进行句法分析时出现了错误。含有未登录词的句子在进行语义计算时出现错误,所以准确率也随之降低。

参考文献:

[1]张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2004,19(2):9399.

[2]吕学强,任飞亮,黄志丹,等.句子相似模型和最相似句子查找算法[J].东北大学学报:自然科学版, 2003,24(6):531534.

[3]XIONG JING,LIU YUN TONG,YUAN DONG.Dependency syntactic tree supported sentence similarity computing[J].Information Technology Journal.2013,12(20):56855688.

[4]张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136137.

[5]刘群,李素建.基于知网的词汇语义相似度计算[C].台北:第三届汉语词汇语义学研讨会,2002.

[6]夏天.中文信息相似度计算理论与方法[M].郑州:河南科学技术出版社, 2009.

[7]江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):8489.

[8]赵彦锋,周晓红.领域本体的语义相似度算法研究[J].软件导刊,2015,14(12):4952.

[9]李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):1517.

[10]南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报:自然科学版,2007,33(3):191194.

[11]杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956959.

[12]YUHUA LI, ZUHAIR BANDAR, DAVID MCLEAN ,et al.A method for measuring sentence similarity and its application to conversational agents[M].AAAI, 2004.

责任编辑(责任编辑:杜能钢)