汉语组块分析在情感分类中的应用研究

2016-11-08 08:35杜思奇李红莲吕学强
计算机应用与软件 2016年10期
关键词:组块本体标签

杜思奇 李红莲 吕学强

1(北京信息科技大学信息与通信工程学院 北京 100101)2(北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101)



汉语组块分析在情感分类中的应用研究

杜思奇1李红莲1吕学强2

1(北京信息科技大学信息与通信工程学院北京 100101)2(北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101)

网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。

汉语组块分析情感标签情感词本体情感分类

0 引 言

随着互联网技术的飞速发展,电子商务受到了广泛的关注,网络用户在线购买行为的扩大使各大电商的评价系统、口碑网站以及网络论坛中保存的用户在线评论的数量达到了惊人的数字。分析消费者网络购物的模式可以发现,在线评论对消费者的购买行为起着重要的决策作用[1]。在线评论的语言表达风格自由,隐藏着用户体验和个人情感信息。这些在线评论中的情感信息对于产品制造商和网络销售方改进产品质量和服务起着至关重要的作用。

然而,随着电子商务的不断普及,在线评论的数量也在不断地增长,依靠人工来分析每一条用户评论显然是不合适的。如何利用自动化或半自动化的方法挖掘出潜藏在用户评论中的情感信息已经成为了学术界和企业共同关注的问题,情感分析也应运而生[2]。

目前对于情感分析的方法主要分为基于情感词典和基于机器学习的方法。其中基于情感词典的情感分析方法主要是利用人工构建的情感词库并结合规则来制定阈值,从而实现情感分类。王晓东等[3]构建了情感词本体并利用词类信息对用户评论进行情感倾向性计算。董丽丽等[4]扩展了HowNet(知网)的情感词集合并利用SBV算法对笔记本电脑的情感倾向性进行分析。冯秀珍等[5]利用词类和词性的相似度并根据阈值来实现情感分类。

基于机器学习的情感分析方法主要是提取评论文本中的情感特征,利用数据挖掘中的分类算法实现情感分析,常用的分类算法主要有支持向量机(SVM)和朴素贝叶斯算法。杨经等[6]利用SVM并结合选定的基准情感词实现了文本情感分类。王刚等[7]将SVM和集成学习理论相结合实现了对电影评论的情感分类。钟将等[8]利用矩阵投影并结合SVM实现了对汽车类产品的情感倾向性计算。钟将等[9]利用朴素贝叶斯算法并结合WordNet实现了对服务行业评论的褒贬极性分析。

基于情感词典的方法虽然对评论文本情感分类准确,但需要人工构建完备的情感词集合。基于机器学习的方法在面对高维数据带来的“高维灾难”时效果不佳。由于传统的特征选择算法[10]在选择特征时对于降低输入特征的维度表现不佳,直接影响了机器学习模型的分类准确率。

本文从降低分类器输入特征的维度、提高分类准确率出发,提出了一种利用汉语组块分析对评论语料进行细粒化处理,从而获得情感标签,并结合情感词本体与机器学习模型进行情感倾向性分析的方法,采用如图1所示的流程对评论文本进行情感分类。实验结果表明,这种情感分析方法能够取得较好的分类效果。

图1 基于汉语组块分析的情感分析流程示意图

1 基于汉语组块分析的细粒化处理

1.1汉语组块分析概述

句法分析是自然语言处理研究领域的一个重点和难点,它的基本任务是识别出汉语句子中的不同句子成分或依存关系。以获取句子局部信息为目的的句法分析称为浅层句法分析,汉语组块分析就是一种浅层句法分析。

汉语组块分析借助语言学中的语块理论[11],对输入的汉语句子进行汉语解析,从而构成了从词法分析过渡到句法分析的一座桥梁。本文利用汉语组块分析对评论文本进行处理,从而提取出用户评论中的情感标签。

汉语组块分析对经过汉语分析和词性标注的汉语词语序列处理后主要产生两部分信息:1)词界块:将输入的词语序列中的相同句法成分划分在同一个汉语块中,这样词语序列就形成了连续的词界块序列;2)汉语块成分标记:类似于词性标注,给每一个汉语块标记一个句法信息标记。

通过上面的分析可知,要进行汉语组块分析前,首先需要定义使用的汉语块成分标记。本文所使用的汉语块成分标记如表1所示。

表1 汉语组块成分标记说明

通过汉语组块分析对评论文本进行汉语块成分标注处理,可以依靠汉语块信息抽取出用户评论中的情感标签,从而进行细粒化的情感分析。

1.2基于支持向量机的汉语组块分析

目前主要利用机器学习算法来进行词界块的识别和汉语块的标记。主要的机器学习算法有最大熵模型、Adaboost算法、条件随机场模型、隐马尔可夫模型以及错误学习算法[12]等。本文利用台湾大学资讯工程系提供的LIBSVM工具箱[13]来进行汉语组块分析。

对汉语评论文本进行组块分析,实际上就是对分析后的汉语文本输出一组汉语块序列,举例如下:

假设输入的汉语评论文本为:性价比很低,中级车中算差的。利用中国科学院计算技术研究所提供的中文分词软件对该汉语评论文本进行二级分词和词性标注后输出:性价比/n 很/d 低/a,/w 中级车/n 中/f 算/v 差/a 的/u。/w。

对经过汉语分词和词性标注等预处理操作的文本进行汉语组块分析后得到如下汉语块序列:性价比/n [ ap 很/d 低/a ],/w [ sp 中级车/n 中/f ] [ ap 算/v 差/a 的/u ]。/w。

在上面的例子中,名词“性价比” 是用户评论的对象,其中副词“很”和形容词“低”以及动词“算/v”、形容词“差”和助词“的/u”分别构成了两个形容词块“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]”。另外,应当注意到名词“中级车/n”和方位词“中/f”构成了空间词块“[ sp 中级车/n 中/f ]”。通过汉语组块分析可以很清楚地发现该用户所描述的对象是“性价比”,并使用了两个具有情感信息的形容词块“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]” 来描述所购买的汽车的性价比。

通过上述分析,可以发现汉语组块分析的任务可以归结为一个多分类任务。支持向量机作为一种有监督的分类学习模型,需要提供一组实例来训练模型。本文在考虑了上下文关系后,选择了词特征、词性特征以及汉语块特征作为支持向量机的分类依据。这样分类模型x可以由以下12个特征来表示:

x=T(ωi-2,ti-2,ci-2,ωi-1,ti-1,ci-1,ωi,ti,ωi+1,ti+1,ωi+1,ti+2)

(1)

上述三类特征可以做如下解释:

(1) 词特征: ωi-2、ωi-1、ωi、ωi+1、ωi+2;

(2) 词性特征:ti-2、ti-1、ti、ti+1、ti+2;

(3) 汉语块特征:ci-2、ci-1。

汉语组块的流程可以如图2所示。

图2 汉语组块分析流程图

为了进行汉语组块分析,本文选择了一些上下文特征,例如:上下文中的词、词性和汉语块。考虑到在线评论文本中的评论句长度,本文采用{-5,5}为上下文窗口获得的中心词附近的语言学特征较为合适。

由于在数据分类中经常遇到线性不可分的问题,对于这些问题可以利用核技巧理论将输入向量通过高维函数映射到高维空间。一般而言,如果选择的映射函数合适,绝大多数的低维不可分问题都可以在高维空间可分。在汉语组块分析的任务中,本文选择了多项式核函数。

据统计,在实验语料中绝大多数的产品属性和评价词可以通过就近匹配的方式抽取出来,所以通过这种匹配式的位置信息,可以在汉语组块分析后进一步抽取出与评论实体较近的产品评价。

1.3情感标签抽取

对评论文本进行细粒化的情感分析前,首先要抽取出评论中所隐藏的情感标签。一般而言,评论主要由评价对象以及含有褒贬倾向性的情感词组成。因此,情感标签可以由如下所示的二元组组成:

emotion_label=

(2)

二元组中,s表示用户评论的对象,o表示用户评价对象所使用的情感词。

由于本文所用的评论语料是在线汽车类商品的评论语料,所以用户评论的对象s可以由如表2所示的8个汽车类产品的公有特征组成。

表2 汽车类产品公有特征

由于实际语料并不是很规范,还有一些关于这8个特征的其他描述方式。本文通过对汉语组块分析后的结果,进行评价实体抽取。将不同描述方式映射为如表2所示的8个特征,映射方式如表3所示。

表3 评论实体映射关系表

这样,通过上述的映射关系表,就可以对语料的规范化进行处理,统一评论文本中的关于评论实体的说法,方便后续的处理。

通过上面的叙述,用户评论对象可以表示为:

s={s1,s2,…,s8}

(3)

用户评论情感词o是指用户对于某一产品特征进行评论时,所使用的具有褒贬倾向性的描述词汇。

通过对在线评论文本汉语组块后,分析组块结果发现,可以描述产品特征的情感词汇主要由形容词类以及动词类信息构成。形容词类信息主要包括形容词块以及汉语块外的自由形容词,动词类信息主要由动词块以及汉语块外的动词类信息构成。

因此,对于用户评论的褒贬信息组要抽取上述的形容词类信息以及动词类信息。

由于有些在线评论可能会包含多个评论实体,本文为了便于分析定义了小句的概念。小句可以描述为由汉语块外的逗号、分号、句号、问号、感叹号等点号分割的汉语句子序列片段。通过逐一分析组成评论的每一个小句就可以提取出该评论内的评论实体和评价词。

经过汉语组块分析后,每一条评论文本可以构成类似“大众/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w 同时/c 动力/n 弱/a。/w”的汉语块序列。根据该句子中出现的点号(,/w)可以将该汉语块序列切分为两个小句片段:s1=大众/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w和s2=同时/c 动力/n 弱/a。/w。根据上述对于情感标签的分析,分别对小句片段s1和s2提取评论对象和情感词o。

对于小句序列s1,它的情感标签由产品特征“油耗/n”以及构成情感倾向性的形容词块“[ap偏/d高]”构成;小句序列s2的情感标签由产品特征“动力/n”以及含有情感褒贬信息的汉语块外的自由形容词“弱/a”构成。

这样,构成该评论的情感标签可以描述为:

emotion_label*=<油耗/n,[ap偏/d 高/a ];动力/n,弱/a>

基于上面的分析,对经过汉语组块分析后的评论文本逐一提取产品特征和情感词,就可以由情感标签来描述每一条评论。这样就由粗粒度的句子级情感分析缩小到了细粒度的情感标签级的情感倾向性识别。

经过上述分析,可以对评论语料中的情感信息进行抽取。由于部分抽取出的信息是非情感的,但是抽取后情感信息总体抽取准确率达到了77.62%,表明通过汉语组块分析后对评论信息进行抽取是可行的。

2 评论细粒度的情感分析

在对评论文本进行汉语组块分析,以及情感标签提取的基础上,本文结合情感词汇本体和机器学习算法进行评论文本的细粒度情感分析。

2.1情感词本体的选择与扩展

使用情感词汇本体来进行情感分类,可以获得情感词的情感分类、情感强度以及情感极性等情感词特征。这些特征可以作为基于机器学习的情感分类的实例特征。

本文所使用的情感词汇本体是由大连理工大学提供的[14],该情感词汇本体共收录了27 476个词,这些情感词被分为7个情感大类和21个情感小类。其中,情感大类包括:乐(happy)、好(like)、怒(anger)、哀(sad)、惧(fear)、恶(disgust)和惊(surprise)。情感小类由:安心(PE)、快乐(PA)、喜爱(PB)、相信(PG)、赞扬(PH)、尊敬(PD)、愤怒(NA)、内疚(NH)、失望(NJ)、悲伤(NB)、恐惧(NI)、害羞(NG)、怀疑(NL)、嫉妒(NK)、贬责(NN)、憎恶(ND)、烦闷(NE)、惊奇(PC)等组成。

由于本文所进行的是对在线评论的多分类,因此7个情感大类结合情感倾向性可以分为:

(1) 积极(positive):乐(happy)、好(like);

(2) 消极(negative):怒(anger)、哀(sad)、惧(fear)、恶(fear);

(3) 中立(neutral):惊(surprise)。

由于网络在线评论中存在大量的衍生情感词汇、网络新词以及隐含情感词,仅仅依靠现有的情感词汇本体远远不能覆盖在线评论文本中的情感词,所以还需要对现有的情感词汇本体进行扩展。对于未登录的情感词的扩充,需要以情感词汇本体中的情感词为基准词汇,通过点间互信息(PMI)来计算未登录的情感词与基准情感词之间的共现程度,从而达到扩展情感词汇本体的目的。本文以情感词汇本体中的情感词作为基准情感词,以汉语组块分析后提取出的情感词信息作为扩展信息。PMI的计算公式如下所示:

(4)

PMI的数值共有三种状态:

(1)PMI(word1,word2)>0:未登录情感词与基准情感词相关;

(2)PMI(word1,word2)=0:未登录情感词与基准情感词统计独立;

(3)PMI(word1,word2)<0:未登录情感词与基准情感词不相关。

本文选择与未登录情感词最相关的基准情感词,将该基准词的情感分类、情感强度和情感极性作为该未登录词的属性,从而实现对情感词汇本体的扩展。

另外还有一些比较特殊的未登录情感词,这些词汇由已知的情感词汇和程度副词构成,例如:不满意(满意是已知的基准情感词汇)。根据对否定副词的情感强烈程度,可以将相应的情感小类的标签赋给这些加了否定前缀的情感词,如表4所示。

表4 程度副词实例

通过上面的分析就可以对原有的情感词汇本体进行扩展,从而构建出利于分析汽车评论情感倾向性的情感词汇本体。

2.2基于机器学习的情感倾向性分析

本文利用SVM对汽车评论文本进行情感倾向性分类研究。通过汉语组块分析和情感标签抽取,实现了提取评论文本中的细粒度特征。传统的基于机器学习的情感分类方法利用词特征作为特征实例,这时往往由于输入数据的维度过大从而削弱了机器学习模型的泛化能力。

通过扩展情感词汇本体,可以查询到情感标签中某一情感词的情感分类(c)、情感强度(h)以及情感极性(p)。本文将情感标签和这三个通过本体查询到的扩展信息作为SVM的特征向量,如果情感标签中只含有一个评论对象(单一评论对象),那么特征向量可以表示为:

x1=T1(s1,c1,h1,p1)

(5)

对上述四个特征的解释如下:

(1) 产品特征s1:情感标签中的产品特征。由于本文分析的是汽车类产品,所以该特征为汽车类产品的8个公有特征之一。

(2) 情感分类特征c1:在情感词汇本体中查询到的情感标签中情感词的类别。由于本文使用的情感词汇本体是大连理工大学构建的情感词本体,所以该特征为21个小类中的一个。

(3) 情感强度特征h1:在情感词汇本体中查询到的情感标签中情感词的情感强度,情感强度分为{1,3,5,7,9}五档,9表示强情感度最大,1表示情感强度最小。

(4) 情感极性特征p1:在情感词汇本体中查询到的情感标签中情感词的情感极性,情感极性由{0,1,2}表示,0表示中性,1表示褒义,2表示贬义。

如果一条在线评论中包含多个产品特征,那么该情感标签就由多个单一评论对象的情感标签组成,该情感标签的特征向量可以表示为:

x=T(x1,x2,…,xn)

(6)

通过抽取情感标签,并结合情感词汇本体和机器学习模型,就可以将依靠本体查询到的扩展信息作为SVM的分类依据,从而避免了直接将词特征作为分类依据,降低了“高维灾难”对分类模型泛化能力的影响。另外,SVM的核函数采用了径向基函数。

3 实验结果及分析

为了验证本文所采用的情感分析的方法的有效性,本文利用汽车之家(http://www.autohome.com/cn)所提供的汽车类产品的评论语料作为实验对象。该评论语料共包含2000条正面评价、2000条中性评价和2000条负面评价。

本文所用的实验环境:计算机CPU为Intel CORE i5,内存4 GB,操作系统为Windows 8.1,采用Visual studio 2010。其中情感分类实验利用了新西兰怀卡托大学机器学习小组提供的怀卡托智能分析环境(http://www.cs.waikato.ac.nz/ml/index.html)。

为了提高情感分类实验的有效性和可靠性,实验采用了4倍交叉验证法,即将实验数据划分为4个相等的数据集。每一个数据集中包含500条好评、500条中评以及500条差评。每一次实验时利用3个数据集来训练分类模型,用剩下的1个数据集来测试,每个数据集轮流测试一遍,整体的实验流程如图3所示。

图3 实验流程

本文利用宏平均准确率(MP)、宏平均召回率(MR)和整体平均正确率(P)来进行评价。本文首先和文献[11]进行对比,实验结果如表5所示。

表5 对比实验1

文献[11]所采用的SVM分类方法是利用词特征和词性特征作为训练实例;本文所采用的方法是利用汉语组块分析提取评论文本中的情感标签,进而进行细粒化的情感分类实验。文献[11]的平均准确率为79.43%,本文的平均准确率为84.53%。实验1的结果表明,通过汉语组块分析来进行细粒的情感分析,对于降低SVM的输入特征的维度从而提高分类的准确率是有效的。

另外,本文和文献[5]进行对比实验,文献[5]由于采用了基于规则和加权的方法来实现情感分析,所以不能利用上述评判机器学习的方法来评价文献[5]。本文利用四折后的平均准确率和文献[5]的平均准确率比较,结果如表6所示。

表6 对比实验2

文献[5]采用基于规则的词法分析的方法来进行情感分类,本文采用浅层句法分析的方法来进行细粒化的情感倾向性分类。对比实验2表明,利用句法分析可以有效识别句子中的成分,从而提取情感标签,相比基于规则的方法不会受到预先定义的规则的局限性。

通过对比实验1和对比实验2可知,本文所采用的方法由于基于规则的方法,相比传统的利用机器学习实现的情感分类算法有一定的提高,表明利用细粒度的情感分析能够准确识别用户评论中的情感倾向性。

4 结 语

本文引入汉语组块分析,对评论文本进行细粒化处理,并提取情感标签,在情感分类中利用情感词本体和机器学习相结合的方法进行情感倾向性判别。相比其他方法,本文方法的准确率有一定的提高,同时保持了较高的召回率,说明进行细粒的情感分析对于提高分类器的性能是可靠的。将来,我们还将结合汉语组块分析在人工智能方面进行更深入的研究。

[1] 严建援,张丽,张蕾.电子商务中在线评论内容对评论有用性影响的实证研究[J].情报科学,2012,30(5):713-716,719.

[2] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.

[3] 王晓东,王娟,张征.基于情感词汇本体的主观性句子倾向性计算[J].计算机应用,2012,32(6):1678-1681,1684.

[4] 董丽丽,赵繁荣,张翔.基于领域本体、情感词典的商品评论倾向性分析[J].计算机应用与软件,2014,31(12):104-108,194.

[5] 冯秀珍,郝鹏.基于词性分析的产品评价信息挖掘[J].计算机工程与设计,2013,34(1):283-288.

[6] 杨经,林世平.基于SVM的文本词句情感分析[J].计算机应用与软件,2011,28(9):225-228.

[7] 王刚,杨善林.基于RS-SVM的网络商品评论情感分析研究[J].计算机科学,2013,40(11A):274-277.

[8] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317-2321.

[9] 钟将,邓时滔. 基于多特征融合的汉语情感分类研究[J].计算机应用研究,2012,29(1):98-100.

[10] 刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4.

[11] 薛小芳,施春宏.语块的性质及汉语语块系统的层级关系[J].当代修辞学,2013(3):32-46.

[12] 王天航,史树敏,龙从军,等. 基于错误驱动学习策略的藏语句法功能组块边界识别[J].中文信息学报,2014,28(5):170-175,191.

[13] LIN C. Libsvm——A libraty for supporter vector machines[OL].[2015-05-08]. http://www.csie.ntu.edu.tw/~cjlin/.

[14] 徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185.

[15] 周杰,林琛,李弼程.基于机器学习的网络新闻评论情感分类研究[J].计算机应用,2010,30(4):1011-1014.

[16] 夏梦南,杜永萍,左本欣.基于依存分析与特征组合的微博情感分析[J].山东大学学报:理学版,2014,49(11):22-30.

[17] 李纲,刘广兴,毛进,等. 一种基于句法分析的情感标签抽取方法[J].图书情报工作,2014,58(14):12-20.

[18] 欧阳纯萍,阳小华,雷龙艳,等.多策略中文微博细粒度情绪分析研究[J].北京大学学报:自然科学版,2014,50(1):67-72.

[19] 贺飞艳,何炎祥,刘楠,等.面向微博短文本的细粒度情感特征抽取方法[J]. 北京大学学报:自然科学版,2014,50(1):48-54.

[20] Liu B. Sentiment analysis and opinion mining[M]. USA: Morgan & Claypool,2012:1-167.

[21] Guojon B. Text mining for opinion target detection[C]// Proceedings of the 2011 European Intelligence and Security Informatics Conference. Piscataway: IEEE Press,2011:322-326.

[22] Pak A,Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation. Paris: European Language Resources Association,2010:17-23.

[23] Somprasetspi G, Lalitrojwong P. Mining feature-opinion in online customer reviews for opinion summarization[J].Journal of Universal Computer Science,2010,16(6):938-955.

ON APPLYING CHINESE CHUNK PARSING IN SENTIMENT CLASSIFICATION

Du Siqi1Li Honglian1Lü Xueqiang2

1(SchoolofInformationandCommunicationEngineering,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)2(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)

The sentiment analysis of online product reviews plays an important role in decision-making of Internet users’ daily purchase behaviour, therefore, the way to well use fine-grained processing method in improving the accuracy of sentiment analysis becomes a hot research topic. Aiming at this issue, the paper proposes a Chinese chunk parsing-based emotion recognition method. First, it relies on Chinese chunk parsing to make fine-grained processing on car reviews corpus and extracts the emotion labels as well. Then, it combines sentiment words ontology and support vector machine model to classify emotion labels so as to implement the discrimination of emotional orientation. It is demonstrated by experiment that compared with other classification algorithms, the sentiment classification method using Chinese chunk parsing improves the average accuracy by 4%. Therefore the sentiment classification based on Chinese chunk parsing can reduce the input feature dimensions and effectively improve the performance of classifier.

Chinese chunk parsingEmotion labelSentiment words ontologySentiment classification

2015-06-30。国家自然科学基金项目(61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)。杜思奇,硕士生,主研领域:自然语言处理。李红莲,副教授。吕学强,教授。

TP391.1

A

10.3969/j.issn.1000-386x.2016.10.037

猜你喜欢
组块本体标签
横浪作用下大型上部组块双船浮托安装动力响应特性试验研究
眼睛是“本体”
组块理论的解读及启示
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于本体的机械产品工艺知识表示
陆丰7-2油田导管架平台上部组块低位浮托安装关键技术
标签化伤害了谁
科学家的标签
专题