基于关系图卷积神经网络与双注意力的方面级情感分析

2023-12-29 12:23方云龙李卫疆
关键词:句法注意力卷积

方云龙,李卫疆

(1.昆明理工大学 信息工程与自动化学院,昆明 650500;2.昆明理工大学 云南省人工智能重点实验室,昆明 650500)

0 引 言

方面级情感分析是一项细粒度的情感分析任务,目标在于识别出文本中特定方面的情感极性。针对目前网络上复杂的评论文本,方面级情感分析可以识别出用户对于某个具体方面的态度,而不是简单地对整个评论指出一个统一的情感极性。因此,方面级情感分析对于推荐系统,舆情预测等方面具有重要的作用和广阔的应用前景。

方面级情感分析任务的关键在于建模方面词与方面相关的描述间的依赖关系。但是一个句子中可能存在多个方面以及不同方面相关的观点表达。为了确定特定方面的情感极性,研究者提出了多种基于注意力机制的递归神经网络模型[1-5]以提取基于特定方面的句子表示,然而递归神经网络对于长距离特征的学习存在不足,同时注意力机制无法考虑单词间的相对位置信息对于词间关系的影响。

为了进一步提升模型对上下文信息的编码能力,有研究者提出基于句法依存树的图卷积神经网络模型[6]。句法依存树通过句法关系缩短了句子中方面词与相关观点表达间的距离,减少了文本中的噪音,这使得神经网络模型可以更容易捕捉长距离的句法依赖关系。

但是,在近年的研究中所提出的图卷积神经网络模型[7-9]对存在句法连接的单词都赋予相同的权重,忽视了单词间的位置语义关系,可能无法合理地表达不同词对方面词情感极性的重要性,从而误导模型。同时,大多数现有模型只关注图卷积网络最后一层的输出,忽略了浅层图卷积网络中的信息。

基于上述问题,本文提出了一种基于关系图卷积神经网络与双注意力的方面级情感分析模型(relational graph convolution neural network and bidirectional attention,RGBA)。主要贡献如下。

1)提出关系图卷积网络,通过关系感知注意力综合考虑语义信息与词的相对位置信息计算词间的位置语义关系,联合句法依存树,使用图卷积神经网络进行情感分析。

2)本文提出了双注意力机制,使用上下文对方面的注意力机制融合不同图卷积层的输出,使用方面对上下文的注意力机制提取基于方面的上下文表示。

1 相关工作

相较于句子级或是文档级的情感分析,方面级情感分析是更加细粒度的情感分析任务。方面级情感分析的方法可以分为传统方法与深度学习方法。传统方法通常使用基于手工标记特征的机器学习方法。Kiritchenko等[10]通过内部的序列标注检测方面词,并使用支持向量机(support vector machine,SVM)提取对方面词的情感信息。由于传统方法人工构造特征效率低下,并且无法对上下文特征与方面词间的依赖关系进行建模,研究者的关注点迁移到了深度学习方法。

Tang等[11]提出了用于方面级情感分析的递归神经网络模型,将方面词与方面词之前和之后的上下文连接,使用2个长短期记忆网络(long short-term memory,LSTM)分别建模进行情感分类。方面级情感分析的关键在于识别出上下文与方面词之间的语义相关性,通过注意力机制,可以有效获取与方面相关的上下文信息,因此,将注意力机制应用于模型中可以明显提高模型的分类性能。Wang等[1]提出了基于注意力的递归神经网络,通过计算方面词嵌入对句子不同部分的权重,使模型关注与方面相关的部分。Ren等[12]提出了一种基于门控卷积神经网络的方面级情感分析模型,通过多层的门控卷积网络提取感知方面的上下文信息,使用注意力机制获取方面与上下文的隐式表达进行情感分类。Wu等[13]使用卷积神经网络获取方面与上下文信息,然后使用残差注意力机制获取方面与上下文的交互信息。Tang等[14]使用词向量构建的外部记忆进行注意力学习辅助情感分类。Song等[15]结合注意力机制与多道卷积机制进行情感分类。但传统的基于注意力机制的模型中忽略了句法结构对语义的影响。Dong等[16]提出了一种句法增强的递归神经网络,可以沿句法依赖树自适应地将句子中单词的情感传递给方面词。NGUYEN等[17]引入了一种基于句法信息的注意力模型,该模型结合了句法信息来计算注意力权重。Phan等[18]利用句法相对距离来减少无关词的影响。

最近的研究使用基于图卷积神经网络[19](graph convolution neural network,GCN)的模型来解决文本分类问题,图卷积神经网络可以有效地处理包含丰富信息的图数据,捕捉节点之间的关系。Yao等[20]将图卷积神经网络引入情感分类任务,使用单词共现和文档-单词关系构建文本图,然后使用图卷积神经网络进行情感分类;随后Zhang等[6]与Sun等[21]提出在句法依存树上使用GCN,以利用远程的句法信息。Zhang等[7]提出了结合词汇图与句法图的图卷积神经网络,让词汇图与句法图协作进行情感分类。Xiao等[8]使用图卷积神经网络获取句法信息,通过注意力机制融合语法信息,语义信息及其交互信息进行情感分类。XIAO等[9]通过图卷积神经网络获取基于句法依存树的局部信息和基于单词文档图全局信息,结合局部信息和全局信息进行情感分类。Zhao等[22]使用结点的子相关性聚合结点特征,然后使用注意力机制进行情感分类。

但这些模型侧重于使用依存树的结构构建句法图,平等地对待图中的边,这可能导致单词通过图卷积网络的迭代将语法不相关的词与方面词关联,从而导致错误的分类结果。同时,这些模型只使用图卷积网络的最后一层输出,忽略了浅层图神经网络中的信息

图1 模型框架Fig.1 Model framework

2 模型

基于关系图卷积神经网络的方面级情感分析模型由输入层、嵌入层、关系图卷积层、双注意力层和分类层组成,如图1所示。输入层将评论文本和方面词映射为词向量;嵌入层通过双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)网络将输入的词向量转化为上下文感知的词嵌入;关系图卷积网络层首先使用关系感知注意力机制得到单词间的关系图,然后结合句法依存树使用图卷积神经网络提取信息;双注意力层使用双注意力机制融合层图卷积网络不同层的输出,获取方面与上下文的交互信息,得到最终的上下文表示和最终的方面表示;分类层结合最终上下文表示和最终方面表示,使用分类函数进行情感分类。

2.1 输入层

无监督的词表征方法广泛地应用于自然语言处理任务,可以把一个单词表示成一个由实数组成的向量,向量可以捕捉单词之间的一些语义特性。

2.2 嵌入层

BiLSTM可以通过单词序列上的依赖关系,将上下文信息集成到单词嵌入中。本文使用BiLSTM获取带有上下文信息的单词嵌入。

(1)

(2)

(3)

2.3 关系图卷积网络层

2.3.1 关系感知注意力

在方面级情感分析任务中,注意力机制有助于模型关注与方面相关的上下文,在减少计算量的同时,大大减少了文本中的噪音。但普通的注意力机制[24]忽略了相对位置信息对于单词间关系的影响,由此,本文使用关系感知注意力(relation aware attention,RA)[25]综合考虑单词的语义信息和相对位置信息来计算单词间的注意力权重。

对于输入序列,使用一组向量表示单词前后的位置信息,同时假定过于遥远的精确位置信息对于模型没有帮助,本文设置最大剪切距离k,只考虑距离目标词k以内的位置信息。所以,2k+1个相对位置表示为

(4)

(5)

clip(x,k)=max(-k,min(x,k))

(6)

(5)—(6)式中,clip(j-i,k)表示以最大剪切距离k修剪后单词xi与单词xj间的相对位置。

图2 单词间的相对位置信息表示Fig.2 Representation of relative position information between words

所有xi和xj间的关系权重计算公式为

(7)

2.3.2 关系图卷积神经网络

方面级情感分析任务的关键在于建模上下文与方面词之间的关系,而文本中的句法依存关系可以有效地缩短方面词与观点词之间的距离。因此,在模型中引入句法依存树可以有效地提升模型的性能。融合句法依存树的关系图卷积网络结构如图3所示。

句法依存树可以看作一个有n个结点的图G,其中结点表示句子中的单词,边表示单词间的句法依赖关系。本文使用n×n的邻接矩阵A表示句法依存树,如果结点i与结点j间存在句法关系,则Ai,j=1,否则Ai,j=0。

本文使用Spcay工具获得文本的句法依存树,如图4所示。结合关系感知注意力计算的词间权重,使用图卷积神经网络获得关系图卷积网络层的输出,第l层图卷积网络的单词结点的更新公式为

(8)

(9)

图4 依存句法树示例Fig.4 Example of dependency syntax tree

将方面词在每一层图卷积网络的输出平均池化后拼接作为关系图卷积层的输出,表达式为

(10)

(11)

(11)式中,f(·)表示平均池化。

2.4 双注意力层

本文在模型中采用了双注意力机制(bidirectional attention,BA)提取上下文与方面词间的交互信息。使用上下文对方面的注意力机制根据上下文融合关系图卷积网络输出的方面表示,然后基于新的方面表示,使用方面对上下文的注意力机制获取基于方面的上下文表示。

2.4.1 上下文对方面的注意力

上下文对方面词的注意力首先通过平均池化嵌入层的输出得到上下文信息,然后使用上下文信息为不同层的图卷积层的输出赋予不同的权重,计算公式为

(12)

vc2a=(hc)TWc2ahG

(13)

hc=pooling(ht)

(14)

(12)式中,Wc2a为注意力权重矩阵。

最后使用权重融合方面信息,得到新的方面表示为

(15)

2.4.2 方面对上下文的注意力

方面对上下文的注意力使用新的方面表示计算上下文对方面词的贡献,得到基于方面的上下文表示为

(16)

(17)

va2c=(Ra)TWa2cht

(18)

(18)式中,Wa2c为注意力权重矩阵。

2.5 分类层

分类层结合方面表示与上下文表示得到最终的特征向量,表达式为

Rf=Rc+ReLU(Wca(Rc;Ra))

(19)

(19)式中,Wca为权重矩阵。

使用最终的特征向量表示进行情感分类,表达式为

p=softmax(WfRf+bf)

(20)

(20)式中:p为情感极性的分布;Wf和bf为分类层的权重和偏置。

最后,模型使用交叉熵损失函数进行训练,表达式为

(21)

(21)式中:C为情感类别集;D为训练样本集;p为模型预测的情感类别;y为实际类别,使用系数为λ的二范数作为正则化项;θ为模型需要训练的参数。

3 实 验

3.1 数据集

本文选用semval14数据集[10]和twitter数据集[16]进行实验评估,情感极性包含积极、消极和中性。其中,semval14数据集包含了restaurant和laptop两个领域的用户评论文本,twitter包含社交领域的数据。与先前的工作类似,本文移除了数据集中存在冲突极性或是没有明确方面的样本。数据集的信息如表1所示。

表1 实验数据集统计Tab.1 Experimental data set statistics

3.2 评价指标

本文的评价指标选择了准确率(Acc)和F1值作为模型的评价指标。计算公式为

(22)

(23)

(24)

(25)

(22)—(24)式中,TTP、TTN分别表示模型正确预测积极、中性和消极情感的样本数;FFP、FFN分别表示模型错误预测积极、中性和消极情感的样本数。

3.3 Baseline模型

为了评估RGBA模型的性能,将其与目前比较优秀的模型进行对比。

1)基于目标的LSTM网络[16](target-dependent LSTM,TD-LSTM)。将方面词与方面词之前和之后的上下文连接,使用2个LSTM分别建模,得到最终表示。

2)使用方面嵌入的基于注意力的LSTM网络[1](attention-based LSTM with Aspect Embedding,ATAE-LSTM)。使用方面词嵌入与注意力机制获得方面相关的上下文表示进行情感分类。

3)深度记忆网络[14](deep memory network,MemNet)。通过上下文信息获取memory,通过注意力机制获得对方面词重要的信息。

4)交互注意力网络[2](interactive attention network,IAN)。使用2个LSTM网络分别提取上下文与方面嵌入,使用一个交互式注意力机制生成方面与句子特征。

5)循环注意力网络[3](recurrent attention network,RAM)。使用双向 LSTM 的隐藏层构建位置加权记忆,利用多注意力机制获取远距离的情感特征。

6)语义感知与精化网络[15](semantics perception and refinement network,SPRN)。使用注意力机制获得上下文信息和方面信息,通过多道卷积和细化门提取基于方面的语义特征。

7)特定方面的GCN网络[6](aspect-specific GCN,AsGCN)。首次提出在方面级情感分析上使用GCN网络。

8)依存树卷积网络[21](convolution over dependency tree,CDT)。使用在基于依赖树的GCN网络提取方面相关表示。

9)双层GCN网络[7](bi-level GCN,BiGCN)。结合层次句法图和词汇图,并使用双层交互式图卷积神经网络提取隐藏表示进行情感分类。

10)聚合GCN网络[22](aggregated GCN,AGCN)。在非直接邻接的结点间构造子依赖,使用聚合图卷积神经网络根据结点的邻接和子邻接特征获取方面的情感极性。

3.4 参数设置

本文使用的预训练的300维词嵌入GloVe[26]初始化单词嵌入,词性嵌入维度为30,位置信息嵌入维度为30。对于RGBA-Bert,模型使用BERT[27]预训练模型的输出的768维向量作为词嵌入。

模型中关系图卷积网络层数设置为2,最大剪切距离设置为10。模型使用Adam优化器,学习率设置为0.003。同时,与先前的工作[6]类似,为了防止过拟合,输入层的dropout设置为0.7。

3.5 实验结果与分析

实验目的是验证关系感知注意力和双注意力机制能够提升模型的效果,使用准确率(Acc)、F1值作为评价指标。

实验在搭载Intel(R) Core(TM) i7-8750H CPU处理器和2070sGPU,显存为8 Gyte的服务器上进行。软件环境为windows10操作系统,python3.7.1开发平台,基于pytorch深度学习框架。3个数据集上的测试结果如表2所示,下划线表示的数据为最佳结果。除RGBA-Bert外均使用预训练的300维GloVe词向量进行文本表示。

从表2的实验结果可以看出,TD-LSTM的效果最差,由于它只是使用2个方向的LSTM建模上下文关系而没有充分考虑上下文与方面间的关系。ATAE-LSTM,MemNet,IAN,RAM,SPRN使用注意力机制改进模型,获得与方面相关的表示进行情感分类,有效提升了模型性能。AsGCN,CDT,BiGCN,AGCN使用GCN提取文本的句法结构信息辅助情感分类,相较于只使用注意力机制的模型获得了明显的提升。

与对比模型相比,本文提出的RGBA模型在3个数据集上均得到最好结果。RGBA模型的准确率分别达到了83.38%、77.22%、74.59%,与Baseline中最好的结果分别提高了1.08%、1.59%、0.43%。与融合注意力的模型相比,在“Restaurant”数据集上,Acc提高3.06%,F1提高6.33%;在“Laptop”数据集上,Acc提高3.06%,F1提高3.65%;在“Twitter”数据集上,Acc提高4.51%, F1提高3.85%;与融合GCN的模型相比,在“Restaurant”数据集上Acc和F1分别提升了1.08%,3.2%;在“Laptop”数据集上Acc和F1分别提升了1.59%和1.60%;在“Twitter”数据集上Acc和F1分别提升了0.43%和0.40%。此外,RGBA-Bert在所有数据集上均取得了最好的效果,这证明了Bert模型相较于GloVe的优势,但使用Bert模型的训练和预测需要花费更多的时间,占用大量的内存和计算资源。

本文在不同数据集上与不同模型进行比较,验证了关系图卷积神经网络和双注意力机制能够提升情感分类模型的性能。

表2 实验结果的对比Tab.2 Comparison of experimental results

3.6 最大剪切距离K对模型的影响

为了研究最大剪切距离对模型性能的影响,本文在3个数据集上验证了K为0到9的RGBA模型,其中,K为0表示模型使用普通注意力机制,不考虑相对位置信息。K值的实验结果如图5所示,在3个数据集中,在K取0时,模型性能最差,随着K的增大,模型性能逐渐增强,这验证了相对位置信息的加入可以改善模型的性能;当K超过一定值时,K增大,模型性能变化不大,这说明过于遥远的相对位置信息对于模型的性能影响不大。

图5 K值的实验结果Fig.5 K value experiment results

3.7 图卷积神经网络层数对模型的影响

本文评估了图卷积神经网络层数L对模型性能的影响,并在3个数据集中进行了实验验证。不同图卷积网络层L的实验结果如图6所示。在3个数据集上,随着层数的提高,模型性能在一定程度提高,在Restaurant数据集中L取8时性能最好,在Laptop数据集中,L取4时性能最好,在Twitter数据集中,L取4时性能最好。而当L过大时,模型的训练变得困难,模型的性能变得不稳定。

图6 不同图卷积网络层数实验结果Fig.6 experimental results of different graph convolution network layers

3.8 消融实验

为了验证RGBA模型各部分对模型性能的影响,本文进行了消融实验。RGBA w/o RA使用普通的图卷积网络替代关系图卷积网络;RGBA w/o BA不使用双注意力层,直接平均池化图卷积网络的输出进行情感分类。

3个数据集的实验结果如表3所示。RGBA模型在Restaurant,Laptop,Twitter数据集上的准确率和F1值均高于对照模型,关系感知注意力与双注意力机制的加入可以有效地提升模型的性能。

表3 消融实验结果Tab.3 Ablation experimental results

3.9 注意力可视化

为了验证关系感知注意力对模型的影响,本文还对RGBA模型和RGBA w/o RA模型对于同一个句子的注意力权重进行了可视化。注意力可视化对比如图7所示。句子选自‘restaurant’数据集,方面词‘service’的情感标签为消极, RGBA w/o RA预测结果为中性,RGBA预测结果为消极。图7中颜色越深表示其注意力权重越大。RGBA w/o RA的注意力分布在情感描述词‘ok’和‘slow’上,导致了错误的分类结果,而在RGBA模型中,注意力主要都集中在情感描述词‘slow’上,得到了正确的情感极性。这表明相比于普通的图卷积网络,关系图卷积网络可以更有效地使用依存关系,得到更合理的结果。普通的图卷积网络对有连接的单词使用了相同的权重,随着图卷积神经网络的迭代,不相关的单词可能错误地传导到方面词,从而影响模型的性能。而关系图卷积网络使用位置语义关系补充图卷积网络,得到了更好的效果。

图7 注意力可视化对比Fig.7 Visual comparison of attention

4 结束语

本文提出了RGBA模型,利用关系感知注意力结合词义信息与词相对位置信息增强图卷积神经网络,使用双注意力机制融合图卷积神经网络的输出,联合方面表示与上下文表示进行情感分析,能够有效提升模型的分类效果。今后将在2个方面继续开展研究:①基于句法解析的方法提取的文本结构对于复杂的、口语化的文本不适用,使用基于注意力机制的方法提取文本结构是下一步要解决的问题;②知识图谱可以提供文本的背景知识和语言知识,考虑联合知识图谱优化情感分类模型。

猜你喜欢
句法注意力卷积
让注意力“飞”回来
句法与句意(外一篇)
基于3D-Winograd的快速卷积算法设计及FPGA实现
述谓结构与英语句法配置
从滤波器理解卷积
句法二题
基于傅里叶域卷积表示的目标跟踪算法
诗词联句句法梳理
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things