面向方面级情感分析的多视图表示模型

2024-03-12 08:58徐学锋
计算机工程与应用 2024年5期
关键词:句法注意力语义

徐学锋,韩 虎

兰州交通大学电子与信息工程学院,兰州 730070

情感分析是自然语言处理中的一项重要任务,主要是分析主观性文本的情感倾向。方面级情感分析(aspect based sentiment analysis,ABSA)旨在识别句子中出现的某一特定方面的情感极性(例如,消极、中性或积极)。以评论“The drinks are always well made and wine selection is fairly priced.”为例,给定句子中包含两个方面“drinks”和“wine selection”,所对应的情感极性分别是积极和消极。

近年来,深度学习在情感分析领域取得了令人瞩目的成功,其中基于长短期记忆(long short-term memory,LSTM)[1]、基于卷积神经网络(convolutional neural network,CNN)[2-3]和基于记忆网络[4]等是解决情感分析任务的主流模型。上述模型仅从句子的上下文序列中捕获信息,忽略了单词间的句法关系,对于句子“food was okay,nothing special.”“food”很容易关注到观点词“okay”,难以学习到距离方面较远观点词“nothing special”所携带的情感信息。为了解决长距离单词依赖问题,利用基于图神经网络(graph neural network,GNN)的模型整合句子的句法结构[5-6],能够更好地捕捉句子的全局信息,比不考虑句法关系的模型具有更好的性能。在句法依存树中,方面词“food”同时关注到观点词“okay”和“nothing special”,如果没有正确利用方面词与观点词间依赖关系,通过图卷积操作之后会导致关键信息丢失,无法充分发挥句法结构的影响。尽管基于句法的方法很有效,但忽略了语料库级别的词共现信息,“nothing special”在SemEval 2014 数据集中以非正极性出现四次,模型应当能够通过其全局信息对抗观点词“okay”的正极性,以做出正确的预测。任何没有充分利用句法和词共现信息的模型,都会导致最后分类器对句子中特定方面的情感趋向产生错误判断。

目前融合句法信息和语义信息进行情感分类的复合方法,仅考虑句法与语义层面的信息交互,导致了最终的句子表示中缺少原始的上下文信息。此外,句法和语义信息是上下文特征的补充,融合模块直接将句子的不同表示进行拼接,难以利用他们之间的互补性,忽略各自局部特征的相互影响。受到上述启发,为充分利用句法依赖和词共现信息增强评论语句的特征表示,本文提出了融合多视图表示的图卷积网络模型(integrated multi-view representation graph convolutional network,ⅠMR-GCN),通过自注意力和特定方面注意力,获取到基于上下文的表示,联合句法与语义层面以增强句子的最终表示,并考虑一种局部和全局融合策略,逐步使得各分支的特征表示能够相互受益。本文的主要贡献如下:

(1)提出了一种融合多视图表示的图卷积网络模型,该模型利用上下文信息、句法依赖信息和词共现信息,通过图卷积和注意力操作,分别获得评论语句基于上下文、基于句法和基于语义的三视图表示。

(2)设计了一种分层融合方式,通过对三种表示的不同组合与卷积操作以实现不同视图之间信息的共享与互补,完成局部到全局的整合。

(3)本文在5 个公开数据集上评估模型的性能,实验结果表明,该模型对不同数据集的准确率(accuracy,Acc)与宏平均F1值(Macro-F1,MF1)有所提升,并进一步证明了融合句法依存信息与词共现信息对模型的重要性。

1 相关工作

1.1 方面级情感分析

近几年,针对方面级情感分析的研究越来越多,国内外学者都集中于使用各种类型的深度学习模型来解决问题。基于神经网络的深度学习通常利用词向量模型将文本转化为实体向量,接着构建神经网络模型并加以训练,从而得到文本的情感趋向。

Tang等人[7]提出了基于目标依存的长短期记忆网络(target-dependent long short-term memory,TD-LSTM)模型,使用两个LSTM分别对方面词的左右两侧的文本进行建模。然而,单纯基于神经网络的方法不能有效地区分句子中每个单词的重要程度,而且句子的情感极性不仅由内容决定,还与所涉及的方面密切相关。Wang等人[8]提出一种基于注意力机制的特定目标情感分类模型,该模型通过注意力加权操作捕捉上下文中不同词对特定目标的影响,从而识别句子中不同目标的情感极性。Ma 等人[9]提出了一种交互注意力神经网络(interactive attention networks,ⅠAN)模型,基于不同的注意力网络处理上下文和方面词,获得句子和方面的隐藏特征信息,使得两者的联系更紧密。自此,基于注意力机制的混合神经网络模型广泛应用于情感分类任务中。虽然注意力机制有助于模型关注句子中的不同部分,但这类方法仅针对句子的序列信息,难以捕捉词语和句子中方面之间的句法依赖关系。

为了充分利用句法依存信息,Zhang 等人[10]使用图卷积网络(graph convolutional network,GCN)从句法依存树获取句子中的语法依赖信息,将学习到的节点表示结合注意力机制获得更好的句子表示,从而识别方面所对应的情感极性。随后,众多学者利用图卷积网络处理非结构化数据的优势,对方面级情感分析任务进行深入研究。Hou 等人[11]设计了一种基于选择性注意力的GCN 模型(selective attention graph convolutional networks,SA-GCN)来处理方面词与观点词在依赖树上相距较远的情况,根据相关的上下文直接从观点词中获取信息。Liang等人[12]利用面向方面和方面间的句法依赖关系,提出了一种具有交互式图卷积网络(interactive graph convolutional networks,Ⅰnter-GCN)的图感知模型,通过不同句法关系的不同连接权重丰富了关键方面的上下文句法依赖表示和不同方面之间的相互情感关系。

目前,还有学者提出了语义和语法层面对句子的隐藏特征进行整合,使得文本中不同节点信息之间进行充分的交互,这能够进一步提高工作性能。Zhang 等人[13]致力于融合层次句法信息和局部词汇语义信息,通过两层的融合模块和门控机制分别处理图中功能不同的关系类型。Wang 等人[14]设计了一个关系图注意网络(relational graph attention network,R-GAT),利用多头注意机制学习邻域节点的语义信息,并添加了额外的关系头来捕获不同上下文之间的语法关系。

1.2 注意力机制

注意力机制(attention mechanism)[15]作为一种资源分配方案,将有限计算资源用来处理更重要的信息。为了使得神经网络模型可以准确捕捉文本或语句中的关键情感词,注意力机制常被应用于情感分析任务中。针对细粒度的情感分析任务,Liu 等人[16]使用注意力机制从隐藏状态向量中提取语法和位置两个层面的邻域特征,以判断句子的情感极性。Zhang 等人[17]提出了一种结合自注意力的方面感知注意力机制,以获得句子的注意力权重矩阵,使得模型能够学习到与方面相关的语义信息,还包含整个句子的全局语义。注意力机制不仅可以提高重要词汇的权重,还能捕捉深层语义信息并融合多种特征信息。

在本文捕获句子级文本的三种特征表示中,假设Ri表示通过放缩点积注意力得到的句子特征表示,其计算如下:

其中,表示第i个句子中第j个单词的重要程度,表示第j个LSTM 的隐藏状态向量。注意力权重的计算如式(2)所示:

假设,g()· 是计算单词重要性的函数,具体如下:

其中,V是参数向量,Wh是参数矩阵,bh是偏置项。

1.3 句法依赖树

句法依存分析旨在揭示语言的内部依赖关系,使用依赖解析器将一个句子转化为图形结构,清晰地展现出词与词之间的逻辑关系。受文献[10]影响,通过句子中的句法依赖信息补充句子的表示,避免给定的方面错误地将句法不相关的词语作为描述,逐渐成为目前针对方面情感分析的一种有效手段。Tang 等人[18]认为句法信息和方面之间的信息交互至关重要,利用图卷积网络学习获得句法依赖信息,并使用注意力机制将句法特征与上下文信息交互以获得语义信息。Wu和施荣华等人[19-20]通过融合句法信息的图神经网络处理文本特征,同时加强文本中不同节点信息之间的交互,从而提高文本情感分析的准确性。

本文通过spaCy 文本处理库中的依存解析器构建句子的句法依赖树,以“The drinks are always well made and wine selection is fairly priced.”为例,其句法依赖树结构如图1所示。其中,红色字体表示方面术语,黄色字体表示观点词。方面术语“drinks”通过依赖关系“nsubj”“acomp”和“advmod”关注到对应的观点词“well made”,方面术语“wine selection”通过相应的依赖关系关注到观点词“fairly priced”。

图1 句法依赖树Fig.1 Syntactic dependency tree

1.4 词共现矩阵

共现矩阵遵循的基本原理是:类似的词往往出现在一起,并且会有类似的上下文。通过统计整个语料库中所有单词共现的频率所构建的全局词法图(global lexical graph,GLG)能够反映隐含的语义信息,同时建模一个词和其余单词的关系。

常见词向量模型GloVe[21]与word2vec[22],都是根据词汇的一块出现的频率,即单词的共现信息,将语料编码成一个向量。其中word2vec 是基于预测的模型,根据上下文来预测中间的词汇,或者根据中间的词汇预测上下文,而GloVe 是基于计数的模型,通过对全局共现矩阵进行降维,从而使得最终的表示中具有语料级的全局统计特征。Dai等人[23]也考虑将词共现信息作为结构性语义,设计了一种双通道语义学习图卷积网络来提高细粒度情感分析的模型性能。

本文使用的词共现矩阵,主要通过以下两个步骤获取:第一步,构建全局词法图GLG,其中每个节点表示语料库中的一个单词,每条边表示两个单词之间的共现频率。首先,根据语料库中所有不重复单词构成词表,然后依次计算每个单词与上下文在窗口中同时出现的频数,得到存储各个单词共现次数的全局共现矩阵,如式(4)所示:

其中,Countert(wi,wj)表示语料库中单词wi和单词wj同时出现的次数,τ代表该语料库包含单词wi和单词wj的句子数量。

第二步,为每个句子构建一个局部词汇图(local lexical graph,LLG),其大小是对应句子长度,通过遍历将全局词法图GLG中的单词分布信息转换为局部词汇图LLG,利用局部共现矩阵C存储句子的共现信息,其中两个相同单词之间具有相同的共现概率。

2 提出模型

给定包含n个单词的句子S={w1,w2,…,wa+1,…,wa+m,…,wn-1,wn} ,其中,长度为m的方面项a={wa+1,wa+2,…,wa+m} ,即方面项a是句子S的一个子序列。方面级情感分析旨在预测句子S中特定方面a的情感极性y={-1,0,1} ,其中,-1,0,1 分别表示消极、中性和积极。

本文提出的ⅠMR-GCN 模型架构如图2 所示,模型从多个视图学习特征表示,即包含上下文、句法和语义三个分支。具体而言,上下文和句法分支分别从预先训练的单词嵌入中提取句子的语境和句法特征,并明确地建立句子中的方面和观点词之间的相关性。其次,语义分支通过引入语料的词汇图进行建模,将词共现信息融入所学习的语义特征中。最后,通过层级融合模块将学习到的多视图表示进行协同融合。

图2 ⅠMR-GCN模型结构示意图Fig.2 Model structure diagram of ⅠMR-GCN

2.1 基于上下文的表示

2.1.1 词嵌入与隐藏层

首先使用嵌入矩阵E∈ℝ|V|×de获得每个单词对应的词嵌入向量,其中 |V|和de分别表示词表的大小和词嵌入的维度。本文采用GloVe[21]嵌入模型和BERT[24]预训练语言模型,将句子S和方面a进行映射处理,使其转换为词嵌入向量X={x1,x2,…,xa+1,…,xa+m,…,xn-1,xn},xi∈ℝde。然后将初始化后的单词向量输入到Bi-LSTM 中,将经过前向LSTM 输出与后向LSTM 输出的特征表示进行拼接,H={h1,h2,…,ha+1,…,ha+m,…,hn-1,hn},hi∈ℝ2dh是隐藏状态向量,其中dh表示单向LSTM输出的隐藏状态向量维度,Ha={ha+1,…,ha+m}是方面隐藏状态向量。

2.1.2 注意力层

为了捕获特定方面的上下文特征,本文引入了两种注意力机制来实现。首先,通过自注意力机制充分学习上下文中的长距离依赖关系,然后使用方面感知的注意力机制,给方面和上下文分配合理的注意力权重,再利用加权聚合操作得到特定方面的上下文表示Rc。

2.2 基于句法的表示

在句法分支中,利用句子中明确的句法信息学习对应的句法感知表示,记作Rd。需要注意的是,在上下文、句法和语义三个分支中均共享单词嵌入和Bi-LSTM的参数,以减少模型参数量。

2.2.1 图卷积网络层

基于方面的情感分类旨在从方面的角度判断情感,因此,需要一种面向方面的特征提取策略。本文在句法依赖树上应用多层图卷积,再经过特定方面的掩蔽层获得面向方面的特征。

对于图G={V,}A,使用图卷积运算更新每个节点的表示,如式(5)所示。这里值得注意的是,本文并没有直接将输入连续GCN层,每层网络输出都通过位置编码处理,用以消除句法依存分析带来的噪声。利用式(6)计算句子中单词间的位置距离特征pi,以增强距离方面词较近的单词信息,减弱距离较远的信息。然后利用位置权重函数F(·)将位置距离特征融入每层图卷积网络的输出向量中,如式(7)所示。

其中,A是通过句法依存分析获得的邻接矩阵,di=是依赖树中第i个单词节点的度。hli是第l层节点vi的网络输出,表示前一层图卷积网络输出结果,Wl和bl分别是权重矩阵和偏置项。

其中,pi是第i个单词的位置权重,a+1 和a+m分别是方面项开始和结束的位置。第L层GCN 的输出为hL,如式(8)所示:

2.2.2 特定方面的掩蔽层

本文屏蔽了非方面词的隐藏状态向量,并保持方面词的向量不变,如式(9)所示,经过掩蔽层的操作保留方面的特征信息,其输出如式(10)所示:

2.2.3 基于方面注意力层

本文通过图卷积网络捕获方面周围的上下文信息,考虑了句法依赖关系和长距离依赖关系。但为了最终的表示能够充分包含方面的特征信息,使用注意力机制将经过Bi-LSTM的隐藏状态向量H与方面特征掩蔽后的方面词之间进行交互,从而在句法上建立方面词和相关观点词之间的联系,利用式(11)~式(13)得到基于句法的表示Rd。

2.3 基于语义的表示

语义信息和句法信息对于句子的表语义信息和句法信息对于句子的表示学习是相互增强的[25]。在基于上下文的分支中,虽然能够捕获特定方面的上下文语义信息,但忽略了语料库级别的结构性语义信息。为了充分学习单词的共现信息,基于语义的分支也使用与句法分支相同的图卷积捕捉方式,将网络的输出结果经过注意力机制实现语义交互,得到语义感知的表示,记作Rs。

2.3.1 图卷积网络层

与基于句法的表示分支结构类似,通过多层图卷积捕捉存在于单词共现矩阵中的隐含语义,同样利用特定方面的掩蔽层,获得面向方面的结构语义特征。

对三个分支中共享的Bi-LSTM 层输出的隐藏状态向量H进行式(6)的多层图卷积操作,学习句子上下文和语料库中单词的语义特征,其中,需要将式(6)中基于句法依赖树的邻接矩阵A替换为单词的局部共现矩阵C,第L层图卷积网络的输出结果h͂L。

2.3.2 语义交互层

为了在语义上建立方面词和相关观点词之间的联系,使用注意力机制将经过Bi-LSTM 获取的隐藏状态向量H与掩蔽操作后的方面词向量之间进行交互,基于语义的表示Rs由式(14)~式(16)得出:

2.4 融合表示层

简单拼接上述三个不同分支所得到的特定方面的句子表示,会导致输出层待分类的信息过多,无法有效地提高性能。本文采用层级融合的表示方法充分利用三个分支中捕捉的信息,使得各个分支之间可以相互借鉴、取长补短,如图3所示。

图3 层级融合模块示意图Fig.3 Ⅰllustration of hierarchical fusion module

首先,第一层的融合机制是将三个分支的表示两两拼接成新的向量,即[Rd,Rc] 、[Rc,Rs] 和[Rd,Rs] ,融合后的表示输入到三个独立的全连接网络中,以便获得预测的情感特征表示Rdc,Rcs,Rds。

由于卷积网络只需对数据的局部信息进行感知,就能够得到全局的特征信息。第二层的融合利用一维卷积,使得上下文可以更好地与语义信息和语法信息相结合,从而获得最终的表示Rfinal。

2.5 输出层

本文将获得的最终表示Rfinal输入到全连接层,最后通过softmax进行分类输出:

其中,p为情感极性决策空间,Wp和bp分别是权重参数和偏置项。

采用Adam 算法和L2正则化优化情感分类,使用交叉熵损失函数对该任务进行训练:

其中,y∈Rdp为真实标签分布,dp是情感分类的极性维数,pi为预测的第i个元素极性分布,λ是L2正则化系数。

3 实验

3.1 实验数据

为了验证本文模型的有效性,本文在5个公开的数据集上进行了实验,分别是ACL14 Twitter[26]、SemEval 2014[27]、SemEval 2015[28]、SemEval 2016[29]。为了避免数据集中隐含噪声的影响,移除其中存在极性冲突或者句子中没有明确方面的样本,训练和测试实例的数据量如表1所示。

表1 数据集统计Table 1 Dataset statistics

3.2 参数设置与评价指标

本文实验中采用300维的预训练GloVe初始化词嵌入,单向LSTM 输出的隐藏状态维度设置为300,使用BERT预训练模型时,隐藏状态维度为768。模型中的权重采用满足均匀分布进行初始化,GCN的层数设置为2,此时模型的性能表现最好。模型的超参数如表2所示。

表2 模型的超参数设置Table 2 Hyperparameters setting of model

模型采用准确率(accuracy,Acc)与宏平均F1 值(Macro-F1,MF1)等作为评价指标。对于单个类别,设TP 表示正确预测的样本,FP 表示其他类别被预测为当前类别的样本,FN 表示当前类别被错误预测为其他类别的样本,则精准率(precision,P)、召回率(recall,R)和F1值的计算公式为:

利用式(22)、(23)计算多个类别的准确率Acc与宏平均MF1:

3.3 对比实验

为了全面评估本文的模型,将其与一系列基准模型进行比较,各个模型简介如下所示。

LSTM[7]:使用单个LSTM 进行上下文编码,将最后一层隐藏状态向量作为最终分类特征输出。

ATAE-LSTM[8]:引入注意力机制,通过注意力权重分配强化特定目标的上下文表示。

MemNet[4]:将深度记忆网络与多层注意力结合,以计算上下文单词对某个方面的重要性。

ⅠAN[9]:提出方面与上下文具有交互性,利用交互注意力网络有效建模方面与上下文间关系。

AF-LSTM[30]:提出一种融合方面的LSTM 模型,编码方面和上下文之间的关系得到联合表示,使得注意力层专注于学习上下文的相对重要性。

TD-GAT[5]:设计一种面向属性层次的目标依赖图注意力网络,以充分利用句子的句法依赖关系。

ASGCN[10]:一种针对特定方面的情感分类框架,通过句法依赖树加权的图卷积操作学习到句法信息和长距离单词依赖关系。

Bi-GCN[13]:设计了双层交互式图卷积网络模型,联合建模层次句法图和词法图集成的词共现信息和句法依赖信息,获得更丰富的特征表示。

MⅠGCN[31]:通过多交互图卷积对语法与语义特征进行融合操作,利用语义信息补充句法结构,解决依赖解析不准确的问题。

SK-GCN-BERT[32]:通过灵活的图卷积神经网络(GCN)来建模句法依赖树和常识知识图谱,使得句子基于语法和知识的方面表示充分融合。

DGEDT-BERT[33]:设计了通过依赖树增强的双通道transformer网络结构,以迭代交互方式联合学习基于平面的表示和基于图的表示。

3.4 实验结果与分析

本文进行了四组对比实验,如表3所示。

表3 不同模型的结果对比Table 3 Comparison of results of different models单位:%

第一组(基线模型)主要包括基于LSTM 和注意力结合的各种建模方法(LSTM、ATAE-LSTM、MemNet、ⅠAN 和AF-LSTM),相比于仅使用LSTM 构建的模型,ⅠMR-GCN在5个数据集上的准确率与宏F1分别平均提升了4.99个百分点和8.05个百分点,并在Rest14数据集上表示尤其突出,准确率与宏F1 分别提升了7.48 个百分点和10.10 个百分点,证明对句法和语义结构进行联合建模的有效性。

第二组(GCN 模型)是在建模上下文信息的基础上,通过引入GCN 整合文本的各类结构信息建立的模型(TD-GAT、ASGCN、Bi-GCN、MⅠGCN),相比于GCN的基准模型ASGCN,ⅠMR-GCN 在5 个数据集上的准确率与宏F1分别平均提升了1.75个百分点和2.94个百分点,表明共现语义和上下文信息与句法信息集成有利于识别方面的情感极性。总体来看,基于GCN 构建的各类模型的整体性能要优于基于LSTM 和注意力结合的各种方法。

第三组则是对比最新基于GCN 的模型Bi-GCN 和MⅠGCN,本文模型ⅠMR-GCN 在5 个数据集上的准确率均有不同程度提升,其中,相比于BiGCN准确率平均提升了1.07 个百分点,相比于采用多交互机制的MⅠGCN平均提升了0.71 个百分点,证明了本文分层融合上下文、句法和语义三种特征信息的必要性。

第四组是使用了BERT预训练语言模型,整体上显著提高了本文模型ⅠMR-GCN-BERT 的准确性,相较于SK-GCN-BERT 和DGEDT-BERT 模型,本文模型在Lap14、Rest15和Rest16数据集上的表现更加优异。SKGCN-BERT 通过外部知识的引入,解决Twitter 数据集中评论语句语法结构较弱的问题。为了避免依赖树因评论语句的随意性所引入的噪声信息,DGEDT-BERT模型利用迭代交互的双通道transformer 结构进行联合细化,在目标任务上具备较好的性能。

3.5 消融实验

在本节及后续章节进行的实验中,除非另有说明,所有提到的ⅠMR-GCN 模型均基于GloVe,并认为ⅠMRGCN-BERT显示出类似的趋势。

如表4所示,W/O sem-syn表示仅保留上下文分支,W/O con-sem 表示仅保留句法分支,W/O con-syn 表示仅保留语义分支,W/O semantic代表上下文和句法信息进行交互,W/O syntactic代表上下文和语义信息进行交互,W/O contextual代表句法和语义信息之间交互。

表4 消融实验结果Table 4 Ablation experiment results单位:%

总体上看,不同分支得到的句子表示都对本文模型有益。将本文模型分别与W/O sem-syn、W/O con-sem和W/O con-syn进行对比,实验结果说明了单独使用三个分支建模的性能相对较差,模型所学习的信息过少。

通过比较W/O semantic、W/O syntactic 和W/O contextual三种不同的结合方式,证明上下文、句法和语义信息之间的交互是有效的,其中W/O contextual的性能更优异,表明句法和语义信息之间的交互对于句子表示学习更加有利。同时,对比上述分支的实验性能,去掉任何一个分支,模型的准确率和宏F1值均下降,进一步说明融合多个视角表示的重要性。

3.6 不同的融合方式

为了验证本文提出的分层融合模块的有效性,将其与另外两种典型的信息融合方法进行比较,具体如下:

(1)“Contact”:多视图表示直接串联成行,并通过全连接层进行融合;(2)“Sum”:将表示输入到三个独立的全连接层中,对元素求和并进行融合;(3)“Fusion”:使用本文提出的分层融合模块对表示进行融合。

如图4和图5所示,与其他融合策略相比,本文的分层融合模块在准确率和宏F1 指标上都显著优于它们。其中,“Fusion”相比于“Contact”,准确率平均提高1.35 个百分点,对比“Sum”的方式,准确率平均提升1.81 个百分点,宏F1值分别提升了2.43个百分点和3.08个百分点。

图4 不同融合方式的准确率Fig.4 Accuracy of different fusion methods

图5 不同融合方式的宏F1Fig.5 Macro-F1 of different fusion methods

多视图表示进行拼接融合的方式,由于利用全连接层提取特征,会导致神经元个数增加,模型复杂度提升,过宽的全连接层会造成过拟合问题,上述结果也说明直接将多视图表示进行拼接融合是不合理的。本文采用的从局部到全局的融合方式,可以充分利用句子不同视角的表示信息,更好地将输入的数据从它原来所处的空间投影到目标域空间。

3.7 图卷积网络层数影响

实验将GCN 的层数设置为L∈{1,2,…,8} ,在5 个数据集上对应的准确率和宏F1 值分别如图6 和图7 所示。本文模型ⅠMR-GCN在网络深度为2时达到了最优的性能,随着网络深度的增加,模型性能存在一定的波动,整体性能呈现下降趋势。在GCN 深度为8 层时,相比于最佳性能,其准确率平均下降了1.73%,宏F1 值平均下降了2.29%,由于层数增加,模型引入更多的参数,产生过拟合现象。

图6 图卷积网络层数与准确率的关系Fig.6 Relationship between number of GCN layers and accuracy

图7 图卷积网络层数与宏F1值的关系Fig.7 Relationship between number of GCN layers and Macro-F1

3.8 案例分析

本文针对Rest14数据集进行了案例研究,充分证明了ⅠMR-GCN模型的有效性。将3个分支应用的注意力权重可视化,如图8所示,第1行代表基于上下文分支的注意力权重,第2 行代表基于句法分支的注意力权重,第3 行代表基于语义分支的注意力权重。权重分数越大,对应的区域颜色越深。

图8 不同分支的注意力权重Fig.8 Attention weight of different branches

对于方面词“staff”,基于上下文的表示主要集中在观点词“bit more friendly”上,这样理解句子会产生偏差,导致做出错误预测。从句法和语义的角度来看,更关注另一个词“should be a bit”,能够正确识别出方面所对应情感极性,这表明句法依赖和词共现信息有利于模型的整体建模。

4 结束语

本文综合运用词性、句法、语义等知识增强评论语句的特征表示,提出一种多视图融合表示的图卷积网络模型,首先,利用自注意力机制捕获上下文信息,同时通过图卷积操作处理句法依赖和词共现信息,然后使用方面感知注意力机制分别计算得到基于上下文、句法和语义分支的三视图表示,最后设计了分层融合方式对三种不同视图表示进行特征融合。经过实验分析,该模型在公开数据集上准确率和F1 值优于基准模型,表明单词之间的语义信息和句法依赖关系均不可忽略,且上下文信息对最终句子表示是有利的。本文模型存在一定的局限性,针对句法依赖未考虑具体的依赖关系。当前用于方面级情感分析的数据有限,难以拟合模型中复杂的参数信息。因此,后续研究考虑引入外部知识,辅助模型捕捉数据集中的常识知识,进一步提升分类效果。

猜你喜欢
句法注意力语义
让注意力“飞”回来
句法与句意(外一篇)
述谓结构与英语句法配置
语言与语义
句法二题
诗词联句句法梳理
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊