端到端方面级情感分析综述

2024-03-05 01:41潘美琦马致远刘高飞秦纪伟

小型微型计算机系统 2024年3期

潘美琦,马致远,2,刘高飞,秦纪伟

1(上海理工大学健康科学与工程学院,上海 200093)

2(南京大学计算机软件新技术国家重点实验室,南京 210093)

0 引言

互联网的普及催生了包括购物网站、社交媒体、搜索引擎等在线平台的急剧增加,随之而来产生了大量用户相关的非结构化文本,由此带来的通过对用户进行分析和挖掘的需求也日益增加.其中,准确地通过对产品评价、社交网站的讨论、娱乐平台上的舆论信息、新闻文章、政治辩论等文本判断人们对某个话题表达的观点[1],有助于个人、企业、政府了解人们对产品、营销活动、政治议程的看法,进而为预测和推荐产品、服务、娱乐内容[2]提供支持,还可以应用于股票市场、金融预测等领域.因此作为文本挖掘领域的重要研究方向,情感分析(Sentiment Analysis,SA)技术和相关工具的研究发展十分重要.

按照处理对象的不同,SA分为文档级、句子级和方面级3类.文档级和句子级SA旨在给出整个文档或句子的情感极性,这两类SA任务假设一段文本只表达一种观点,忽略了一个文档可能会出现多种观点的情况.另外,它们仅提供句子或文档整体的情感极性,不表明情绪的主体,不适用于对手机、电脑等具备细粒度情感极性的评价进行分析.如图1例句a句子级别情感分析可以判断出句子的整体情感为负向,但无法提取情绪的目标实体.因此,需要更细粒度的文本分析任务来用于判断句子中人们对实体或实体属性表达的情感,即方面级情感分析(Aspect-based Sentiment Analysis,ABSA).如图1例句b表达了对实体餐厅“Saul”的积极情感,例句c针对的是餐厅的食物味道.类似地,还有笔记本电脑、屏幕大小、手机的性能等.

图1 情感分析例句Fig.1 Sentiment analysis example sentences

ABSA通过提取显式的方面(即方面术语提取)和检测每个提取的方面术语的情感极性(即方面情感分类)来确定人们对特定方面的态度.传统上,方面提取和极性分类被视为两个独立的任务分开处理,无法充分利用两个任务之间的联合信息.因此,最近越来越多的研究集中在利用深度神经网络以端到端的方式解决ABSA问题,同时训练和解决两个子任务,称为端到端方面级情感分析(End-to-End ABSA,E2E-ABSA).如图1例句d,要求提取其方面术语“Moules”、“lobster ravioli”,并分别确定它们的情感极性为“积极”和“消极”.尽管与其类似的任务,方面类别情感分析(Aspect Cate-gory Sentiment Analysis,ACSA)能够提取方面所属的类别并确定情感极性,但针对如图1例句d的评论,任务将两个方面均分类为食物质量,无法做更细粒度的区分.而方面情感三元组等更多元素提取的任务,虽提取信息更完整,但由于处理要素过多、任务难度增加,导致现有研究挖掘得不够充分.因此,本文旨在对E2E-ABSA任务进行全面的分析.

近年各期刊已经发布了很多总结ABSA任务的综述类文章[6-9].其中Zhang等人[3]根据现有研究解决的问题对ABSA进行了全面介绍.Nazir等人[4]将ABSA分为3个阶段,方面提取、方面情感分析和情感演变,对每个阶段存在的问题和解决方案进行系统的研究.Liu等人[5]介绍了3种主流的方法:基于词典的方法、基于机器学习的方法和基于深度学习的方法,并比较了它们的优劣.这些综述较宽泛地概括了ABSA任务.而更具体地,Chebolu等人[6]讨论了方面类别检测(Aspect Category Detection,ACD)的方法和挑战.Brau-wers等人[8]和Zhou等人[9]介绍了给定方面的情感分类(Asp-ect Sentiment Classification,ASC)方法.但这些研究未对E2E-ABSA进行归纳,缺少对新研究和代表性方法的总结.

针对这一现状,本文就E2E-ABSA任务存在的问题及近5年的研究重点进行回顾.本文的其余部分组织如下:第1节对ABSA包含的各类建模方式进行介绍,针对各任务的特点介绍了代表性方法;为了对E2E-ABSA任务进行更详细的介绍,本文在第2节中分析了相关数据集的特点及领域差异,这有助于接下来的研究针对存在的问题设计更合理的模型.并在第3节中从任务建模的角度将E2E-ABSA任务进行分类,讨论了其关键问题和现有方法;为了综合对比和分析现有方法的优劣,第4节总结了模型性能的评价指标及现有方法的性能,并提炼了目前研究的最优方案;第5节总结了监督方法、半监督方法和无监督方法的挑战和未来研究方向;第6节总结了全文.

1 ABSA任务概述

为了对ABSA任务有一个全面的认识,本节首先介绍4类提取元素.其次,遵循Zhang等人[3]的分类方法,对单任务及包括多种元素的复合任务进行概括,并阐述了在统一框架下解决ABSA所有任务的整体方案.

1.1 提取元素

根据 Pontiki等人[10,11]的定义,ABSA任务共需提取4类元素:方面术语、方面类别、意见术语、情感极性.如图2所示,方面术语意为可以表达情感的实体或实体属性,例如,“place”、“food”、“waiter”等.方面类别是方面术语所属的类别,其定义因数据集的来源而异.Restaurant14数据集[10]共定义了5个方面类别(如“FOOD”,“PRICE”).Restaurant15、Laptop15[11]和Restaurant16、Laptop16数据集[12]进一步定义了层次化方面类别,每个方面类别由:实体E和属性A(如 “FOOD#QUALITY”,“RESTAURANT#PRICES”)构成.意见术语是方面术语的情感来源,与方面术成对出现.情感极性则是人们对方面所表达的情感倾向,一般有3种:积极的(“POS”)、消极的(“NEG”)、中性情绪(“NEU”).

图2 ABSA提取例句Fig.2 ABSA extract example sentence

1.2 ABSA相关任务

1.2.1 单任务

为了提取1.1节介绍的4类元素形成了4类任务:方面术语提取(Aspect Term Extraction,ATE)、方面类别检测(ACD)、意见术语提取(Opinion Term Extraction,OTE)、方面情感分类(ASC).

ATE通常建模为序列标记任务,研究多专注于学习Token的表示[13,14].如Xu等人[14]采用两种类型的预训练嵌入以丰富embedding的表示信息.为了利用句子的整体语义,Ma等人[15]将ATE形式化为Seq2Seq学习任务.但近年ATE任务的研究逐渐从有监督方法转移到无监督领域自适应方法[16,17].ACD一般建模为多标签分类任务.由于方面类别通常不显式出现在评论句中,并且部分数据集预定义的类别较多(如Laptop15细分了23个实体和9个属性标签)[11],故具有一定挑战性[18].为了解决标注数据不足问题,有团队研究基于少量学习(Few-Shot Learning,FSL)的方面类别检测[19,20].该任务的优点是能够识别隐式方面类别,如“Go hungry and enjoy.”,句中没有明确的方面,但可以通过学习语义表示得知它表达的是对餐厅整体(“Restaurant general”)的评价.OTE与方面术语提取类似,都是为了提取评论句中显式提到的单词,也一般作为序列标记任务处理[21].该任务需建立与方面术语的联系,对学习语义、语法信息的要求更高[22].ASC是单任务中最复杂的任务,需要学习方面术语上下文的语义信息、提取其意见信息,并识别意见信息表达的情感倾向[23].故利用句法信息和单词依赖关系连接语法相关的上下文是最近研究关注的方向[24].对于存在多方面且具有多种情绪的句子,确定不同方面的情感更具挑战性.针对该问题,Niu等人[25]构建了异构图,将方面词和上下文词视为不同类型的节点,同时建模方面间关系及方面-上下文关系.

1.2.2 复合任务

为了提供更详细的信息,最近的许多研究提出联合提取多个元素[26,29],统称为复合任务.该类任务相比单任务的解决更有难度,需考虑抽取任务(ATE、OTE)或分类任务(ACD、ASC)的同时提取策略、以及子任务间的交互等各种问题.

双元素提取包括:方面-意见对提取(Aspect-Opinion Pair Extraction,AOPE)、端到端方面级情感分析(E2E-ABSA)及方面类别情感分析(Aspect Category Sentiment Analysis,ACSA).APOE是为了提取方面术语和对应的意见术语.该任务通常将两个子任务均建模为序列标记任务,以管道的方式分别处理[26],或者采用联合提取策略[30,31].任务难点在于方面术语与意见术语的配对,句子中方面与意见的关系结构较复杂,存在一对多、多对一、甚至是嵌入式或重叠式的配对关系,这要求模型能够灵活检测配对[30].E2E-ABSA目的是提取方面术语并确定其情感极性.该任务能够获得ABSA中最重要的两个元素,也是本文调查的重点.ACSA旨在联合检测句子中方面术语所属的方面类别和情感极性.该任务有两个关键挑战:首先,任务涉及的子任务一般都归类为多分类问题,需要考虑联合任务的分类方法[3],如枚举法[28]、分类再分类[27]、扩展标签维度[32]、基于生成的方法[33];其次,方面类别通常不会出现在句子中,模型很难定位方面类别的确切位置,更无法识别其上下文,因此Zhu等人[34]学习方面术语与类别之间的关系,以此为媒介建立与上下文的关系.

三联提取是为了同时提取ABSA中的3种元素[28,35,36]比其他方法提取信息更完整[37].该类别下共有两种任务:方面情感三元组(Aspect Sentiment Triplet Extraction,ASTE)和方面类别情绪检测(Aspect Category Sentiment Detection,ACSD).其中,ASTE是为了提取方面术语、意见术语和情感极性[35,36].这3种元素共同提取有两个优势:一方面,提取意见术语有助于更好地确定面向方面的情绪;另一方面,方面和意见之间的情感依赖可以弥合情感决策的差距,进一步提高模型的可解释性[35].ACSD是为了提取方面术语、方面类别和情感极性[28],可以同时解决E2E-ABSA和ACSA存在的两个问题,即隐式方面情绪检测及细粒度方面提取.

四联提取指方面情感四元组提取(Aspect Sentiment Quad Prediction,ASQP)[29],预测给定评论中所有的情感元素:方面术语、方面类别、意见术语和情感极性.由于提取元素的复杂性及资源紧张的数据集,该任务的研究还十分有限.

1.2.3 统一框架

尽管现有研究针对ABSA的不同问题提出了上述的各类任务,但由于这些任务具有一定相似性,一些研究致力于将所有任务在统一的框架内处理[38,41].而任务间的一些分歧(如不同任务的输入输出不一致,任务类型也存在差别)[39],导致很难在不改变模型结构的条件下解决这一问题.由于生成式模型在命名实体识别、文本分类等自然语言理解任务的成功,并且可以处理输入输出和任务类型方面的障碍,Yan等人[39]和Zhang等人[38]提出将其用于ABSA任务上.这一想法也在后续研究[40,41]中得以扩展.

2 数据集调查

本节总结了ABSA任务相关的数据集,并对E2E-ABSA任务使用的数据集从多个角度进行分析,根据数据集特点可以得知现有方法可能存在的问题及模型需要解决的问题.

2.1 常见数据集介绍

表1总结了ABSA任务常见数据集.其中SemEval-2014任务4[10],SemEval-2015任务12[11],SemEval-2016任务5[12]由国际语义评估研讨会发布,是ABSA任务最常用的数据集.SemEval-2014提供了餐厅(Restaurant)和笔记本电脑(Laptop)两个领域的数据集,目标是识别给定目标实体的方面及每个方面表达的情感.在2.1节中已经初步介绍了方面的含义,但不全面.根据SemEval-2014数据集的定义,一个方面包括:1)实体本身(如“restaurant”);2)实体的一个部分或组件(如“battery”,“design”);3)实体的属性(如“price”,“feature”);4)实体组件的属性(如“battery life”).情感极性除积极、消极、中性外,还定义了冲突,代表同时对一个方面术语表达积极和消极的情绪.SemEval-2015、2016数据集是SemEval-2014的延续,除Restaurant和Laptop外,还提供了用于跨域任务的Hotels测试集.与SemEval-2014采用截取的孤立句子不同,该数据集由完整的评论组成.方面术语在该数据集中的定义为目标实体,包括命名实体(如“Chow fun”)、常用名词(如“food”)和多词术语(如“wine list”),但不包括实体属性.如“price”在SemEval-2014中会被提取,在SemEval-2015、2016中则不属于方面术语的范畴.另外,SemEval-2015和SemEval-2016数据集只在Restaurant和Hotel领域中标记了方面术语.由于SemEval研讨会2014～2016年发布的Restaurant数据集领域相同且数量较少,因此有部分研究将3年数据合并作为统一的数据集[42,45].但每年的数据之间有重复,方面术语的判定上也稍有不同,仅简单地将其合并进行训练能否体现模型的性能还有待商榷.

表1 ABSA数据集Table 1 ABSA datasets

Twitter数据集[46]也经常用于E2E-ABSA任务,数据来自Twitter网站的推文.与SemEval相反,该数据集不指定领域,包含了对名人、产品和公司的评论,查询关键词如(“bill gates”,“taylor swift”,“xbox”,“windows 7”,“google”).

Device[47]和Service[48]数据集被额外用于跨域E2E-ABSA任务.Device数据集包括5种电子产品的客户评论:两种数码相机、一台DVD播放器、一台mp3播放器和一部手机.但该数据集只标记情感极性为正面或负面的数据.另外,方面术语及其极性的评定也存在有争议的地方.例如,“the sound quality is very good” 中标记的方面术语为“sound quality”,情感极性为正向.而评论“bummer as it has great sound quality”则未标注方面术语和情感极性.Service数据集由消费者评论和意见组成,数据来自RateItAll和eOpinion网站,包括对PayPal、egroups、eTrade和eCircles的评价.数据集详细标注了方面术语、意见信息、情感持有者、情感极性和强度.

MAMS[49]和SentiHood[50]也是方面级别的情感标注数据集,目前还未用于E2E-ABSA任务上.现有ABSA数据集的多数句子只包含一个方面或多个具有相同情感极性的方面,使方面级任务退化成句子级任务.为了解决这一限制,MAMS提出了餐厅领域的多方面多情感数据集.其中每个句子至少包含两个方面,且具有不同的情感极性.这一特性有助于模型专注句子局部信息的提取及语义的理解.但该数据集每个句子只针对一个目标实体的不同方面.没有描述多目标实体多方面的场景.因此,SentiHood数据集收集了讨论多目标实体的文本,数据来自城市社区领域的问答平台文本,包含不同城市的各个方面.如“The design of the space is good in Boqueria but the service is horrid,on the other hand,the staff in Gremio are very friendly and the food is always delicious.”,讨论了餐厅“Boqueria”的方面“space”和“service”,以及餐厅“Gremio”的“food”.

2.2 数据集分析

表2对目前E2E-ABSA任务用到的所有数据集进行了对比.其中第4列“显式方面”表示句中明确提到的方面,与其对应的是隐式方面,例如以代词做主语(如,“It gets cold very quickly and its not that filling.”)或无主语句(如,“Go hungry and enjoy.”)等情况.经过汇总可以得到以下结论:

表2 E2E-ABSA数据集对比Table 2 E2E-ABSA dataset comparison

1)除Twitter数据集外,每个数据集都存在大量的隐式方面.其中,隐式方面指句子中没有明确的方面术语.现有研究忽略隐式方面,仅利用显式方面训练及测试模型.这种方式有两个缺点:一方面,去除隐式方面使可利用的数据变少,可能会导致训练不充分;另一方面,含有隐式方面的句子也存在一定信息,完全丢弃这类信息会导致结果片面.与方面类别相结合可以有效解决该问题,而这类研究较少[28,29],期望未来有更多研究专注于此.

2)相比其他任务的数据集,ABSA任务的标注数据相对较少.由少量数据训练的模型能否代表该模型在整个领域的性能是未知的问题.利用大量未标注的数据辅助E2E-ABSA任务也是可以考虑的方向.

3)表格的第5列和第6列显示了存在多种方面或情绪的句子数量.总结可知,每个数据集都仅有不到1/3的句子存在多个方面术语,且每个句子不同方面术语表达的情绪大多是一致的.因此,尽管E2E-ABSA为方面级别的任务,但在情感的判别上却倾向于提取句子整体的极性.

4)第7列代表数据的严重不均衡.大多数数据集中正向情感是最多的,Twitter数据集多为中性情感.数据的不均衡可能无法令模型全面地学习各类信息.

5)最后一列代表方面术语中多词方面的占比.由此可知,完整提取方面术语并确保方面术语的情感一致性是E2E-ABSA任务需要解决的问题.

3 端到端方面级情感分析

前面小节介绍了ABSA包含的任务,其中,为了同时提取情感句中的方面术语并确定其情感极性,研究者们提出了E2E-ABSA任务.比单任务更为复杂,E2E-ABSA首先需分别解决其子任务ATE和ASC面临的问题.对于ATE,通过在第2.2节中对数据集的分析可以得知有一定数量的样本具有多词方面,完整提取方面术语是必须要解决的问题;ASC需要判断方面的情感极性,但方面的情感信息并非来源于方面术语本身,而一般来自意见术语或句子整体的语义.例如“Average to good food,but terrible delivery.”,情感信息来自意见术语“good”和“terrible”.“I’ve asked a cart attendant for a lotus leaf wrapped rice and she replied back rice and just walked away.”中不能明确哪些词语是造成负面情绪的原因[51].为了在同一框架中联合建模两类任务,还需要设计合适的提取策略以最大化融合二者的信息.此外,由于两个任务同时进行,这就面临着方面术语的情感一致性问题,即方面术语中的每个单词应该具有相同的情感极性.由此引出的另一问题是信息的传递,需要使方面术语获得对应的情感信息,要求模型对文本语义和语法信息的理解更深入.通过以上讨论,可以将E2E-ABSA任务存在的问题总结如下:

1)如何获取方面术语的边界信息[43,52,54].

2)如何使方面术语获取对应的情感信息[55,58].

3)如何保持方面术语的情感一致性[42,43,57].

4)如何建模方面提取和情感分类之间的关系[58,59,60].

5)如何设计更合理的双任务提取策略以更好地将二者融合在一个框架中.

如图3所示,为了深入了解E2E-ABSA涉及到的各种方法,将其初步分为有监督、半监督和无监督方法.为了分析不同建模策略对任务的影响、该策略下需解决的问题及具体的模型设计,将有监督方法分为以下几类:1)序列标记+分类的方法;2)基于序列标记的方法;3)基于跨度(Span-based)的方法;4)基于生成的方法.对于无监督方法,面临的主要问题是不同领域知识的转移,从这一角度将其分为:1)基于特征的方法;2)基于实例的方法;3)基于数据增强的方法.

图3 E2E-ABSA分类Fig.3 E2E-ABSA classification

3.1 有监督方法

3.1.1 序列标记+分类的方法

方面术语提取一般建模为序列标记任务[61],方面情感分类则通过多分类方法进行处理[62].因此,传统方法采用两阶段模型,其问题定义如下:

给定输入序列X={x1,…,xn},n为序列的单词数,第1阶段得到方面序列标签L={l1,…,ln},其中li∈方面的集合,如(B,I,O.分别表示方面词的开始、内部和非方面词),第二阶段给定输入序列X={x1,…,xn}及方面术语A={a1,…,am},m为方面术语长度,目标是得到一个句子中每个方面术语对应的情感极性{Positive,Neutral,Negative}[63].

传统方法采用管道(Pipeline)的方式依次处理每个任务.如图4(a)所示,首先通过一个模型学习目标实体的方面,再利用另一个模型预测已提取方面术语的情感.但该方法存在以下缺点:1)需分别训练两个模型,在应用中使用起来比较困难;2)方面提取子任务的错误预测会影响情感极性检测任务的性能,产生目标极性不匹配的问题;3)模型无法利用两个任务之间的关联信息[55].

图4 方法模型简图Fig.4 Method model schematic

3.1.2 基于序列标记的方法

1)基于管道(Pipeline)的方法

与3.1.1节的方法类似,该方法仍采用两阶段框架,但两个任务采用相同的网络架构[64,65].问题定义如下:

如表3第1行,给定输入序列X={x1,…,xn},n为序列的单词数,第1阶段学习到标签序列L={l1,…,ln},其中li∈方面的集合,如(B,I,O.分别表示方面的开始、内部和非方面).第2阶段在第1阶段的基础上标注每个方面的情感,得到情感序列S={s1,…,sn},其中si∈情感值的集合,如(POS,NEG,NEU,O.分别表示正面情绪、负面情绪、中性情绪及无情绪).

表3 方法输入输出Table 3 Method input and output

除了3.1.1节提到的缺点以外,对于方面情感分类任务,序列标记方案还存在以下问题:1)在每个单词上标注情感极性会忽略整个方面的语义;2)由于方面的预测极性可能不同,无法保证多词方面的情感一致性[53].如表3中单词“Thai”和“food”可能会由于Token级别的标记而被预测不同的极性.

2)基于联合(Joint)的方法

为了解决管道法的错误传播问题,一些研究提出了基于联合的方法[42,59].具体过程表述如下:

如图4(b)所示,给定输入序列X={x1,…,xn},n为序列的单词数,模型由一个共享嵌入层和两个任务模块及对应的解码器组件组成,分别输出方面标签序列L={l1,…,ln},以及情感标签序列S={s1,…,sn}.例如表3第1行,会为每个单词标注其方面和情感极性标签.

基于联合的方法采用一个多任务模型,以并行的方式同时解决方面提取和情感分类任务.利用该方法解决E2E-ABSA任务有一些优点:1)子任务的解决没有明显的递进关系,不会导致错误传播问题;2)任务共享层可以学习到两个子任务的关联信息;3)多任务模型可以单独解决每个子任务,不会使二者混淆[42].

由于联合方法通过两个分支分别解决方面提取和情感分类任务,并且二者的标签有较强的相关性.因此,建立任务间的交互或信息传递是该方法面临的首要问题.尽管任务共享层可以学习任务的关联信息,但仅通过误差反向传播更新共享信息,可能导致任务交互不足.Luo等人[42]设计了一个交叉共享单元,通过信息交互加强方面术语的边界信息,并在一定程度上建立方面与情感之间的联系.相似地,Qi等人[56]和Chen等人[66]也设计了任务的传递,通过将方面提取任务Token的特征拼接到情感分类任务上以获取方面术语的边界信息.Luo等人[59]利用Transformer-Decoder结构,将方面提取任务的特征作为K和V,共享层输出的特征作为Q,利用注意力机制生成新的方面情感表示.除了直接对两个子任务的特征进行交互,设计消息传递机制也是解决该问题的一种有效方法.He等人[55]和Liang等人[57]将两个任务学到的信息进行拼接,并将适当的信息传递到共享层中,以更直接的方式更新共享潜在向量.

方面情感分类任务存在两个关键问题:1)是如何学习方面的情感信息;2)是如何将其传递到对应的方面术语上.为了识别情感信息,He等人[55]与Liang等人[57]扩展了方面提取任务,在提取方面术语的同时也提取了意见术语.具体来说,他们设计了新的序列标签:Yae={BA,IA,IP,O}分别表示方面术语的开始、内部,意见术语的开始、内部和其他词.Chen等人[66]将意见提取作为一个单独的任务,将其与方面提取和方面情感分类共同在联合模型中进行处理.为了将情感信息传递到对应的方面术语上,一些研究专注于语义和句法信息的学习[56,57,59,68].语义信息有助于理解方面所表达的情感信息,而句法结构让句法相关的单词直接建立联系.Luo等人[59,68]考虑了BERT的不同层对句法和语义信息处理能力不同的特点,通过利用BERT不同层隐含的丰富信息,极大程度地提高两个子任务的性能.Liang等人[57]设计了双通道共享层,为了充分利用句法知识,设计了依赖关系嵌入的图卷积网络(GCN),建立节点之间的依赖关系并去除方向信息.Qi等人[56]对现有的GCN结构进行了改进,在通过句法依赖建立方面和情感词联系的同时,也避免了远程词带来的噪声.

联合模型并行处理两个任务,尽管任务间的交互可使任务学习对方的信息,但分别进行序列标注仍会导致情绪不一致.一种做法是通过约束强制统一方面的情感,统计一个方面属于中每个极性类别的数量,并以数量最多的标签或第一个标签(如果每个极性类别的数量都相等)作为最终极性.例如,“POS NEG”的最终极性为“POS”,“POS POS”的最终极性也是“POS”,而“POS NEG NEG”的极性是“NEG”[42].Luo等人[59]设计了一种在同一方面项内的标记表示策略,可以最大化地让生成的情感极性标签保持一致.

当前的联合方法大多以并行的方式训练,顺序的方式推理.在训练过程中直接在真实的方面术语上预测情感极性,而在推理过程中,必须等方面提取任务完成后才能进行情绪预测.这会导致目标极性不匹配问题.因此,为了两个子任务完全地并行,Luo等人[42,59]和Xiao等人[68]采用了在极性分类任务中判断每个词的情感极性的方法.

3)基于统一/折叠(Unified/Collapsed)的方法

不同于基于联合的方法并行处理子任务的方式,统一方法聚焦于如何对多任务设计一个统一的框架:

如表3序列标记法的“统一法”行,基于统一的方法定义了一种折叠标签Y={B-POS,I-POS,B-NEU,I-NEU,B-NEG,I-NEG,O},除了“O”以外的每个标记都包含方面及其情感的信息,例如“B-POS”代表方面词的开始,具有积极的情感极性.如图4(c),通过折叠标签将两个子任务合并为一个任务,用一个统一的模型解决.对于一个给定的序列X={x1,…,xn},最终目标是预测一个标记序列Yu={y1,…,yn},其中Yu∈Y.

统一方法通过一个框架同时解决两个任务,既避免了管道模型导致的错误传播,也解决了多任务模型解码结果不匹配问题[44].早期的方法更关注上下文信息的建模,通过不同的编码层丰富上下文表示.Wang等人[60]分别通过CNN和LSTM生成两种类型的句子表示.考虑到方面术语可能是单词序列,因此通过CNN生成基于局部片段的表示,利用LSTM生单词表示,并设计交互注意模块学习表示之间的交互信息.Chen等人[44]提出了方向图卷积网络,认为其有助于文本表示学习.根据单词的位置关系对上下文信息进行有区别的建模,期望加入输入部分的方向信息来增强传统的GCN.Bie等人[69]提出了融合句法结构信息和词汇语义信息的双通道模型.以往GCN进行信息聚合时只考虑节点之间是否存在连接,忽略了依赖关系类型,作者将节点的依赖关系运用到GCN中,更充分地提取句法结构信息.

但由于组合标签的设计,以上方法没有解决学习到的表示混淆问题.为了正确地识别方面术语,模型应该加强方面边界的学习.为了获得相应的情感,需要检测意见术语.为了将其分配给正确的方面术语,还需要建立方面和情感之间的关系.Wang等人[60]利用自注意力机制使模型关注方面和情感之间的关系.Li等人[43]提出了双层LSTM框架,引入了额外的LSTM网络用于目标边界预测,设计了辅助边界预测的组件.这些方法设计不同的组件或增加特定的模块,期望增强方面边界的信息并学习方面和情感之间的关系.但这些信息隐含或部分隐含在中间层中,由于中间层的表示是不可解释的,故很难保证一个模型具有需要的所有关键属性.针对这个问题,有研究通过设置辅助任务,显式学习需要的信息[58,45].Wang等人[58]设计3个辅助任务,明确利用E2E-ABSA的所需关键属性来改进中间层的特征表示.另外还提出了方面先验嵌入方法和情感连接策略,分别用于改进方面词提取和建立方面词和情感词的连接.Kumar等人[45]同样添加两个辅助任务用于提取方面和意见词,并通过交互学习模块来理解辅助任务之间的相互关系,为了增强模型的泛化能力和鲁棒性,提出了一种基于BERT的集成对抗训练模型.使用特定领域的数据集对BERT进行后训练,训练结束后应用白盒对抗训练,通过在嵌入空间中应用扰动来最大化对抗损失.使用黑盒技术生成对抗样本,代替原本句子的方面和意见术语,进一步增强模型的鲁棒性和可靠性.

为了解决情感不一致的问题,Wang等人[60]和Bie等人[69]使用了CRF解码器,其被证明是解决序列依赖问题的有效方法.Li等人[43]设计了门控机制,在当前特征的预测中考虑了之前的特征,间接的Bi-gram依赖有助于降低同一目标内单词包含不同情感的概率.但该问题在统一法下并没有作为重点解决.可能的原因是统一法通过一个框架提取方面并确定情感,更容易让模型学习到方面信息.

3.1.3 基于跨度(Span-based)的方法

基于序列标记的方法目的是为每个Token预测一个标签,无法利用多词方面的全局信息,也无法保证其情感一致性,并且效率较低.具体来说,无法利用全局信息可能会导致方面术语提取有误,进而导致错误的情感极性判断.如,方面术语“hard drive”意为“硬盘”.如果模型分别预测这两个单词,可能会将“hard”的含义视为“艰难的”,将“drive”视为动词“驾驶”,导致无法识别该目标且会认为其有负面含义.而将这两个单词视为一个整体,可以提供“hard drive”的整体语义[52].其次,由于同一方面术语预测的情感极性可能不同,无法保证多词方面的情感一致性.最后,使用序列标记法进行提取性问答任务时,由于标签的组合性(所有句子单词的幂集),模型必须考虑巨大的搜索空间,效率较低[53].

为了解决以上问题,Zhou等人[52]和Hu等人[53]提出基于跨度的方法:首先定义一组情感标签S={POS,NEG,NEU,O},表示一个跨度是一个具有积极、消极或中性情绪的方面术语.标签“O”表示一个span不是方面术语.给定一个由n个单词组成的序列X={x1,…,xn},目的是预测一组跨度标记Y={(i,j,l)|1≤j≤n;1≤j≤n;l∈S},其中i和j是句子中方面术语的开始索引和结束索引,l表示方面的情绪极性.

基于跨度的方法通过提取方面边界将方面术语作为一个整体,并预测整个方面术语的情感极性,利用了方面的全局信息,同时也能保持方面的情感一致性.为了提高方面提取的准确性,如何设置跨度提取方法是现有研究考虑的问题.表4总结了所有的跨度提取方法.Zhou等人[52]提取所有可能的跨度,并根据跨度的损失预测正确的跨度.具体来说,首先枚举句子中一定长度内所有可能的跨度作为方面候选词,并判断每个跨度的情感极性,根据最终的损失预测正确的跨度及其情感极性.但该方法面临着搜索空间和目标长度之间的权衡问题.当最大长度较小时,可能会错过较长的方面短语.相反则会带来巨大的搜索空间和许多负面候选.另外,方面候选词数量会随着句子长度增加而增加,这会导致更大的提取难度.Hu等人[53]提出了一种启发式多跨度译码算法,首先分别预测句子中每个单词作为方面的开始位置和结束位置的归一化分数,从两个预测分数中选择Top-M个Token.然后设置一些约束条件:如结束位置不小于开始位置、两个分数相加超过阈值、考虑方面长度的影响(通常方面术语较短)等,在此基础上得到最终的方面跨度.然而长度约束会导致模型忽略多词方面.Lin等人[54]提出了从粗到细的提取算法.通过匹配预测的开始/结束边界来获得目标短语的近似区间,应用扩展策略代替惩罚因子来正确提取目标短语.

表4 跨度提取策略Table 4 Span extraction strategy

方面提取和情感分类任务之间存在共享信息和私有信息.一方面,语义和语法信息对二者来说是必不可少的.另一方面,名词和代词的信息只对方面提取任务有帮助,可能会对情感分类任务产生负面影响,而情感信息只对情感分类任务有帮助.基于此,Lin等人[54]设计了共享-私有模型,其中包含一个基于BERT的共享编码层以及基于LSTM的两个私有编码层.两个私有网络可以提供特定任务的特征并提高建模两个子任务的能力.Chen等人[71]根据相同的思想,使用两个GRU网络作为特定于任务的模型.在此基础上进一步研究了两个子任务之间的相关性,提出了一种层次交互网络,设计浅层和深层交互联合学习方面提取和情感分类任务.

3.1.4 基于生成的方法

生成式预训练语言模型(如GPT,BART,T5)的发布引起了最近研究利用生成式预训练模型解决ABSA任务的兴趣.该方法将ABSA任务表述为文本生成问题:

给定输入序列X={x1,…,xn},n为序列的单词数,首先设计一个目标序列Y={y1,…,ym},其中包括任务所需的标签信息,通过生成模型直接生成Y,再从目标序列中解码期望的方面术语及情感极性.为了训练模型,需要按照设计的格式将原始数据转换成(x,y),预训练语言模型通常使用标准最大似然损失对其进行微调.

任务所需的标签来自目标序列Y,这要求重新设计模型的输入输出格式以生成有效的目标序列,从而能够准确地重现期望的类标签.这种方式有一些优点:1)在目标序列中直接生成标签可以让模型利用标签语义提高性能.例如理解“delicious”是描述食物的形容词,如“pizza”,能够更好地引导方面意见对(“pizza”,“delicious”)的预测[38];2)设计合适的目标序列,能够通过一个生成式框架解决不同的任务,最近很多研究都专注于在统一的框架内建模所有ABSA任务[38,40].因此本节的其余部分讨论了针对ABSA任务的输出序列策略,并以E2E-ABSA任务为例给出了生成模型具体的解决方式.表3展示了3种生成方法.

1)生成标签增强文本:给定一个输入文本,通过标记方面术语及其标签来形成输出序列.对于E2E-ABSA任务,在方括号内标记方面术语,相应的极性标签跟随其后,二者用分隔符“|”隔开,如“[Salads | positive]”.Zhang等人[38]通过这种标注方式在一个生成模型中处理各种ABSA任务,包括E2E-ABSA、方面意见对提取、方面情绪三元组和目标方面情绪检测等.

2)生成单词索引:除了生成标签增强文本的方法,另一种方式是为输入序列建立位置索引,目标序列为标签的索引,输出的索引分别表示方面术语的开始、结束及情感极性.Yan等人[39]使用BART模型编码每个Token,对于第t个Token,将编码器的输出向量以及t之前的解码输出结果作为输入,再利用解码器得到t的概率分布,以生成有关ABSA任务的索引跨度,在一个生成框架内解决方面术语提取、意见术语提取、基于方面的情感分类等7个基础任务.Li等人[73]以相同的思想,利用BERT作为编码器,GRU作为解码器生成索引序列.单词索引生成方案的优点是可以明确地生成方面术语,解决生成的标签可能不会出现在句子中的问题.

3)生成单词元素:在文本后添加其标签作为目标序列,直接生成任务所需的标签本身.相比于将输出作为一个完整的文本或提取标签索引,生成标签本身能够让模型理解要提取的每个元素的含义.Gao等人[40]使用T5作为骨干模型,为每个提取的元素设计了元素提示符,如“aspect:”.通过这种设计,一种提示和输出文本的组合可以看作一种基本的组件,可以通过组装转移到复杂的任务中.该形式有两个优点,一方面,提示符定义格式与T5模型预训练mask的格式相同,可以更好地利用预训练中学习到的信息.另一方面,通过为每个元素定义提示符,输出是不同元素的组合,可以为在一个模型中解决几种任务提供便利.Hosseini等人[41]引入了标识符来分割文本和标签.例如引入<[review]>和<[term]>来区分输入文本和方面术语,引入<[endofreview]>和<[endofterm]>作为结束标识符.标识符的设计有助于模型理解输入序列中的不同片段,从而更准确地推断情感极性.

尽管以上3种方法都有不错的表现,但对于多元素提取任务,直接输出任务需要的所有元素可能会导致语义学习混淆.例如E2E-ABSA任务,仅利用一种输入输出方式同时提取方面和情感极性,模型需要同时学习方面信息和情感信息.

3.2 半监督及无监督方法

目前该任务的大部分工作采用了监督方法,但对于每个新的领域,通常只有较少的数据资源.由于E2E-ABSA需要对方面术语及其情感极性进行细粒度注释,因此新领域资源的开发十分耗时且昂贵.为了缓解数据不足问题,研究人员探索了半监督和无监督方法.

3.2.1 半监督方法

对于E2E-ABSA任务,主流的几种数据集的样本数量较少,仅使用监督方法不足以训练出泛化性好的模型.因此,有研究关注了半监督方法.其问题定义如下:

半监督方法利用同一领域内少量的标注样本和大量的无标签样本同时训练模型,可以更好地利用资源并提高模型性能.该任务下半监督的工作较少,通常采用自训练算法或其变体.该算法基本流程为:1)首先使用标记数据训练一个监督模型;2)利用该模型预测未标记数据的类别;3)选择满足预定义标准的结,并将伪标签与标记数据结合起来;4)使用扩充的数据重新训练模型,然后再次进行预测,多次迭代这些步骤直到收敛.

Li等人[75]基于交叉视图训练(Cross-View Training,CVT)[76],在同一领域的小批量标记数据和未标记数据上交替学习一个模型,以实现半监督学习.CVT的核心思想是使模型在输入相同数据的不同视角时,能产生相同的预测结果.CVT在模型中添加了几个辅助预测模块,每个预测模块的输入都是原样本的某个受限视角,模型通过不同视角的学习以提升文本的表示能力.作者使用3个堆叠的双向循环层学习文本表示.Chen等人[77]采用了一种基于半监督学习的无监督数据增强技术.在无监督数据增强模块中,未标记数据以成对的形式传递给模型,其中一个流为原始未修改的输入示例.另一个流为通过数据增强技术转换的增强示例.此方法最早来自Xie等人[78],为了适应序列级标记任务,该模型的数据增强使用掩码语言模型,随机对Token进行掩码并替换.Yang等人[79]同样采用自训练方法,为了充分利用无标注句子,使用掩码语言模型生成了伪方面词和伪情感极性,并将标注句和伪标注句联合训练.

3.2.2 无监督方法

目前半监督方法探索的是在同一领域下大量的无标签数据的利用,而在跨领域设置中探索E2E-ABSA任务也同样具有吸引力,很多研究探索了该任务下的无监督领域自适应方法:

该方法在给定一些未标记的目标域数据的情况下,将公共知识从标记的源数据转移到未标记的目标域数据上,以帮助无标注信息的目标域学习.领域自适应的关键挑战是源域的数据分布通常与目标领域的数据分布不同,由于E2E-ABSA是具有词级注释的细粒度任务,因此有必要进行词级域适应.

E2E-ABSA任务下的领域自适应方法主要包括基于特征的方法、基于实例的方法和基于数据增强的方法.基于特征的方法是将源域样本和目标域样本用一个映射调整到同一特征空间,使不同领域样本在此特征空间内对齐.而基于实例的方法是考虑到源域中的一些样本与目标域样本相似,因此将相似的样本乘以一个较大的权重,以此来缩小源域和目标域之间的距离.基于数据增强的方法利用源域样本生成与其具有相似语法的带标签的目标域样本,将其作为目标域训练集训练目标域分类器,将跨域任务转换为特定于领域的任务.

在基于特征的方法中,Li等人[80]、Zhou等人[81]采用了对抗学习方法[82].其基本思想是从源域和目标域中提取特征,使判别器无法区分提取的特征是来自源域还是目标域,从而将源域和目标域数据投影到同一特征空间.Li等人[80]考虑到尽管来自不同领域的方面术语表现不同,但方面和意见词之间的一些关联模式在不同领域是相似的,故引入一种多跳双记忆交互(multi-hop Dual Memory Interaction,DMI)以自动学习方面术语和意见术语的关系,并提出了一种局部语义对齐方法.为了进一步利用目标域数据的方面和意见信息,Zhou等人[81]提出了一个自适应混合框架,将基于伪标签的半监督学习和对抗训练集成在一个统一的网络中.利用在目标数据上训练的伪标签来训练任务分类器,并通过对抗训练来对齐特征分布.为了进一步增强特定领域词的转移,Chen和Qian[80]提出了一种新的检索编辑域适应方法.检索源域和目标域中具有相似语法和语义信息角色的目标词,并将其作为原型来指导领域适应.

除了基于特征的领域自适应方法外,基于实例的方法也被证明在NLP任务中的重要性[84].Gong等人[85]将基于特征的自适应和基于实例的自适应集成在一个统一的框架中.为了减少特征差异,引入基于领域共享知识的辅助任务,将领域共享的词性信息和依赖关系作为监督信号,增强模型学习跨领域知识的不变表示.为了减少实例差异,利用领域分类器动态地学习每个单词的重要性,执行单词级实例加权.

尽管现有研究可以通过学习域不变的特征表示和重新加权实例来减少域差异,但主要任务的监督信号仅来自标记的源域,因此基于数据增强的自适应也被考虑用于该任务.Yu等人[86]提出了跨域文本生成方法,给定一个有标签的源域文本,目的是生成带有细粒度标签的目标域句子.该方法将特定于领域的属性转换为目标域的对应属性,生成句子的标签与源域文本保持一致,其中特定于领域的属性为方面术语和意见术语,这是由于E2E-ABSA的目标是提取方面并确定情感,方面术语和意见术语比其他属性能发挥更重要的作用.在获得生成的目标域句子后,将其作为训练集独立地训练模型,或将其与源域数据集合并作为训练集,联合训练模型,以此实现源域和目标域的对齐.

4 评价指标与模型性能对比

4.1 评价指标

作为联合任务,E2E-ABSA需在方面术语提取和方面情感检测都正确的情况下才视为预测正确.一般用于评估模型的指标有准确率(Accuracy),精确度(Precision),召回率(Recall)和F1-Score.但精确度、召回率及F1-Score针对的是二分类问题或局部意义的类,因此,对于多分类问题,需要计算每个类别的精确度和召回率,并通过不同的计算方式作为最终结果.目前用于该任务的评估标准主要为:1)宏观平均(Macro-Average);2)微观平均(Micro-Average).

4.1.1 宏观平均

宏观平均考虑了每个类别的结果,但对于分布不均衡的数据集,值会受到稀有类别的影响.宏观精确度和召回率为:

(1)

(2)

其中,|C|代表类别总数,结合表5,TPi代表第i个类别中预测标签等于真实标签的个数,FPi代表预测标签为i,真实标签不为i的个数,FNi代表真实标签为i但预测标签不为i的个数,FPi代表其余标签个数.该方法先计算每个类别的精确度和回召率,再计算所有类别的平均值.其宏观平均F1为:

表5 标签对应简称Table 5 Label corresponding abbreviation

(3)

4.1.2 微观平均

微观平均侧重于数据集的每个样本,更关注整体性能,减弱类别的影响.其精确度和召回率为:

(4)

(5)

该方法先计算所有类别的TP,FN,FP,再用二分类的方法计算精确度和召回率.对应的微观平均F1(Micro-F1)为:

(6)

4.2 模型性能对比

为了进一步对比分析E2E-ABSA方法的性能,本节归纳了相关工作的实验结果.表6、表7分别报告了第4节讨论的有监督方法中E2E-ABSA和ATE任务的性能.其中,表6展示了有监督模型的所有方法中模型对应的嵌入层信息、模型结构,以及作者在Laptop14,Restaurant14、15和Restaurant _total数据集上报告的性能.表8、表9介绍了无监督方法在E2E-ABSA和ATE任务的性能,评估指标是上一节介绍的Micro-F1分数.另外,对各方法的代表模型进行结果复现,复现结果用下划线表示,不同方法的SOTA模型加粗显示.

表6 有监督方法E2E-ABSA模型性能对比Table 6 Supervised method E2E-ABSA model performance comparison

表7 有监督方法ATE模型性能对比Table 7 Supervised method ATE model performance comparison

表8 无监督方法E2E-ABSA方法性能对比Table 8 Unsupervised method E2E-ABSA model performance comparison

表9 无监督ATE方法性能对比Table 9 Unsupervised method ATE model performance comparison

通过表6可观察到,基于序列标记的方法与基于跨度的方法之间性能没有明显优劣.而基于生成的方法在解决多种任务的同时,在部分模型中结果可观[40,41].不同的嵌入层对模型结果也有影响,由 He等人[55]、Wang等人[58]、Chen等人[66]、Bie等人[69]的研究可知,在同一模型结构下,Bert预训练语言模型作为嵌入层比其他方式更有优势.因此,近年Bert模型逐渐代替其他模型,成为解决自然语言处理任务的主流模型.另一个发现是,将Bert作为嵌入层,再接入GRU结构是很多研究选择的方法.Jozefowicz等人[87]认为,除语言建模外,GRU[88]在所有任务上都优于LSTM[89],且更简单.但模型结构并非决定性能的唯一方式,如Lv等人[70]、Chen等人[71]、Li等人[72]的研究均采用Bert+GRU作为主干模型,但结果差距明显,这是因为Li等人[72]的研究未做任务之间的交互,Lv等人[70]仅做了简单的信息交互,而Chen等人[71]提出了层次交互网络,分别学习语法、语义、词性等浅层交互信息及方面边界和具体情感的深层交互.由此可知,从任务的特点及存在的问题入手,对解决E2E-ABSA任务来说更有价值.最后,结合表7和表2,根据不同数据集的结果,Rest-aurant15的F1分数最低,其次是Laptop14.可能的原因是Restaurant15的数据较少,模型无法得到有效的训练.Lap-top14中具有较大的多词方面比例,不容易正确提取方面,而从ATE和E2E-ABSA任务结果的差距来看,Laptop有更大的比例(20个百分点左右)在成功提取方面术语的条件下无法正确分类情感.而Restaurant14中具有显式方面的句子总数最多,多词方面比例最低,相比其他数据集,方面提取任务结果最好.

根据表8可知,嵌入层对模型的影响同样适用于无监督方法[80].其次,无论哪个领域的知识迁移到Restaurant领域,结果都优于其他领域知识的转移.但Restaurant领域与其他领域没有较多重复的方面词,可能的原因是Restaurant领域有更简单的语法和更容易辨别的语义角色.证明这一点的是Zhou等人[81],Chen和Qian[80]的研究,后者更关注具有相同语义和语法角色的单词,因此在3～5列的表现更好.

根据监督、无监督方法的ATE和E2E-ABSA任务性能对比可知,尽管ATE任务的性能决定E2E-ABSA任务的上限,但任务之间性能的差距过大.尤其对有监督任务来说,这种差距更加明显.如果基于序列标记的方法的部分原因是多词方面的情感不一致,但基于跨度的方法仍有这种差距,原因大约有两个:1)方面与情感的联系不够紧密,情感无法分配到对应的方面术语上;2)无法检测出方面术语的情感.

5 挑战与未来方向

本节将介绍E2E-ABSA任务下有监督、半监督及无监督方法的一些挑战.未来工作可通过以下方面来改进方法.

5.1 监督方法

5.1.1 联合建模方面术语、意见术语和情感极性

方面术语的情感极性来自意见术语,显式建模意见信息有助于提取情感信息并将其分配给对应的方面.如“Moules were excellent,lobster ravioli was very salty!”,意见“excellent”和“salty”在句子中提及,分别修饰“Moules”和“lobster ravioli”.若能明确提取意见术语,模型会对“excellent”和“salty”分配更多权重,强调其携带的情感信息.另外,明确情感来源也有助于方面术语学习对应的情感,二者交互可以更精准地分配情感信息,以防“lobster ravioli”学习到“excellent”的信息,混淆方面术语的情感.当前有研究关注方面-意见-情感三元组的提取[35,36],但仍需进一步的工作学习三者之间的关系.

5.1.2 联合建模方面术语、方面类别和情感极性

第2节中提到E2E-ABSA任务只能提取显式方面.对于生活中大量存在的隐式方面,无法利用也无法分析.联合建模方面术语、方面类别和情感极性可以较好地解决这一问题.而目前这类任务的研究并不多[28],期待未来有更好的方法.

5.1.3 句法信息在GCN的应用

与句子级别的任务不同,E2E-ABSA更关注句子结构.了解单词的词性利于提取方面和意见,如方面术语多为名词,而情感表达通常为动词或形容词.引入句法信息有助于建立方面和情感间的关系,常见方法是将句法依存树转换为邻接矩阵,通过GCN解决[56].但句法依存树一般通过现有工具产生,不完全适用于ABSA涉及的领域,任务无意义的节点连接会对信息提取产生负面影响.句法结构在GCN上的应用在该任务中也并不广泛,当前研究更关注Transformer、LSTM结构.而GCN在Token级别的任务中表现更加灵活.在ABSA的其他任务上,如ASC,句法信息在GCN上的应用已有成熟的进展[24,66,73,82],但在E2E-ABSA任务中,GCN的应用十分有限,还有待进一步探索.

5.1.4 统一多任务模型

基于方面的情感分析下存在众多子任务,子任务之间的关系通常是密切相关的,一个子任务的架构很容易转移到另一个问题上.为每个子任务都设计特定于任务的模型,不仅会造成模型的重复,也难以运用于实践.因此在一个统一的模型下联合解决ABSA的多个子任务是一个有前途的研究方向.现有研究利用自然语言生成的方法,运用GPT、BART等大规模生成模型,并设计适应任务的输入输出,致力于统一建模所有ABSA任务.尽管目前研究已在这一方向上进行了初步尝试,但在输入输出形式的设计上略有欠缺.

5.2 半监督及无监督方法

5.2.1 利用未标注数据

E2E-ABSA任务中,绝大多数研究都利用监督学习方法.但相比文档或句子,Token级别的标注需要更多的成本及时间.由于ABSA任务标记数据的稀疏性,很难通过少量的标注数据训练一个囊括特定领域涉及的所有句法、语法、词汇的模型.因此,利用大量的未标注数据是扩展当前训练数据集的另一种选择.目前研究一般采用自训练方法,为未标注数据添加伪标签[75,77,79].或采用数据增强,对训练数据执行语义约束的修改,以增加所提供的信息量[77].但这些方法尚未得到深入探讨,值得未来更多的关注.

5.2.2 跨领域转移学习

缺乏标记数据的另一种解决方案是使用跨领域模型.具有广泛可用资源的领域知识转移到其他领域的模型中,以弥补新领域标注数据的不足.ABSA任务所涉及的领域之间数据差异较大,不仅方面术语的重复性低,相同的意见术语在不同领域中也可能表达相反的含义.如Laptop领域中的句子“The computer is too large to move”和Device领域“the screen is large and bright and has all the info I need where I need it.”,情感词“large”在第一句话中对“computer”表达了负面的评价,而在第2句话中则代表积极.尽管现有研究运用了基于特征、基于实例、基于数据增强的方法减弱不同领域的差距,但相比监督方法,无监督方法的模型性能还有很大的提升空间.

6 结束语

本文从ABSA任务入手并对E2E-ABSA任务进行了全面的综述.首先对现有研究分类与总结,提炼了任务存在的关键问题,针对问题阐述了解决方法.为了对比方法,在第5节中列出了所有模型的性能,分析了方法的有效性与不足.例如嵌入层的影响和信息交互的作用.此外,通过分析E2E-ABSA数据集特点及任务本身存在的问题,发现尽管在E2E-ABSA上已存在很多研究,但仍面临信息交互不足等挑战.