结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别

2024-03-15 09:22王姝玉

电子与信息学报 2024年2期

孙强王姝玉

①(西安理工大学自动化与信息工程学院通信工程系西安 710048)

②(西安市无线光通信与网络研究重点实验室西安 710048)

1 引言

近年来，随着社交媒体的蓬勃发展，人们在各种平台上纷纷发表个人评论，展示他们的喜怒哀乐。其中，大量的内容富含情感极性[1]。因此，情感识别[2]成为了一个备受关注的研究领域。早期的情感识别任务主要依赖于文本[3,4]或语音[5,6]等单一模态的情感信息，这主要归功于单一模态数据获取更为便捷，通过分析、总结和推断能快速识别出人类表达的基本情感。然而，如果仅使用单一模态特征，对反讽、隐喻等复杂状况下的情感进行判断就显得困难。而多模态情感识别(Multimodal Emotion Recognition, MER)就展现出了比单模态情感识别更高的准确率，具备鲁棒性和稳健性[7]，这是因为前者能够通过分析模态之间的情感语义一致性信息和各模态特有的差异性信息获取更准确的情感语义表示。

多模态情感识别的任务是，通过表征、对齐和融合的方式更有效地完成情感识别任务[8]。先前的研究工作通常专注于通过复杂的融合机制学习多种模态语义信息[9–12]。实现过程中，基于统一的多模态标签标注，捕捉到的交互信息往往只能学习到各个模态的情感语义一致性信息。由于缺乏单个模态的独立标签信息，模型很难学习到模态特有的差异性信息[13]。因此，如何有效结合模态间的情感一致性信息和差异性信息成为当前需要解决的问题。为了应对这一挑战，提出了一种自监督多模态情感识别方法，结合了时间注意力机制(Temporal Attention Mechanism, TAM)和单模态标签自动生成策略 (Unimodal Label Automatic Generation,ULAG)，简记为TAM-ULAG。该方法利用多模态特征与3个单模态特征间的相似度，设计了一种单模态标签自动生成方法，以获得情感特征与模态标签之间的对应关系，从而学习模态间的差异性信息。此外，为了捕捉特征序列中的关键情感信息，我们采用了TAM来增强时间序列的建模能力，通过该注意力机制选择出一些权重较高的关键信息作为输入，降低时序信息的冗余度。为提高注意力生成过程的稳定性，采用聚合不同激活函数的方式进行注意力计算。为了增强多模态信息之间的交互能力，设计了一种新的融合方法，采用细粒度的逐语义维度特征向量加权求和再取平均值的方式，以增强特征的语义信息，从而建模多模态间交互的一致性语义信息。具体而言，本文研究工作的主要贡献如下：

(1)提出了一种基于模态间相似度的单模态标签自动生成方法。提出模型在生成标签时对不同模态进行了注意力计算，通过计算每个模态与其他模态向量之间的注意力分数生成标签，该方法更为简单高效，为模型生成标签提供了更灵活的机制。

(2)通过引入时间注意力机制模块学习提取到的各模态时间序列信息。利用循环神经网络在每个神经网络层上生成一个注意力参数，获得不同时间序列的权重。最后，通过对这些权重进行聚合，获得最终的时间序列特征向量。这种方法允许模型更加灵活地关注不同时刻的信息，提高了对时间序列的建模能力。

(3)设计了一种新的融合方法，针对语义空间的每个维度，提出了逐语义维度的细粒度多模态特征融合方法。该方法通过将3种单模态特征向量加权求和，增强了情感特征的语义表达性能，并充分建模多模态特征序列的交互作用，使得融合后的特征更具丰富的语义表达能力。

(4)在CH-SIMS[13], CMU-MOSI[2]和CMU-MOSEI[14]3个数据集上进行了大量的实验。整体上，提出模型在性能上超越了许多先进的模型，展现出很强的竞争力。

本文其余部分的结构组织如下：第2节对近年来多模态情感识别的相关工作进行了简要回顾。第3节详细介绍了本文提出的模型架构及其具体实现方法。第4节给出了实验结果及其分析。第5节对本文工作进行了总结和展望。

2 相关工作

2.1 多模态融合

多模态情感识别的核心问题在于如何充分有效地利用来自各异质模态的信息[15–18]，因此该领域的研究重点之一是寻找更有效的多模态融合方法。早期的融合网络相对简单，例如宋冠军等人[19]通过结合主分量分析降维的特征级联方法，避免了直接级联特征导致的维数灾难问题。Zadeh等人[9]则采用笛卡尔积的形式，对不同模态特征序列间的关系进行建模，构建了张量融合网络。然而，由于张量融合计算量过大，Liu等人[10]对该模型做了改进，通过低秩分解有效地缓解了计算量过高的问题。上述这些方法对于话语级特征的融合效果比较显著，而对于词级特征的融合效果则比较差。因此，基于注意力机制的方法相继出现。例如：Ghosal等人[20]使用注意力网络对不同模态的特征序列进行两两融合；Mai等人[21]通过基于注意力的双向跳跃连接长短时记忆网络进行局部特征融合，建模不同模态序列间的交互作用，进而模拟模态间的全局交互作用。随后，Mai等人[22]又提出了局部受限融合网络，在学习全局交互作用的同时引入了自注意力机制，用于衡量不同局部交互之间的重要程度，有效地提高了模型的识别性能。为了进一步探索多种模态间的时间依赖关系，He等人[23]提出了时间压缩融合网络，通过自动探索时间依赖性关系并对单模态和多模态序列进行建模，以达到情感语义对齐的目的。然而，基于注意力的方法仅对词级特征进行了单一的语义信息交互的建模，无法描述其中的语法信息交互。为此，王汝言等人[24]提出了多交互图卷积网络，将文本模态词语的位置距离特征嵌入到每层的图卷积网络中，设计了语义交互和语法交互模块，分别处理单词之间的语义信息和语法信息。尽管以上方法在多模态特征融合方面取得了一定的成功，但由于多模态数据之间既存在情感语义的一致性又存在情感语义的差异性，对不同模态间的情感语义差异性信息进行融合仍然是一个大的挑战。

2.2 自监督标签生成学习

在传统的监督学习中，通常需要大量标注好的训练数据来训练情感识别模型，然而这样的数据获取过程费时费力，且成本高昂。鉴于此，自监督学习范式被提出。具体来说，就是通过设计辅助任务或生成标签的方式，从大量未标记的数据中学习对所处理任务有价值的特征表示，从而减少对标注数据的依赖。例如，语言表示模型BERT[25]通过设计各种辅助任务来提取文本信息，显著提升了自然语言处理领域中各类任务的实现性能。受BERT模型的启发，Siriwardhana等人[26]提出了自监督嵌入融合Transformer模型，将各模态的特征信息压缩到一个词向量中，然后使用Transformer提取源模态的关键信息。Chu等人[18]采用了语音预训练模型HuBERT，文本模态采用的是RoBERT模型，并提出了一种音频-文本双模态Transformer模型，通过分阶段的跨模态预训练方式实现跨模态学习。这些方法都利用了自监督学习的思想，通过在模型训练中引入无监督学习机制，充分利用未标记数据，从而在情感识别任务中显著提升了性能。

除了使用预训练模型进行自监督学习的方法外，还有一种基于标签生成学习策略的自监督方法。Yu等人[27]提出的Self-MM方法采用了单模态标签生成方法(ULGM)，通过多模态标签和模态表征生成单模态监督标签，核心手段是根据模态表征到类中心的相对距离来计算偏移量的统计学方式生成标签。而Wang等人[28]考虑到对多模态情感识别任务中的文本数据通常包含更直观的情感信息，则在Self-MM的标签生成方法基础上提出了文本增强型Transformer融合方法，并结合标签生成模块获取模态间的差异性信息。Zeng等人[29]提出的HIS-MSA模型也是在ULGM的基础上采用情感领域内二次预训练的自监督学习方法，通过设计不同的预训练辅助任务，赋予预训练BERT模型情感领域内专业知识。Huang等人[30]则是在ULGM[27]的基础上进行了改进，将每个模态的特征投影到一个公共语义特征空间，通过假设该空间中两个特征向量之间的距离与标签空间中两个标签之间的距离成正比来推断单模态的标签，使得距离偏移量的计算更为简单。然而，上述基于距离的非参数化标签生成方法计算复杂度高，而且在模型刚开始训练时，存在特征动态变化显著的问题，容易造成标签生成稳定性差的问题。

3 TAM-ULAG模型

这一节对提出的结合时间注意力机制与单模态标签自动生成策略的自监督多模态情感识别方法进行详细描述。图1为TAM-ULAG模型示意图，包括了3种模态：视觉 (V)、音频 (A) 和文本 (T)。该模型的整体实现过程由3个核心部分组成：(1)时间注意力模块，用于获得一个含有上下文时序的去冗余特征序列，增强时序信息的建模能力；(2)多模态逐语义维度融合模块，用于探索不同模态之间的交互作用，以获得更细粒度的融合特征；(3)单模态标签自动生成模块，以自监督学习方式自动获得3个单模态标签，从而学习各模态间情感语义的差异性信息。

图1 结合时间注意力和标签自动生成策略的自监督多模态情感识别框架

3.1 单模态特征学习

由于各个模态特征间存在异构性，为了获取更为恰当的特征表示，针对不同的模态采用了不同的特征学习方法。

文本模态：在处理文本模态时，考虑到自监督预训练模型的广泛应用，采用目前应用最广泛的12层BERT模型对句子进行编码。具体而言，选用BERT模型第12层的第1个压缩向量[CLS]代表整个句子的表征，将其记作Ft，表达形式如下：

其中θtbert代表的是预训练模型BERT的参数。

音频和视觉模态：对于音频和视觉模态，使用单向的长短时记忆网络在时间维度进行建模，以获取相应的时间序列特征，具体形式分别如式(2)和式(3)所示：

其中， A-sLSTM网络用于对音频模态采用长短时记忆网络提取序列特征， V-sLSTM网络用于对视觉模态采用长短时记忆网络提取序列特征，θaA-sLSTM，θvV-sLSTM分别代表两个网络隐藏层的参数；Fa,Fv分别代表音频模态和视觉模态的隐藏层输出序列，即单模态的特征表示。

3.2 基于多层循环神经网络的时间注意力模块

通过 A-sLSTM 和 V-sLSTM 网络分别对音频模态和视觉模态提取时间序列特征，但此做法未考虑到时间序列信息存在重要程度的区分这一事实，而且提取的时序信息存在冗余现象。为了获得一个既包含上下文时序又去除冗余的特征序列，引入了时间注意力模块[31]。融合注意力的网络模型基于其强大的特征学习能力在各个应用领域大放异彩，本文也采用了基于注意力的网络模型。图2为模型结构图，以视觉 (V) 模态为例，设计了一种时间注意力机制来捕获情感识别中各个模态的时间序列信息。具体而言，基于循环神经网络(RNN)的模型，其递归结构可以利用前序的序列信息获得下一个隐藏层的状态，通过时间注意力机制，可以完成不同模态、不同时刻的注意力权重计算。为了捕捉每个模态在不同时刻对时间序列特征的影响，利用编码器对输入向量x1,x2, ···,xi进行线性嵌入，如式(4)所示：

图2 时间注意力机制模型结构图

其中v1,2,...,i ∈Rm代表输入向量x1,2,...,i的嵌入，作为循环神经网络的输入，m代表嵌入维度的大小，Wenc∈Rm×r是可学习的嵌入矩阵。

为了完成对时间序列的注意力权重分配工作，设计了基于多层RNN的时间注意力机制，采用RNNα和 RNNβ学习嵌入向量v1,2,...,i，生成两个注意力参数α和β，分别作为时间序列的两个不同的注意力权重。其注意力参数计算可以分别从式(5)至式(11)中得出：

其中，gi ∈Rp是第i个时间步在 RNNα上的隐藏层向量，hi ∈Rq是 RNNβ上的隐藏层向量，wα ∈Rp,bα ∈R,wβ ∈Rm×q以及bβ ∈Rm都是可学习的参数，超参数p和q决定了 RNNα和 RNNβ隐藏层的大小，⊙代表逐元素相乘操作。对每个时间序列进行学习时，组成了新的注意力向量α1,α2,...,αi和β1,β2,...,βi，确保了注意力向量在每个时刻都被进行计算，提高注意力生成过程的稳定性。对于这两组新的注意力向量，本文采用两种不同的激活函数，一种是 tanh(·) 函数，一种是 tanhshrink(·)函数，即将x-tanh 作为激活函数，它是在 tanh函数的基础上计算输入与输出之间的差值。而且，这两个激活函数的值域不同，能对不同的值域进行激活过滤，实现互补。基于这些注意力参数，可以捕获时间序列中的重要信息，最后将聚合后的上下文向量送到解码器中，获得经时间注意力模块处理后的特征向量yi。

3.3 逐语义维度融合的细粒度多模态融合模块

在多模态融合阶段，本文采用特征交叉融合方式，在语义空间进行逐语义维度的细粒度特征融合，以增加模型的非线性能力。对特征向量的每一维，特征交叉融合会首先学习一个预先设定好特征维数的隐向量，通过在两种不同模态间进行特征交叉，既可以兼顾特征融合又可以兼顾特征维度变换，提高了模型对多模态信息的整合能力，有助于增强情感识别的性能。

具体而言，特征交叉融合采用更细粒度的加权求和取平均值的方式。例如，在对文本模态与音频模态进行融合时，首先将文本模态特征向量的每一维元素与音频模态特征向量的所有维相乘，然后对结果取平均值，得到融合模态Ft,a的第1维，再依次得到融合向量的每一维。按照这样的方式，3种模态可以得到6种特征融合模态。将这6种融合模态向量与最初的3种单模态向量进行拼接，得到最终的融合向量。

例如，音频模态A=[x1,x2,x3,...,xn]与文本模态T=[y1,y2,y3,...,ym]相融合的最终表示如下：

其中，n和m分别表示音频模态和文本模态的特征向量维度。通过逐语义维度特征交叉融合，可以得到音频和文本进行融合的结果Fa,t以及文本和音频交叉融合的结果Ft,a。

对于多模态任务的输出，将所有的单模态以及融合模态的向量拼接起来，并将它们投影到一个更紧凑的低维表示空间Rdm中。按照式(13)，通过在低维空间中进行学习，模型可以更好地捕捉不同模态之间的关系，从而提高情感识别的性能。

在实现单模态情感识别任务时，采用硬共享方式共享模态表示。为了降低不同模态间的维度差异，先采用模态编码器对特征向量进行降维凝练，再将其转化为具有固定维度的稠密向量。最后，利用得到的特征向量进行单模态情感识别，输出预测结果，如式(15)和式(16)所示：

3.4 基于特征间相似度的自监督单模态标签生成模块

以前的单模态标签生成[27]工作是通过各模态表示到类中心的相对距离来计算偏移量的，从而生成单模态的情感标签，如图3所示。然而，这种基于距离的方法是静态的，不但没有可学习参数，而且计算方法较为繁琐，无法适应更复杂的情况。为了克服这些限制，本文设计了一种自动生成标签的方法，通过计算特征间的相似度，获得特征与标签之间的对应关系。

图3 基于距离中心的标签生成方法[27]

通过权重注意力的计算，并依赖于不同模态间的相似度，实现标签自动生成。具体而言，将每个模态的向量和其他模态向量进行注意力相似度计算，得到注意力分数。然后，将注意力分数作为权重，赋予各模态向量，进行加权求和，得到更新后的特征表示。最后，利用模态间的相似度获得高质量的单模态标签。具体计算方法如下：

其中，当计算文本模态与多模态融合向量间注意力分数时，可用αmtm表示，依此类推可以得到4组注意力分数，Ftw代表基于注意力分数更新后的文本特征表示，ck为模态间的相似度，当k=t时，代表计算文本情感识别任务与多模态任务的相似度。根据多模态标签和特征间相似度，可以赋予文本情感识别任务一个生成标签。具体的标签生成方法如下：

但是，由于多模态标签区间并不总是在 [0,1]范

因此，如果模态间相似度ct=0.9，多模态标签ymm=1，则通过计算可得最终的单模态标签yt=0.8；如果ymm=-1 ，最终的单模态标签yt=-0.8。自监督单模态标签自动生成算法的更新方法如算法1所示。

3.5 优化目标

算法 1 自监督单模态标签自动生成

4 实验结果与分析

本节主要分为8个部分：数据集介绍与评价指标、基准模型简介、实验设置、对比实验及分析、消融实验及分析，模型参数分析，模型时间复杂度和空间复杂度分析以及实例分析。

4.1 数据集与评价指标

在本文中，选择CMU-MOSI, CMU-MOSEI以及CH-SIMS这3个在多模态情感识别中常用的数据集对模型进行验证，对数据集的划分如表1所示。其中，CMU-MOSI, CMU-MOSEI是英文数据集，并对多个模态进行了统一的多模态情感标注。而CH-SIMS是中文数据集，不仅包含多模态标签，还针对3个单模态进行了独立的情感标注。

表1 数据集的统计信息

4.1.1 CMU-MOSI

CMU-MOSI数据集是多模态情感识别领域广泛采用的基准数据集，来源于 Youtube，包含了89名视频博主谈论对电影、书籍、产品等话题的看法。该数据集由93个独白视频组成，每个视频片段都涵盖了一种情感状态。这些情感状态经人工标注获得的标签取值范围从-3到+3，共分为7个等级。

4.1.2 CMU-MOSEI

CMU-MOSEI[14]数据集是对CMU-MOSI数据集的扩充，大约是后者的10倍，是目前最大的多模态情感识别数据集。包含来自1 000名演讲者的视频片段，并且每条视频片段都包含一种情感状态，该情感被人工标注打上标签，取值范围从–3到+3，共分为7个等级。

4.1.3 CH-SIMS

CH-SIMS[13]数据集是一个中文的多模态多标签情感数据集，具有各个模态的细粒度标签标注。该数据集包含来自不同电影、电视剧、综艺等素材的视频片段，且每一个视频片段都包含一种情感状态，该情感被人工标注获得的标签取值范围从–1到+1。

4.1.4 评价指标

本文选取了在多模态情感识别领域中最常用的5种评价指标，分别是：(1)平均绝对误差(MAE)，它是模型预测标签与真实标签之间的误差；(2)皮尔逊相关系数 (Corr)，是模型的预测值与真实值之间的相关程度；(3)二分类准确率 ( Acc2)，是情感被分为正向和负向两种分类的准确度；(4)F1分数，是用来衡量模型二分类准确率的一个指标，综合考虑了精确率和召回率；(5)七分类准确率 ( A cc7)，是用来衡量情感被分为7类的准确度指标。其中，除平均绝对误差外，其余的指标数值越高越好。

4.2 基准模型

TFN[9]：通过建立多维的张量，并对每个模态向量用1进行扩充，对扩充后的各模态向量求笛卡尔积，既保留了单模态特性，又建模了双模态以及三模态之间的相关性，是多模态情感识别中常对比的基准模型。

RAVEN[32]：采用基于注意力机制的方法，利用其他模态特征调整文本特征表示，体现出多模态的重要性。

MCTN[33]：通过将源模态的特征序列转换为目标模态的特征序列，缓解因模态缺少导致的性能下降问题。

MuIT[34]：利用多模态Transformer的模型，实现两种模态间跨模态注意力交互从而完成模态间的特征对齐。

MAG-BERT[35]：把非文本模态的特征融合到BERT微调阶段，使得词向量可同时学习其他模态的信息。

HMAI-BERT[36]：采用分层多模态对齐和改进型BERT的交互网络，缓解因采样频率不同带来的异步性。

MISA[37]：将不同模态的特征向量投影到两个不同空间中，同时学习模态特定表示及模态不变表示。

MMIM[38]：最大化输入特征和融合特征表示的互信息，利用此操作达到去冗余的目的。

ConKI[39]：给模态加入特定知识和一般知识共同学习。

SELF-MM[27]：通过自监督标签生成模块实现多模态任务与单模态辅助任务的联合训练。

SUGRM[30]：在Self-MM的基础上，提出了重新校准的方法来联合训练多模态和单模态任务。

TETFN[28]：采用文本增强的Transformer融合网络，面向文本实现成对跨模态映射，获得统一的多模态表示。

MTL-BAM[40]：将多任务学习作为模型学习的架构，结合注意力机制使每个模态可以相互学习和补充。

MTSA[41]：将视觉模态和音频模态转化成文本模态，增强文本模态的质量。

SaPIL[42]：提出一个基于协方差矩阵的深度共享模态特征学习模块，以捕获模态间的共享信息。

TPMSA[43]：采用了两阶段多通道的框架，通过预训练模型和多任务的分类学习实现情感识别。

HIS-MSA[29]：利用异构图卷积神经网络和域内二次预训练的方式，进行自监督多任务学习。

4.3 实验设置

本文的模型是在PyTorch深度学习框架下设计并实现的，所有的实验都是基于Intel(R) Core (TM)i9-10900K CPU @ 3.70GHz, GeForce RTX 3 080 GPU配置的服务器实现，选用Adam作为优化器，并设置 0.00005作为BERT模型的初始学习率，其他模型的学习率设为 0.0003，并且当梯度值超过0.8时执行梯度截断。对于这3个数据集，模型的超参数设置如表2所示。

表2 模型的超参数设置

4.4 对比实验及分析

表3呈现了模型在CMU-MOSI数据集上的实验结果，使用了5个评价指标来度量模型性能。在数据设置方面，研究表明，虽然未对齐数据相较于对齐数据增加了识别难度，但却能更准确反映真实场景的复杂性。因此，本文采用了未对齐的数据设置方式。其中，标有•的数据是按照原文公开代码复现获得的实验结果，没有标•的数据直接来自相关文献的实验数据，加粗代表了模型指标为最优，标有下划线代表该指标为次优。实验结果表明，本文提出的模型(TAM-ULAG) 相较于表中其他模型在各项指标上都实现了改进，尤其在分类准确率方面，达到最佳水平，且远超其他模型。正如表3所示，模型在7类准确率 (A cc7) 、二类准确率 ( Acc2)、F1分数 (F1) 上达到最优，但是在平均绝对误差(MAE) 和相关系数 (Corr) 上略低于HIS-MSA模型。这可能是因为HIS-MSA模型通过对文本模态进行域内二次预训练，更好地提取了与情感相关的文本信息，从而在回归任务指标上略高于本文模型。尽管如此，本文模型仍然达到了次优水平，并且远高于平均水平。

表3 不同模型对比结果CMU-MOSI数据

在表3中，标有 (B) 的工作均采用了BERT作为文本模态的预训练模型。可以观察到，相比于使用词嵌入等方法，BERT模型能够显著提高识别准确率。这归功于BERT模型具有出色的动态性，能够提取更丰富的上下文语句信息，有效解决了其他方法只能学习到词向量特征表示的问题，凸显了其在深层语义提取方面的优势。因此，本文选择BERT作为文本模态的预训练模型。表3中标有⊗符号的工作均采用了多任务学习的框架。结果表明，多任务学习框架能够将模态一致性特征和模态差异性特征区分开进行特征学习，识别性能较直接融合3种模态的方法更为出色。表中自监督单模态标签生成方法都是利用模态表示到类中心的相对距离计算偏移量的思路生成单模态的情感标签。然而，这种方法采用静态的统计学计算，在训练初期缺乏稳定性，计算较为繁琐，难以适应更复杂的情况。而本文采用了模型自动生成的方式，更为简单高效，准确率也更高。以SELF-MM模型为例，我们的模型在5个性能指标上均优于它。

如表4所示，对CMU-MOSEI数据集进行了实验分析，结果显示TAM-ULAG模型在数据方面明显优于其他模型。表中标注有 (B) 的方法均使用了BERT预训练模型作为文本特征学习方式，因此性能较为优越。标有⊗标识的方法不仅提取了模态间的交互信息，而且对单模态内部信息也有较好的表示。本文提出的TAM-ULAG模型在对单模态进行有效表征的同时，还能够充分融合多模态特征。结果表明，其Acc2和F1分数达到最优性能，而回归性能指标虽略低于其他模型，但仍处于次优水平，且远高于平均水平，这表明我们的模型采用的多任务学习方式更适合于分类任务，在这种任务上具有更高的识别准确率。

表4 不同模型对比结果CMU-MOSEI数据集

本文还在中文情感分析数据集 CH-SIMS上，对模型进行了评估。该数据集采用非对齐的数据设置方式，在表5中，将模型与5个现有的基于非对齐数据的多模态情感识别模型进行了比较，实验结果表明，本文模型在4个指标上均优于其他基准模型。表中Humman-MM表示人工标注的单模态标签，结果显示本文模型达到了比人工标注更好的识别性能。

表5 不同模型对比结果CH-SIMS数据集

以上实验结果表明，TAM-ULAG模型无论在大数据集还是小数据集，或者是英文数据集还是更加难以识别的中文数据集上，都展现出更为优越的情感识别性能。

4.5 消融实验及分析

为了深入分析TAM-ULAG模型中各个组成模块对模型性能的影响，以及所设计各模块的合理性，在CMU-MOSI数据集上进行了全面的消融实验。为了保证消融实验的公平性，实验中涉及的模型在超参数设置上均保持一致。由于模型训练的结果可能存在一定波动，为了获得更准确的对比结果，对每组实验运行了3次并取其平均值作为最终的实验结果。

本文模型主要包括4个重要模块：文本BERT预训练模块、时间注意力模块、多模态融合模块以及单模态自监督标签自动生成模块。为了验证模型中各个模块的必要性，在CMU-MOSI数据集上进行了一系列的消融实验(表6)，w/o代表从模型中删除该模块。现对每个模型的解释如下：

表6 CMU-MOSI数据集上不同模块的消融实验结果

TAM-ULAG：采用完整的多任务自监督标签生成方法，包含以上4种模块。

w/o BERT：去除BERT模块，该实验是验证BERT模型在文本方面的作用。

w/o 时间注意力：去除时间注意力模块，该实验是验证时间注意力模块的作用。

w/o 多模态融合：去除多模态融合模块，采用直接拼接，该实验是验证多模态融合方法的有效性。

w/o ULAG：去除单模态标签生成模块，该实验是验证多任务学习中辅助任务的有效性，只进行多模态情感识别任务。

Use ULGM：该实验表示的是在单模态标签生成模块采用基于距离的标签生成方法。

Use SUGRM：该实验表示的是在单模态标签生成模块采用基于距离的的标签生成改进方法。

从表6可知，当对各个模块进行消融时，时间注意力和多模态融合以及单模态标签生成模块都被证明是模型不可或缺的组成部分。特别地，BERT预训练模型作为文本模态的特征学习模型，有助于模型充分学习文本的上下文信息。当这个模块被移除时，模型的准确率显著下降。此外，对单模态标签生成模块进行消融时，将此模块替换成ULGM和SUGRM方法时，发现模型准确率均有所下降，这证明本文提出的单模态标签自动生成方法能够使模型更有效地学习适用于特定任务的特征表示，从而提升模型的识别准确率。

为了验证模型中辅助任务的有效性，将不同单模态任务进行组合。在CMU-MOSI数据集上设计了一系列消融实验(表7)，通过保留和删除不同模态，来探索各个模态的贡献度。M代表多模态任务，T代表文本模态，A代表音频模态，V代表视觉模态。实验结果表明，结合单模态任务可以提高模型的性能。当删除任意模态时，模型的所有指标均出现了一定程度的下降。说明在训练的过程中，模态辅助任务对多模态情感识别均发挥了积极作用。对于单模态情感识别任务，发现文本模态包含了更多的情感信息，更适合于情感识别任务。在使用两种模态进行情感识别时，情感识别效果明显优于单模态情感识别，这表明通过结合多种模态进行情感识别是有效的。而在将三模态同时作为情感识别的辅助任务时，各项指标均取得了最优值。说明只有将三种模态一起作为多任务学习的辅助任务，模型才能更好地建模单一模态中的情感信息以及不同模态特征之间的交互作用。

表7 CMU-MOSI数据集上不同模态配置的消融实验结果

4.6 参数分析

针对自监督学习生成的单模态标签，通过实验可以观察到，生成标签的维度对实验结果产生了显著的影响。如图4所示，本文在CMU-MOSI数据集上验证了在改变生成标签的维度大小时，模型性能产生的变化。实验中，尝试了4种不同维度。从实验结果可以观察到，随着维度的增加，训练准确率呈先升高后下降的趋势，当维度大小设置为16时，可以达到较好的性能。这表明在生成标签任务中，标签维度并非越高越好，使用相对较低的维度就足以实现相当突出的性能。

图4 不同维度大小对模型的影响图，在CMU-MOSI数据集上对4个评价指标进行计算。

4.7 模型复杂度分析

为了验证所提出模型的时间及空间复杂度，对TAM-ULAG模型在不同数据集上进行了实验评估，结果见表8。所有方法均使用相同批量大小和迭代次数，训练时间和测试时间分别表示在训练和测试过程中处理单个样本所需的时间，即模型的时间复杂度。参数量表示模型中可训练参数的数量，即模型的空间复杂度。其中可以发现，尽管TAMULAG模型参数量相对于SELF-MM略高，但总体上仍然在一个量级内，这可能是由于本文模型在多模态融合模块中引入了更多的参数。在时间复杂度方面，本文模型在训练和测试阶段都显著减少了所需时间。这主要归因于采用的是模型自动生成标签的方法，其计算更为简单高效。以CMU-MOSI数据集为例，在处理单个样本时，SELF-MM模型需要1.57 ms，而本文模型仅需要1.19 ms。这说明其在保持模型参数量相对稳定的同时，降低了训练和测试的时间开销，在时间复杂度和空间复杂度上均展现出了良好的竞争力。

表8 模型在不同数据集上的训练时间、测试时间和参数量的比较

4.8 实例分析

为了验证自监督标签自动生成方法的合理性，选取了3个实验示例进行测试，如表9所示。原始标签代表的是数据集中的真实标签值，其余3个标签代表的是自监督标签自动生成任务中生成的单模态标签。在示例1中，可以看出，生成的单模态标签与人工标注的原始标签趋于一致，多模态标签为负极性，生成的单模态也为负极性。由示例2看出，生成的单模态标签相对于人工标注的原始标签产生了负向偏移效果。在示例3中，图中示例表现出皱眉的神情，视觉模态也出现了负向偏移。这些示例表明，我们的模型能够根据真实场景的具体情况，生成与之匹配的情感标签。综上所述，通过自监督标签自动生成模块生成单模态情感标签作为辅助任务，有助于模型学习特定模态的情感表征，从而让模型在关注模态情感表征一致性的同时，不忽略其差异性，进而提高模型的情感识别性能。

5 结束语

为了提高多模态情感识别的性能，本文提出了一种基于时间注意力机制和特征间相似度的单模态标签自动生成策略的自监督深度学习模型。该模型采用时间注意力思想，增强了对时序信息的建模能力。针对多模态融合不充分的问题，提出了逐语义维度的细粒度多模态特征融合，使模型更容易地建模不同模态之间的交互作用。其次，提出了一种新的单模态标签自动生成方法，这与以往的工作不同，摒弃了静态的统计学计算方法，利用模型自动计算多个模态间的相似度，得到对应的相似度分数，从而实现了单模态标签的有效生成。在CMU-MOSI,CMU-MOSEI和CH-SIMS数据集上的实验结果表明，模型性能显著，远超过情感识别准确率的平均水平，并在分类指标上达到最优结果。

尽管提出的模型在3个数据集上优于当前先进的方法，但更重要的是要在更广泛的数据集和任务中评估其性能，以确保它的可推广性。在未来的研究工作中，我们将进一步探索模态间的融合机制，挖掘异质模态间的相关性，以提高模型的表达能力。同时，将考虑使用数据预处理和数据增强等策略来降低模型的平均绝对误差，以进一步提升情感识别性能。