利用协同神经网络的学者情感分析

2024-03-08 12:02广东司法警官职业学院赖河蒗广东省外语艺术职业学院王丽丽林肖丽广东司法警官职业学院李玲俐许学添陈丽仪
广东教育 2024年2期
关键词:参量特征向量原型

文/广东司法警官职业学院 赖河蒗 广东省外语艺术职业学院 王丽丽 林肖丽 广东司法警官职业学院 李玲俐 许学添 陈丽仪

引言

随着社交网站的发展和智能终端的普及,越来越多的学者利用学术社交网站(Academic Social Network Sites,ASNS)开展各种学术社交活动,例如学者用户可以在ASNS上获取学术信息、联络学术朋友、发表学术观点、讨论学术话题、开展科研协作、交流学术经验、参与同行评议、分享科研成果以及共享学术资源等。[1,2]ASNS主要是针对学术信息共享和学者交流而建立的网站,对学者之间的交流、通信和合作方式等产生了深刻的影响。学者网(SCHOLAT,https://www.scholat.com/)是国内具有高影响力的ASNS,为科研学者提供了高效便捷的交流渠道,整合了共享和交流两大核心功能,体现了共享、和谐、友好和协作等理念。学者网既是一个汇集了文本图像等模态数据的学术社交平台,也是学术研究者之家园,国内外许多学者已经加入到这个平台。在这个平台上,学者可以简单快捷地公开或发布学术动态信息,可以轻松方便地发现或联系与自身研究领域相关的同行学者,可以高效地传播或推广学术相关的信息。相关学者用户发布动态信息之后,其他感兴趣的学者可以及时了解,也可以对动态信息表达出自身的一种情感。例如,某学者对于某一条动态信息表达支持、认同、肯定或同意等情感时,最常见的方式是点赞、转发或收藏该条动态信息,或者是对该条动态信息发表正面评论。反之,如果某学者对某条动态信息持一种中立、忽视或否定等情感时,通常的方式是浏览完后离开页面,或者对动态信息发表相关负面评论。

学者或学术研究人员是一个较为特殊的群体,他们对社会的影响往往也是巨大的。因此,学者们在ASNS上的个体使用行为值得关注。学者的行为与学者的情感是紧密相关的,对学者的情感开展相关研究,有助于及时了解学者的情感倾向,可以为学者推荐其感兴趣的相关领域的学术动态信息,也可以促进学者相互之间的交流。[3]本文基于学者网平台,利用平台的数据资源,提出了一种基于协同神经网络(Synergetic Neural Network,SNN)的学者情感分析模型,旨在分析和挖掘学者对学术动态信息的情感。在基于学者网的学者情感数据集上开展了相关实验,结果显示,本文所提出的模型可以获得良好的学者情感分类性能。

一、相关工作

情感分析也称为观点挖掘,是人工智能或自然语言处理领域的重要研究内容之一。[4,5]通常是指对带有情感色彩的主观性数据进行处理、挖掘和推理等过程。在近些年,神经网络的浪潮再次掀起,其在很多研究应用领域发挥了重要的作用。科研学者期望使用神经网络的显著优势来解决或优化一些用传统方法难以解决的问题,当前已有很多学者利用神经网络的优势开展了情感分析的研究工作。[6-17]方悦等提出了一种双通道卷积神经网络和循环网络变体的特征融合情感分析模型,能够获取更全面的情感特征。[6]王宇欣等从不同角度对注意力机制进行分类并阐述了注意力机制结合各类神经网络模型在情感分析中的应用。[7]杨青等提出了一种注意力机制和门控单元融合的情感分析模型,提升了捕获文本上下文语义和提取文本内重要信息的能力。[8]Poria等提出了多层次多注意力机制的上下文多模态情感分析模型,在捕获上下文信息方面取得了良好效果。[15]Majumder等提出了一个带有注意力机制的循环神经网络,改善了会话情绪检测效果。[16]Hazarika等利用模态的不变性和专属性对多模态情感分析进行建模,将每个模态投射到两个不同的子空间,取得了良好的实验效果。[17]

SNN是一种典型的自组织神经网络模型,通过自上而下的方式构造网络,从动力学方程出发,利用协同学中的支配原理和势函数机制,利用网络的内部竞争与合作过程作为网络的运行机制。SNN具有训练时间短、网络收敛快、能够在数学意义上严格处理网络的行为、其序参量的演化过程符合人的认知过程以及有较高的可解释性与可类比推理性等优点。已有学者利用SNN开展了相关研究工作。郭巍等提出了基于协同神经网络对军事目标进行识别的方法,并通过仿真验证了其方法的有效性。[18]张爱华提出一种动态协同神经网络算法,采取了注意参数动态调整的策略,在演化过程中对误识别的模式进行自适应纠正,实验表明提高了网络的自学习能力和分类的精度。[19]缑水平等提出了基于免疫克隆聚类的协同神经网络原型向量求解算法,可以提高网络的识别性能。[20]孙静提出了一种基于协同神经网络算法的红树林图像识别方法,利用微粒群算法对平衡参数方法进行改进后识别效率得到改善。[21]

学者网创立于2009年。自创立以来,学者网受到了广泛的关注和肯定。很多科研学者纷纷基于该平台开展了相关研究,例如进行教学模式挖掘[22]、教学平台研究[23]、学者论文与项目关联模型挖掘[24]、学者推荐[25]以及社区发掘[26]等。以上工作都是基于学者网开展的相关研究,也都取得了一定成果,但是目前还没有研究人员针对学者网中的学者情感数据开展研究。学者的情感表达模式相对比较稳定,利用SNN对学者情感进行建模,有望能获得良好的情感识别性能,进而为提高推荐系统的性能提供实践导向。学者网中蕴藏着丰富的学者情感数据,可以为本研究提供数据支持。基于以上,本文提出利用协同神经网络的学者情感分析模型。

二、模型框架

(一)SNN原理

协同学的创始人是德国物理学家Haken(哈肯)教授。在20世纪70年代,哈肯深刻阐述了协同的概念。[27]在20世纪90年代,哈肯将协同学思想扩展到计算机科学和认知科学,并且将原理运用于模式识别,提出了基于协同学的神经网络,即协同神经网络(Synergetic Neural Network,SNN),或称之为协同计算机[28],图1是SNN的基本结构图。

图1 SNN的基本结构图Fig.1 The structure of SNN

SNN通过构造非线性动力学系统的动态过程来实现模式识别的功能,即模式识别过程对应于一个动力学过程。具体来说,一个初始的实验模式q,经过动力学过程的若干中间状态演化后,进入到诸原型模式中的其中一个原型模式(假设为νk),即这个原型模式νk与q最为靠近。这个过程可描述为:

q(0)→q(t)→νk

(1)

哈肯指出,完成动力学过程需要具备两点:第一,系统的势函数可微,具有多个分别与原型向量相对应的稳定平衡点,所构造的神经网络稳定收敛;第二,具有对应于记忆样本的全局渐进稳定的唯一平衡点,无伪状态。为此,引入了势函数:

(2)

该势函数对应的动力学方程为:

(3)

直接对式(3)进行非线性运算时的运算量是非常巨大的,为了简化原系统(原系统的动态特性保留),引入了序参量ξk。将实验模式q在原型模式向量上分解为:

(4)

(5)

(6)

式(6)是微分方程,其求解仍然较为复杂。在实际应用中,往往使用离散协同神经网络,其动态迭代公式为:

(7)

(二)结构组成

图2展示了基于协同神经网络的学者情感分析模型结构。

图2 模型的框架图Fig.2 The framework of the model

选取学者信息和动态信息作为数据源,对两方面的信息进行属性选择与预处理,得到模型输入的特征数据集。具体而言,在学者信息方面,首先选择学者的个人简介(主要包括研究兴趣和教育背景等)、学术成果(包括发表的部分论文和著作)、工作经历或者获奖荣誉等作为属性,然后将选择属性对应的内容进行预处理,最后形成学者信息的特征向量scholarVector。同理,在动态信息方面,首先选择该动态信息的类型、摘要、部分关键文字内容或者代表性图片等作为属性,然后将选择属性对应的内容进行预处理,最后形成动态信息的特征向量dynamicInformationVector。当某个学者浏览了某条动态信息,该学者与该条动态信息之间会产生一个情感事件(该事件可以反映学者对动态信息的情感倾向)。将情感事件中的学者信息特征向量scholarVector和动态信息特征向量dynamicInformationVector进行级联,可以得到情感事件的特征向量sentimentEventVector。学者信息、动态信息以及情感事件三者之间的关系可以用图3来表示,图中的每一条边可以代表一个情感事件,边上的数值可以代表级联后的特征向量sentimentEventVector。

图3 基于动态信息的学者情感事件关系图Fig.3 The relationship graph of scholar emotion event based on dynamic information

本研究选取学者网平台中产生的部分情感事件作为特征数据集,并且将特征数据集划分为训练集和测试集。在训练集中选取原型模式,并且通过学习训练,求得伴随向量。测试集中的数据为实验模式向量,在测试时与求得的伴随向量相乘,可以得到初始的序参量。初始序参量进行演化,直至达到稳定状态。当序参量达到稳定状态后,输出识别结果。

三、模型过程描述

模型的过程分为两个阶段,分别是训练阶段和识别阶段。训练阶段主要是要完成网络学习,求取初始化序参量。识别阶段主要是将各个初始序参量引入竞争方程,进行动力学演化,使得与实验模式相似度最大的序参量获胜,最后输出识别结果。

(一)训练阶段

①选取原型模式。将训练样本对应的特征向量进行处理,使其满足归一化和零均值条件。依据动态信息的不同类别,经过相关变换计算,可以获得满足归一化和零均值条件的原型模式向量。

②求解伴随向量。利用伪逆矩阵进行求解,并且存储其数据。在SNN中求取伴随向量的过程被称为SNN的学习过程或者训练过程,原型向量和伴随向量需满足正交条件。

(二)识别阶段

训练完毕之后,按照SNN的结构(如图1),将伴随向量作为输入层到中间层之间的权重,将原型向量作为中间层到输出层之间的权重;中间层神经元的个数设置为原型模式个数(M)。

识别阶段主要有以下步骤:

①将测试样本对应的试验模式向量进行处理,使其满足归一化和零均值条件,并且将其作为网络输入层。输入层的数据与网络参数(即伴随向量)相乘,得到初始的序参量。在初始时刻,具有最大值的序参量对其他序参量的抑制力最强,其生长能力也最强,在竞争层竞争能力也最强。

②序参量根据式(7)进行演化。SNN以内部互相协作与竞争的形式生成最终模式。

③判断演化是否稳定,若演化稳定,则输出识别分类结果,即最终序参量模值为1的类别为测试样本所属的情感类别;若演化未稳定,则转上一步继续演化,重复此过程直到出现演化稳定状态。

四、实验与分析

(一)数据集介绍

实验选取了部分具有代表性的学者情感事件作为实验的数据集。数据集中有一半事件是带有正面情感,另一半事件是带有非正面情感,即共有两种不同的学者情感类型。其中正面情感事件是指学者对动态信息有点赞、转载或收藏等行为之一;非正面情感事件是指学者对动态信息没有点赞、转载和收藏等行为。

(二)参数设置

利用Doc2vec对学者信息和动态信息进行预处理,分别得到100维度的学者信息特征向量scholarVector和100维度的学术动态特征向量dynamicInformationVector。将scholarVector和dynamicInformationVector进行级联,得到200维度的情感事件特征向量sentimentEventVector。设置SNN中的注意参数λk=1,γ=1/D,B和C均为1,迭代次数为40次。按照不同的学者情感类型,将训练集中样本的特征向量sentimentEventVector进行数学平均化,得到原型向量。原型模式个数M为2。实验以分类准确率作为评估指标来衡量模型的性能效果。实验将数据集随机打散,按照一定比例划分出训练集,剩余部分作为测试集。具体是,实验将训练集所占比例分别设置为20%、30%、40%、50%、60%、70%和80%。在训练集占比例为以上各种不同取值的情况下,实验都随机运行10次,并且取运行结果的平均值作为性能评估的数据。

(三)结果与分析

表1汇总了模型在训练集占不同比例情况下的分类准确率,当训练集占比为80%时,模型可以得到准确率为98%的分类性能。

表1 模型在训练集占不同比例情况下的分类准确率Table 1 Classification accuracy of model in different proportion of training set

从表中可以看到,随着训练集占比增大,分类准确率也相应得到了提高。原因是随着训练集占比增大,通过平均化后,获得的原型向量更加具有代表性,使得识别阶段获得的效果更佳。因此,这种情况验证了基于SNN的模型性能与原型模式向量的选取有着重要的关系。

图4描述了当训练集占比为80%时,模型对某测试样本的识别过程。从图中可以看到,测试样本向量初始序参量中ξ(1)模值大于ξ(2)模值,在迭代演化过程中,ξ(1)一直保持优势,并且最终ξ(1)趋向于1,ξ(2)趋向于0,从而使得测试样本被识别为第一种学者情感类别。模型对学者情感的最终识别结果为具有最大模值的序参量对应的情感类别。

图4 训练集占比为80%时测试样本的序参量演化过程Fig.4 Evolution process of order parameters of a test sample with 80% training set

结语

本文基于学者网平台的学者情感数据,运用SNN原理与基本结构,构建了学者情感分析模型,详细介绍了所提出模型的结构组成以及原理,阐述了模型两个阶段的步骤过程,并且开展了相关实验,旨在挖掘和预测学者对学术动态信息的情感。当实验训练集占比为80%时,本文模型可以得到准确率为98%的分类性能。下一步将细化学者情感类别,扩大学者情感事件的数据集,研究更好的原型选取方法。

猜你喜欢
参量特征向量原型
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
包裹的一切
《哈姆雷特》的《圣经》叙事原型考证
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
论《西藏隐秘岁月》的原型复现
原型理论分析“门”
环形光的形成与参量的依赖关系
含双参量的p-拉普拉斯边值问题的多重解