大数据时代公安网络舆情风险识别研究

2022-05-15 02:50靳会峰

中国人民警察大学学报 2022年4期

刘通，靳会峰

中国人民警察大学宣传处，河北廊坊 065000

0 引言

网络舆情是社会舆论的一种表现形式，是公众在互联网空间内对热点事件、话题发表的言论与观点[1-2]。而大数据舆情监测是为适应大数据时代舆情新特征而发展起来的，基于大数据分析技术的网络舆情风险识别，可以有效地从海量网络信息中识别危机事件与社会风险的信息源头，分析公众舆论观点和情感倾向，并通过匹配数据库中已有的相似事件进行风险评估和策略优化选择[3]。发现并识别网络舆情隐性风险、分析其演变发展规律，是及时应对舆情危机的前提[4-5]。

国外学者从网络舆情预测分析角度开展了大量研究。Salehan等利用大数据技术建立了一个在线消费者评论预测模型，通过分析读者感情倾向得出：具有积极情绪的标题更容易引起读者关注[6]。Poria等提出一种基于深度学习的观点提取方法,使用7层深度卷积神经网络标注了舆情信息中用于情感分析的关键词，极大提高了舆情信息数据识别的准确度[7]。Hardy等人在舆情信息数据公开度方面进行了相关研究，探讨了将政府数据公开发布的好处及潜在舆情风险[8]。国内学者多以网络舆情的演变与传播规律、舆情风险的识别等为对象开展相关研究。黄微等研究了大数据环境下多媒体网络舆情信息传播要素和运行机理，构建了传播机理的总体关系架构，为政府部门开展网络舆情信息监管工作提供重要支持[9]。徐江虹深刻分析了高校网络舆情在内容、主体、传播媒介、传播方式等方面的新变化，并在舆情识别、研判、处理等方面提出了新的治理方案[10]。高歌等从系统动力学角度剖析了大数据时代网络舆情演化机理，阐释了网络舆情演化阶段和要素[11]。王政构建了以主题为引导的舆情风险识别平台，能够更加准确迅速地了解和掌握网络舆情发展现状与变化规律，并对信息采集模型中的元搜索算法进行改进，加大了对各类舆情信息数据收集的深度与广度[12]。

笔者基于大数据分析和网格建模思想初步建立了一种遗传算法优化的动态网格舆情风险识别系统，可从大数据平台获取的海量舆情信息中筛选关键信息，有效预测并评估舆情风险。

1 大数据时代网络舆情的新特点

伴随着网络信息技术的普及，社会舆论表达逐步实现了对网络媒体平台的全覆盖[13]。网络舆情正以其特有的方式反作用于现实社会，造成积极或负面的影响[14]。在大数据时代背景下，网络舆情呈现出许多新特点和新变化：(1)规模大。据国际数据公司(IDC)研究报告，到2020年，全球数据使用量达到35.2 ZB，2021年非结构化数据占有比例将达到互联网整个数据量的75%以上。(2)传播快。与传统舆情不同，基于互联网媒介的网络舆情传播速度更快、受众更广。其主要原因是互联网的开放性拓宽了网络用户的社交空间，尚不健全的信息发布审核机制也加快了网络信息的自由传播。(3)种类多。大数据时代网络舆情信息复杂多样、种类繁多。来自社会不同领域和阶层的网民广泛参与舆情信息的发布和传播，构成了具有多元性、全民性、交互性、实时性的舆情信息网络。

总之，网络舆情的大数据特征使得公安网络舆情风险识别、监管和引导工作增加了复杂性和不确定性。

2 大数据时代网络舆情风险的数据采集

大数据时代背景下的网络舆情新特点扩大了普通民众的话语权，也对网络舆情风险识别提出了新的挑战。海量的网络舆情信息数据离不开平台技术的支持[15-16]，通过大数据分析处理和舆情结构建模，可以对舆情发展态势和影响进行研判。应当充分发挥大数据前瞻预测和数据比对两大技术优势：前瞻性趋势预测，即对趋势作出正确判断，是大数据时代舆情管理的核心；数据比对分析，即充分利用多样化数据，将不同领域的数据关联起来进行分析。对舆情发展趋势的预测分析是网络舆情风险识别的重要技术内容，通过对重点主题进行密切跟踪与监测，同时做好数据采集、分析，结合历史上的类似事件进行趋势预测，提出应对和防范措施，可最终达到风险规避目的。另外，许多网络舆情信息都存在潜在关联，相互关联的网络信息编织成巨大的舆情信息网络，挖掘舆情信息数据中的内在联系，建立信息数据关联度评级机制，有助于风险识别与防范。

本文利用大数据平台的全端数据采集获取舆情风险样本数据集，以具备应用程序接口的新浪微博为例，采用爬取工具收集网络用户舆情信息关键词储存于元数据库中，以供舆情风险检测模型进行训练及算法优化。舆情信息样本数据的采集应遵循随机原则，舆情个体之间保持相对独立。大数据平台的全端数据采集主要包含涉及Android、iOS、Web、macOS、C++的前端采集，涉及Node、C、PHP、Java、Python的后端采集。

2.1 基于规则网格的网络舆情建模

基于规则网格的大数据网络舆情结构建模是对复杂网络进行抽象建模的一种方法。具体来说，它涉及由顶点、边、面、多边形和元素组成的网格结构。数据网格化是将空间分布不均匀的数据按照某种方法转换成有代表性的值的过程。

规则网格结构建模的基本思想：规则网格通常由规则形状组成，如正方形、三角形和矩形。规则网格中的每个网格单元都对应一个数值矩阵，在空间相邻的网格单元之间存在舆情信息的相互作用。通过常规的基于网格的结构建模和交互计算，可将网络舆情信息资源进行整合[17]。

基于网格的舆情结构建模规则：以网络舆情风险识别系统为代表的复杂多组分系统的基本组成部分不是粒子，而是能够思考的普通公众成员。在这样的系统中，每个人与有限数量的同伴互动，而不是与其他所有人互动。因此，可以采用基于规则网格的建模方法，对舆情系统中涉及的复杂交互进行结构建模。在这样的模型系统中，每个人的基本运动方程通常是未知的，很难使用传统的统计分析来评估。将现代物理学中的量子力学与常规的基于网格的建模方法相结合，可以有效描述微观粒子的结构、性质和运动。因此，可以尝试用描述物质世界的网格方法来描述社会系统，即认为“人类像粒子一样移动”，从微观的角度，利用随机性和无序性来解释宏观的社会现象。

2.2 基于规则网格的舆情模型优化

规则网格提供了复杂网络的抽象表示,基于规则网格的舆情建模与仿真是结构复杂的舆情建模的重要组成部分。在常规的基于网格的舆情结构建模中，可以采用如图1所示的四邻域、八邻域或拓展邻域空间关联来模拟大数据时代舆情形成与演变过程中的互动[18-19]。基于舆情网格化结构建模规则，将理性的舆情互动转化为简单的空间邻域关系。

图1 空间邻域关系图

复杂动态网格舆情风险识别系统是一种由节点和边组成的系统，节点之间相互连接。对节点进行分析，统计节点之间的数据关联度，对于研究网络舆情的拓扑结构具有重要意义[20]。各个节点所拥有的相邻节点数量称为节点度。如果已知网络内各节点的度，就能知道网络的节点度序列及其分布，这是任何复杂网络最基本的拓扑特征。通过多次实验可以得出网络舆情的度分布特征，结果表明大多网络舆情的节点度主要服从幂分布、泊松分布和指数分布。在网络拓扑结构中，两个节点之间的距离，即一对节点之间的最短路径，定义为连接两个节点的最小边数或最小权值之和。相关研究案例中的舆情互动网络表明，网络舆情互动节点度呈现出较为清晰的幂分布，平均路径较短。这一特征对于研究网络结构和舆情传播效率具有重要意义。

在复杂系统中，节点可以用来表示不同的个体，而边可以用来表示不同的个体抽象联系，通常适用于描述系统中个体之间的关系和他们的集体行为。许多现存的复杂系统可以被描述为舆情网络[21]。

3 大数据时代公安网络舆情风险识别方法

网络舆情作为互联网时代公民言论的全新表现形式，成为了公民言论自由从现实向虚拟延伸的重要载体[22]。网络舆情风险是负面舆论所引发的危机事件，会对公众个体造成不同程度的损伤[23]。网络舆情风险有别于现实社会风险之处在于其隐性特征。最常见的网络舆情风险表现为舆情主体情感的失控，包括主观焦虑的强化和放大、集体情绪宣泄和个人理性的迷失。网络舆情风险的识别分析有赖于大数据分析技术，而基于海量数据的数学建模和风险识别系统设计是当前的两大重要研究方向。

3.1 大数据时代公安网络舆情演化及风险识别的数学建模

近年来，各种各样的模型和模拟技术被用于舆情演化传播研究，其起初主要基于传染病模型，如SIS、SIR和SEIR模型等。也有一些研究者提出了动态观点模型等，他们认为人们的观点会随着时间和周围环境的变化而变化，从而影响信息的传播。

网络舆情涉及多个学科，来自不同学科背景的学者对网络舆情演变的研究视角不同。目前常见的数学建模思想有：基于元胞自动机建模思想、基于Agent建模思想、基于社会网络的建模思想、基于博弈论思想。常见的风险演化模型有：基于多数原则的网络舆情风险演化模型、基于有限信任的网络舆情风险演化模型以及基于Sznajd的网络舆情风险演化模型。

众多的建模思想和演化模型有着不同的建模标准，且大多具有单一、非系统的缺陷[24]。规则网格模型可有效实现舆情风险模型从非理性到理性、从单一到多维、从非系统性到系统性的转变。但基于规则网格模型的舆情演化模型也存在一定的局限性，只考虑了舆情信息发布者与被调查者之间的关系，公众观点、网民心理等舆情要素在规则网格模型中没有体现。因此，本文在规则网格舆情模型的基础上提出了基于大数据信息采集的动态网格舆情风险模型，并借助遗传算法进行了模型优化。

3.2 借助遗传算法优化的动态公安网络舆情风险模型

3.2.1 引入概率关系

不同于传统的规则网格舆情模型，本文建立的基于遗传算法优化的动态网格模型强调连接关系在一定程度上具有概率性。考虑到各种舆情因素的影响是有概率性的，因此舆情网络中的节点边缘连接也应该具有一定程度的概率性。复杂动态网格模型可以有效评估边缘概率和动态网络分析中随时间的变化。

复杂动态网格模型分析是基于舆情监测平台收集到的相关舆情数据而建立的，要想对网络舆情风险演化模型进行构建，首要的任务就是对网络舆情信息进行获取[25]。由于网络舆情信息中包含大量的高频关键词，因此需要将相似的关键词进行整合并且引入概率关系。

在引入概率关系的复杂动态网格舆情模型中，以反映某一具体舆情事件中公共个体观点和态度的关键词为节点，而边则表示在同一舆情信息中出现了两个关键词节点。Pi是模型中个体舆情观点态度的属性值，由积极关键词在舆情信息中所占的比例决定，如公式(1)所示：

式中，Hi表示舆情个体i发布的网络信息中包含的关键词总数；hi表示舆情个体i发布的网络信息中积极关键词的数量。

3.2.2 考虑舆情因素之间的驱动关系

网络舆情风险作为一种复杂的社会现象，其形成和演变也涉及网络舆情各驱动因素之间的相互作用。复杂动态网格舆情模型可以很好地描述某一特定舆情危机发展过程中各要素之间的相互关系，一定程度上反映控制舆情演变内部驱动因素作用的机制。

在网络舆情中，舆情事件类型是节点，类型之间的转化是边缘。Pn代表动态网格模型中个体的属性值，其值由舆情事件的类型和特征决定，且该变量的值在[0，1]范围内。本文根据网络舆情事件的风险程度，将其分为九个类别，类别1到类别9分别赋值为0.1到0.9来体现由低到高的风险程度。通过计算不同类型舆情的驱动因子，可以确定复杂动态网格舆情模型中公共主体的属性值Pm，如公式(2)所示：

(2)

式中，n表示环境子网中分为9类的网络舆情事件的参考属性值；Pmn表示动态网格舆情风险模型中第m个舆情信息主体发出的信息属于第n个事件类型的概率。

3.2.3 遗传算法优化

鉴于大数据时代海量舆情信息挖掘和识别的并行化、非线性化要求，本文采用并行搜索性能较强的遗传算法进行风险模型优化。遗传算法是一种基于自然演化原理的搜索优化机制，其具有很好的全局搜索能力，能在搜索过程中获取和收集搜索域内的有效数据以供寻优求解[26-27]。在大数据平台下充分利用遗传算法的优势可以更好地完善网络舆情风险网格模型、提高模型的收敛效果，更好地预测和识别舆情风险。遗传算法流程如图2所示。

图2 遗传算法流程图

3.2.3.1 设置样本变量。借助大数据平台进行海量信息采集，将关键词的事件相关度R作为必要约束条件设置样本量范围。编码方法直接影响到交叉、变异等遗传算子的计算效率，本文采用二进制编码方法进行舆情数据样本的数字化编码，编码原则依照上文提出的引入概率关系的舆情个体属性值Pi与考虑各因素间驱动关系的舆情主体属性值Pm。类比染色体基因中AGCT4中碱基对的随机排列，将属性值Pi与Pm映射为随机排列的二进制编码串。

3.2.3.2 构造初始化函数。遗传算法中的每一条染色体对应一个解决方案，常用适用度函数衡量解决方案的优劣[28-30]。本文基于元数据库中采集的关键词语义Si、观点Oi、情感倾向Ei来构建适应度函数。适应度函数F定义为以上3个风险属性参量的加权和，如公式(3)所示：

F=ζ1Si+ζ2Oi+ζ3Ei

(3)

式中，ζ1、ζ2、ζ3分别为参量Si、Oi、Ei的加权系数。且三个参量的可能值为-1，0，1，分别代表积极、中性、消极的词义属性。加权值之和越大意味着适应度越大，进而舆情风险程度越高。舆情信息样本的适应度评估结果如图3所示。

图3 舆情信息样本的适应度评估结果

3.2.3.3 选择。利用遗传算法中的选择操作可以筛选风险等级更高的舆情信息关键词，选择机制是影响遗传算法性能的主要因素。本文采用“轮盘赌”选择方法进行舆情事件特征类型选择，舆情个体被筛选进入下一代的概率等于其适应度与种群中所有个体适应度之和的比值，相应的MATLAB程序代码如下：

fitvalue=[3 2 1 0 -1 -2 -3]; %舆情信息对应的适应度值

totalf=sum(fitvalue); %适应值之和

p=fitvalue./totalf; %单个舆情个体被选中的概率

q=cumsum(p); %舆情个体的累积概率

c1=c2=c3=c4=c5=c6=c7=c8=c9=0 %9类舆情事件的次数初值

while c1+c2+c3+c4+c5+c6+c7+c8+c9<=1997

fitin=1;

newin=1;

m=sort(rand(4，1)); %生成一组从小到大排列的随机数组

while newin<=4

if q(fitin)>m(newin)

s(newin)=fitin;

switch s(newin)

case 1

c1=c1+1;

case 2

c2=c2+1;

case 3

c3=c3+1;

case 4

c4=c4+1;

case 5

c5=c5+1;

case 6

c6=c6+1;

case 7

c7=c7+1;

case 8

c8=c8+1;

case 9

c9=c9+1;

end

newin=newin+1;

else

fitin=fitin+1;

end

3.2.3.4 交叉。本文采用单点交叉，在大数据采集的舆情关键词样本编码中随机设置一个交叉点，然后在该点交换两个舆情个体的部分编码。单点交叉过程示意图如图4所示。

图4 单点交叉过程示意图

3.2.3.5 变异。遗传算法采用概率的变迁规则来指导搜索方向，变异概率的大小影响着大数据采集样本的多样性与风险识别算法的优化精度。变异运算的主要内容是按照式(2)的概率将编码串中某些部分的基因值进行替换，即对舆情主体的某个或某些个体属性值进行改变。优化算法的终止条件是舆情个体适应度达到给定阈值，或者舆情个体风险等级达到预设峰值。最后比较每个舆情个体的适应度，适应度较低的被视为高风险等级舆情个体筛选出来，并针对相应的舆情事件指定应对措施。

3.3 大数据时代下公安网络舆情风险识别系统可靠性分析

网络舆情以网络为载体，极大地改变了舆情的传播方式、传播速度、传播内容与参与时效。公安机关可以充分利用复杂网格舆情建模思想和大数据分析，发挥大数据分析的优势，以提高网络舆情风险识别的能力和效率，更好地发挥网络舆情的积极作用，促进社会的公平正义和发展进步。

然而，目前有关网络舆情风险识别系统的研究仍然相对较少，尤其是对其可行性和可靠性的论证分析。其在大数据环境下与现实网络舆情的交互性应用中，离不开系统可靠性分析。应当充分利用真值表法(状态枚举法)、全概率公式法(分解法)、系统逻辑图法等对网络舆情风险识别系统进行系统可靠性的分析评估。系统的可靠性预计是一个自下而上、从局部到整体、由小到大的系统综合过程，目的在于发现薄弱环节、提出改进措施、进行方案比较，以提高网络舆情风险识别系统的可行性、可靠性与高效性。

4 结语

目前，众多学者从多角度对网络舆情进行了深入研究，本文提出基于遗传算法优化的动态网格舆情建模方法，可为公安机关应对大数据时代的网络舆情风险提供重要参考。

基于大数据分析，初步探索了网络舆情风险的复杂内在机制和相关规律。结合大数据时代网络舆情多层次、多维度、多属性特征以及驱动关系，系统建立了舆情动态网格结构模型。

从网络舆情发展演变的角度，综述了大数据时代基于复杂结构的动态网格舆情建模研究。考虑复杂动态网格舆情模型分类标准及对大数据时代网络舆情风险多维结构的表征能力，利用规则网格上的粒子相互作用模型，对网络舆情进行动态建模。基于网络关键词语义、观点、情感的属性分析，设计了包含大数据样本采集、舆情风险适应度函数、风险源识别选择、交叉变异的遗传优化算法。