一种基于网民行为的倾向性密度聚类方法

2022-01-27 11:10徐春，王昭，孙彬

沈阳工业大学学报 2022年1期

徐春，王昭，孙彬

(新疆财经大学信息管理学院，乌鲁木齐 830011)

在自媒体新技术日益进步发展的形势下，网络空间治理问题已受全球各地广泛瞩目.网民行为及心智倾向的链路预测问题成为推进网络空间共同体建设的重要内容.在网络新技术形势下，网民交互行为与心智倾向检测涉及到网络舆情链路预测、网民交互行为密度测算、网络资源密度聚类和分布式架构等多个技术层面.当前舆情检测及链路预测方案较多依赖“网络流量异常”和“文本关键字比较”等检测技术，检测指标单一、适用面窄、效率不高，有预测滞后和结论不准确等缺陷.随着大数据聚类和人工智能等技术的发展，网络舆情形势越来越复杂，传统舆情监管及网民行为倾向的预测方法呈现许多适用性不足的问题.

网络舆情检测与异常网络活动、网络资源聚类特征紧密关联.现有的典型研究有：1)基于舆情信息、舆情主体、舆情传播、网民行为的网络舆情演化机制.例如：基于舆情主题、舆情内容、传播过程、传播媒介及舆情受众等建构指标体系和舆情演化机制[1]；基于在线检测与自动识别实现网络检测的动态聚合机制[2]；一种集识别、监控、预测、评级、治理于一体的网络集群行为的监测及预警模型[3]；利用LDA(latent dirichlet allocation)方法构建研究模型，挖掘出舆情传播的主题结构、观点脉络和特征[4]；在人群密集场景中，通过标注真实图谱的方法，实现有效的网民密度监督等[5].2)应用网络舆情监测来反映网民交互行为与心智变化的倾向，舆情密度聚类算法被广泛应用.例如基于网络活动敏感密度的舆情评价方法[6]、基于不同时空窗口对网民行为密度进行量化监测[7]、网民复杂交互情境下的舆情博弈分析[8]等.3)利用大数据舆情聚类算法提取聚簇中心与聚类效率.例如基于K近邻的多类合并密度峰值聚类算法[9]、基于平均差异度的舆情聚类算法与信息熵聚簇中心选取模型[10]、不设定聚类个数的大规模数据聚簇中心算法[11]和简易提取密度峰值聚类中心算法[12]等.4)舆情聚类采用分布式架构进行研究.例如基于R+Hadoop的微信平台舆情挖掘框架[13]、分布式K-menus聚类算法与Spark并行架构的大数据聚类[14]和分布式网络协同的并行聚类模型[15]等.

通过上述梳理可知，网民行为及心智倾向监测方法存在较大技术瓶颈，亟需改良舆情信息聚类算法.主要表现在：1)提升网民行为及心智倾向的链路检测实效；2)提升舆情数据密度聚类的适用性和聚类质量；3)进一步探究快速定位舆情聚簇中心的有效办法，升级舆情网络的链路检测效率.

1 舆情信息密度聚类架构

基于网民行为倾向的关键特征，设计倾向集指标，实现适用性舆情密度聚类架构，助力自媒体网络的新观念、新苗头预测工作.

1.1 网民行为倾向聚类

基于体验式交互风格的自媒体空间，形成了众多网民行为指标.在不同软件空间和不同地域环境下，人们所关注的舆情指标差异性较大，许多网民行为指标未被充分重视.

1) 关键指标与检测图.抽取关键部分的舆情信息指标，形成舆情监测的关键测算指标覆盖.通过关键子集的饱和度检测，把控全局舆情信息可靠度，围绕网民行为倾向的核心指标，以具体的交互端“软件应用操作”为“观测节点”，以用户行为异常传播为“观测边”、以用户流量为“观测权重”构建网状的舆情监测有向图.基于舆情监测有向图的链路检测过程，要求约简次要指标，形成关键要素子集，以提升链路预测的实效.

2) 倾向度.在网民行为倾向的有向图中，基于多项关键性舆情监测目标，构建倾向度参量.舆情信息集有向图描述为T={Gij}，其中，Gij表示第j个软件应用系统的第i个网民行为(发帖、举赞、时长、频率和敏感文本等观察指标).有向图节点Gij正常活动发生量为vij，而实际发生量为uij，定义倾向度的计算公式为

(1)

一系列网民行为的倾向度描述构成网民心智倾向的有向图描述.在网民行为有向图中，将效能边上的n种网络行为进行倾向度的负载合计，即

(2)

式中，ci为流量权重系数，∑ci=1.

3) 舆情分布.对一个具体软件系统而言，聚合在该软件系统上的网民，可以实现自由度较大的信息传播活动.对第j种应用软件系统而言，一条舆情传播链路可表示为xj，该传播链路相对于m种应用软件系统的舆情分布.

对舆情信息有向图中的任意两个舆情链路(x，y)，可以分别计算其舆情分布：P(x)、P(y)和P(x，y).基于舆情数据集T，可计算信息熵损失量为

(3)

参量SM能体现出两条舆情链路联合分布的关联性.当链路x和链路y的舆情相互独立(无相关性)时，SM将为0.使用SM能高效估计链路x和链路y之间熵值差异.根据最大熵原理启示，一个网络节点上各种应用软件系统的舆情倾向熵值较大，则标志着各种软件系统之间的传播状态接近，发生群体观念极化的可能性较低；相反，各种软件系统之间的倾向熵值较小，标志着各个链路的行为观念差异较大，舆情异常传播(群体极化)的可能较大.使用“舆情倾向熵”能分析出舆情链路的群体观念差异性，用dxy表示网民心智观念的倾向距离为

dxy=|SMT-{y}(x，y)-SMT-{x}(x，y)|

(4)

式中：T-{y}为去除链路y后的舆情数据集；T-{x}为去除链路x后的舆情数据集.

4) 舆情密度.在自媒体网络环境下，网民行为数据稀疏性较大，需要约简数据集.一方面，通过密度指标来约简舆情监测的指标数量；另一方面，通过密度来保障舆情动向的全覆盖，以便捕捉量小而行为特征典型的舆情监测指标.设倾向观念距离的阈值参量为dc，统计舆情数据集中超越预定阈值的链路数量.定义舆情链路的密度ρx为

(5)

(6)

式中：k为舆情链路总数；E为判别函数.舆情密度ρx表征与链路x同类的链路数量，密度值越大，所聚集的链路数就越多.

5) 聚簇中心.具有密度极大值的节点，即为该类的聚簇中心.在密度聚类过程中，阈值参量dc取值过小，会造成聚簇中心太多的情况；阈值参量dc过大，会造成中心捕捉失败、聚类失败.针对阈值参量dc往往需要较多的实验来确定的情况，通过对2 427条舆情链路的密度测算，对已有链路的倾向距离升序排列，结果如图1所示.观察适用聚簇中心所处的阈值参量定位发现dc取6.6%～6.7%位序处所对应的距离数值、准确率指数和兰德指数均达到较好的状态，准确率达到94.2%.

图1 距离参量效用Fig.1 Distance parameter utility

6) 疑似强度与权值参量.为快速完成舆情聚类，区分聚簇中心链路与一般舆情链路的密度差别，构建疑似强度参量.如果一个舆情链路的密度高于预定链路的密度，则认为聚簇中心的疑似强度较大.定义δx为聚簇中心疑似强度，即

(7)

式中，参量max(ρ)为局域的密度极值.

聚簇中心疑似强度标识出一个舆情链路x与其他多条舆情链路y的密度差距.通过对1 948条交互软件链路进行嫌疑强度比较，结果如图2所示.图2的结果表明，δx具有较好的聚簇中心(局部中心)甄别作用.

为进一步提升聚簇中心的甄别效率，设置舆情链路的权值参量为

ξx=ρxδx

(8)

通过对1 846条链路数据实测发现权值参量ξx具有高效甄别聚簇中心的作用，权值参量曲线如图3所示.

图2 密度与嫌疑度分布关系Fig.2 Distribution relationship between density and suspicion

图3 权值参量曲线Fig.3 Weight parameter curve

1.2 分布式聚类架构

在自媒体网络环境下，网民行为倾向数据集规模庞大，需要构建分布式聚类架构，克服单机聚类的困境.分布式架构的关键问题是将庞大数据计算任务负载均衡地划分为并行子任务.通常情况下，需要实现合理的数据块分布，基于数据耦合，保障各个数据块的负载均衡性，以便发挥出分布式计算的优势.面对网民行为倾向数据集，分布式聚类架构包括数据块划分、耦合设计和聚簇流存储等3个主要部分.

1) 数据块划分.围绕网络流量特征，可以把网民行为数据集T分解为N个子集si，并要求每个数据块子集消耗的网络传输流量基本相当，以均衡负载各个子集的计算任务.在数据块划分中，每个数据项需要保持独立性，即任意一个数据链路项只能属于1个实际的数据块.

2) 耦合设计.每个计算单元均由两个“数据块”耦合而成，数据块Si和Sj耦合成计算单元Wij，记为Wij=〈Si，Sj〉.将计算单元的组合映射过程和聚簇中心参量的汇聚过程组合，形成分布式MapReduce架构，数据块耦合过程如图4所示.

分布式耦合计算过程为：将每个计算单元Wij优化布局到不同服务器Map，并完成所属块内的密度聚簇任务；基于计算单元Wij获得本域舆情密度序列ρij和疑似中心强度序列δij；用f(Si)流存储汇集计算单元内数据块Si的各个聚簇结果和权值参量序列ξx；将各个数据块Si的聚簇中心参量ξx整合，形成全局性密度聚簇中心的权值参量序列；最后依据聚簇中心权值参量序列，实现网民行为倾向的密度聚类.

图4 数据块耦合Fig.4 Data block coupling process

3) 聚簇流存储.为提高聚簇运算实际效能，设计聚簇流存储机制，以降低网络传输的开销.在计算单元完成各自的聚簇中心鉴别任务后，将各个数据块所涉及的聚簇参量进行存储地址规划，有序地实现高效率全局性汇聚.聚簇流存储以键值对〈Key，Value〉结构来快速检索聚簇节点密度序列ρx和疑似中心强度序列δx，其中，Key是计算单元Wij的聚簇地址Idij，Value是对应的权值参量ξx.计算单元聚簇地址为

(9)

式中：i和j分别为Wij耦合数据块编号(i

依据聚簇流存储结构，能高效完成各个数据块的权值参量序列ξx的全局性合并，为舆情数据的高效归集奠定基础.

1.3 链路检测

本文利用虚拟网民行为来仿真信息传播链路，实现链路预测效用.链路预测的实际目标就是鉴别舆情新动向和新苗头.仿真网民行为、仿真舆情链路的主要过程是：在某些网民活动相对集中的软件系统中，提取典型网民行为(或网络节点)，加载到倾向密度较低的舆情链路中，估算舆情密度的变化情况；或者虚拟构建一种软件交互场景，吸引特殊嗜好的网民进行蜜罐监护，测试新舆情类别产生的可能性.由此，通过虚拟舆情链路或虚拟网民行为仿真出新舆情事件的发生过程，为面对舆情新动向、新苗头及早制定预案.

2 实践结果分析

在自媒体网络环境中，网民行为复杂、舆情链路多变.以网络社区个体网民为调查对象，采集相关性网民活动内容，包括微信交互、今日头条、QQ群、微博交互、朋友圈、网站贴吧和热文评论等交互端活动，并涉及异常流量、评价、敏感文本、发帖、跟帖、赞和删帖等行为特征.在舆情网络有向图中，形成200多万个网民活动节点.为保障舆情密度聚类运算需要，集群服务器部署Hadoop 2.7.18和Spark 2.11.8系统，通过Standalone配置，实现1个主节点和9个从节点的集群架构，共为集群服务器分配720 GB内存和1 000 Mb/s连接速度.追踪调查网民52 685人，形成大规模的网民行为与心智倾向数据集，完成分布式网民行为与心智倾向的分布式密度聚类与仿真实验分析.

1) 分布式聚类效率分析.实验中，按照可信传播流量的硬件条件，将网民数据集划分成4～10个数据块进行网民行为倾向的密度聚类.通过权值参量强化聚簇实效，获得舆情中心节点26～233个.对比不同聚簇中心数的单机聚类的运算效果，分布式算法的效率明显升高，结果对比如表1所示.当舆情数据集不断扩大时，分布式运算的优势越显著，分布式密度聚类的准确度也越高，而单机聚类的劣势比较明显.

2) 舆情链路聚类效果分析.在网民行为倾向的聚类分析过程中，结合仿真性链路检测技术，检验预测舆情新动向和新苗头.在10个数据块的聚类规模情景下，面对网民自媒体交互行为，检测出舆情链路5.2万多条.虚拟增加或删除部分网民行为和部分网络节点，舆情聚类结果变化显著，聚类结果如表2所示.

通过分布式密度聚类计算和虚拟仿真过程，目标网络的舆情动向得到掌控.测试结果表明：①舆情链路数量与聚簇中心数量没有线性关系，仿真网络新节点或网民交互行为有利于舆情新动向、新苗头的发现.②对于自媒体下的舆情链路而言，网民行为倾向的密度极值越大，发生群体观念极化的可能性越大，产生负向消极影响的可能性也越大.③舆情链路数量较少的网络，不意味着群体观念极化的可能性低.④潜在的舆情新苗头、新动向数量与聚簇的极大密度类值有近似正向线性关系.

3) 运算效能比较.将聚类准确度限定在85%以上的水平，比较分布式密度聚类、单机密度聚类、DisAP近邻传播聚类和PK-Means聚类等算法的实效，效能对比情况如图5所示.总体上看，分布式架构的网民行为倾向密度聚类，对网民舆情数据集密度聚类的适用性最好.

随着舆情数据集的扩大，各种聚类算法耗用时间均呈现较快攀升态势.在限定1万个节点的规模下，分布式架构与单机架构的耗用时间大体相当；在限定2万个节点的规模条件下，分布式架构的耗用时间是单机架构的1/3；在限定2.5万个节点的规模条件下，分布式架构的耗用时间增加量不大，但单机架构耗用时间远远超出适用的范围.由于PK-Means聚类算法迭代运算特点，在节点规模超过2万个以上时，才能呈现出分布式的优势，而DisAP聚类算法在节点规模超过2万个以上时，已经不具备适用性，耗时超出可用范围.在大规模数据集情境下，分布式密度聚类的实效强于PK-Means聚类.单机密度算法及传统DisAP聚类算法均不适用于大规模数据集的聚类任务.分布式密度聚类算法的优势在于高效提取聚簇中心，而PK-Means聚类算法的优势是数据归集，有充分融合的优化潜力.

3 结论

分布式密度聚类架构具有时耗优化的优势，能保障自媒体网络下的网民行为与心智倾向的大规模聚类和舆情链路预测任务，能发现潜在的舆情新动向和新苗头.与传统聚类方法相比，基于网民行为与心智倾向的分布式密集聚类算法表现出提取聚簇中心快速和模拟仿真节点灵活等优点.面对网民行为倾向性的分布式密度聚类和针对网民行为的仿真实验，丰富了自媒体网络情境下舆情链路预测技术的探究视角.