微博突发现象的信息级联演化过程探究

2018-12-08 07:13韩法旺
网络安全技术与应用 2018年12期
关键词:演化过程级联数据流

◆韩法旺



微博突发现象的信息级联演化过程探究

◆韩法旺

(南京森林警察学院信息技术学院 江苏 210023)

随着手机上网用户的增多,人们越来越多地利用乘车、吃饭间隙等碎片化时间刷微博,因此微博成为一个重要的社会公共舆论平台。一些突发的热点话题会迅速引起人们的热议、转发,对社会舆论造成重大影响。本文以信息级联的演化过程来研究突发现象的生成发展过程,分为检测触发、突发、尖峰、消褪等过程,以此预测突发现象的走向。

突发现象;信息级联;微博影响力

0 前言

随着近几年微博的快速发展和普及,其逐渐成为一个重要的社会化媒体和社会公共舆论的重要平台,对国家安全和社会发展都会产生深远的影响。微博意见领袖依靠自己的“独特魅力”与网络位置,对舆情的传播起着“推波助澜”的作用。因此,对微博影响力研究具有重要的理论价值和实际价值。

突发现象(Bursts)是指“一个长时间段内的短暂剧烈活动的时期”,是人类群体活动中产生的一种常见现象。突发现象在很多领域得到了研究者的关注,如电子通信中的信道拥堵,股票市场中的震荡,互联网的数据流等。而随着近年来社交网络用户参与量越来越多,其中的用户行为中的突发现象也得到了很多研究者的关注,特别是在用户间信息转发行为的突然大量出现而造成的突发现象,这些研究工作发现,大量用户信息转发所造成的信息级联的演化中的震荡效应,体现了社交网络中用户行为的突发特征。

随着社交网络中的信息量的指数级增加以及其中信息扩散的突发性,社交网络中信息传播突发现象造成的影响也越来越大。过去网络中的突发热点话题只是吸引更多网友的关注,而如今微博网络中的突发热点则可能对社会事件的走向以及社会舆论都产生巨大影响[1]。如果能基于现有数据对信息级联的突发时间进行提前预测,对很多突发舆情事件应对、灾难事件预警、产品推广以及股市交易等实际工作提供很大的帮助。以往对信息级联预测研究主要侧重于预测信息级联未来的影响范围或级联规模,近年来部分研究者尝试通过对大规模数据分析来对社交网络中信息级联的突发特征进行建模,并通过突发特征来对信息级联进行聚类。虽然对信息级联的研究和突发检测的研究都分别取得了很多进展,然而对信息级联演化过程的研究仍然不足。

信息级联突发时间的预测工作存在着一些困难:一方面,由于信息级联演化中的震荡的特征,使得现有基于时间序列的预测研究无法直接应用于信息级联突发时间的预测工作中。如回归方法,其通过学习历史数据中的特征间关系被广泛用于预测工作,然而信息级联演化的震荡特征使得历史数据和预测数据之间的相关性很难由回归方法来分析,微博数据流与传统的时间序列数据差异巨大,也使得时间序列预测方法在针对特征丰富的社交数据时无法有效进行[2]。另一方面,社交网络中的信息级联具有大小的幂律分布和寿命差异巨大等特征,使得对信息级联的有效特征提取变得困难。因此,一种能够解决差异性级联大小和寿命情况的,基于时间维度的信息级联演化过程模型的提出就非常有意义了。

1 相关研究介绍

突发检测在很多领域被广泛研究。Kleinberg最早对数据流中的突发现象的检测进行了研究,其后也有研究者研究了数据流中突发检测的实用算法,以及具有扩展性的实时检测算法。近年来随着社交网络中大规模数据流中的突发现象得到了越来越多的关注,很多研究者对社交网络中的信息级联的突发特征以及演化模式都进行了多方面的分析研究。Yang等人对Twitter中的数据流的时序特征进行了研究,Matsubara等人研究了信息级联演化过程中的震荡现象,并对Twitter数据流进行了突发检测[3]。已有研究工作集中于突发检测和突发模式的识别,本研究关注的主要方向为基于信息级联早期的演化过程,对信息级联演化中的突发时间进行预测,所以现有的突发特征识别的方法无法直接应用于本研究的任务中。

而对时间序列分析以及趋势预测研究,旨在基于观察到的现有时间序列预测未来的序列值。时间序列预测研究主要借助线性模型,如自动回归方法,以及对其的扩展模型等,然而由于信息级联演化中的震荡特征,线性模型对其中突发时间的预测无法直接应用[4]。也有一些非线性的模型被提出用于时间序列预测,然而这些模型并不能用于预测突发性上,同时社交网络中丰富的用户关系特征也使得对信息级联的突发预测不等同于简单的时间序列分析。

对社交网络信息级联预测的研究中,预测的主要目标是能够对信息级联的流行程度和未来信息转发量进行预测。如Cui等人提出的基于信息传播初始的特征,预测新的级联在未来能否成为热点趋势话题[5];或者如Cheng等人提出了一种预测框架来对信息级联的增长规模进行预测,对给定的大小为k的信息级联,预测其在未来能否增长到2k。然而虽然这些研究工作对信息级联未来的增长趋势进行了预测,但其研究方法无法应用于对突发时间的预测工作中。

2 信息级联演化过程定义

微博网络中的信息传播过程通常被描述为信息级联的演化过程。为了对信息级联演化中突发时间预测问题进行形式化定义,本节中定义信息级联演化过程中的各个阶段。

信息级联中突发的时间和阈值很难直接判断,对微博数据流中的级联突发还没有一个统一的定义。通过对信息级联的统计分析发现,微博数据流中的大多数信息级联在其生命周期中都不会出现突发现象,仅仅随着时间流逝快速消亡。对于少量出现突发现象的信息级联,其在之前都会有一定的潜伏期,然后才是持续的增长,为了缩小需要预测的信息级联的范围,这里对潜在的突发信息级联定义一个检测触发阈值。对信息级联演化过程中的阶段进行定义,可以对时间窗口内的信息级联进行分类筛选,降低检测计算量。

(1)检测触发(Detection Trigger)

(2)突发(Burst)

(3)尖峰(Spike)

在图1中给出了对真实信息级联演化的一个突发时期的实例,其中阴影部分表示突发时期。有些信息级联的生命周期内可能存在多个突发时期,本研究中的分析和预测主要针对信息级联的第一个突发时期。

(4)消退(Off-Trigger)

图1 信息级联的突发过程

3 结语

本研究主要侧重对微博网络大数据的分析研究,基于Spark分布式计算平台,尝试解决微博网络中信息级联演化的突发过程问题。信息级联预测以及信息级联的突发现象得到了很多研究者的关注,然而对突发过程的定义依然缺乏研究。本研究中通过分析信息级联突发现象的模式,提出了信息级联的触发、突发、尖峰、消褪过程模型,为后续的实时微博舆论的预测,突发现象的出现以及引导等舆情监控工作打下坚实的理论基础。

[1]雷宏振,贾悦婷.基于复杂网络的在线社交网络特征与传播动力学分析[J].统计与决策,2015.

[2]欧治花,汤胤.SNS社交网络结构实证研究——以豆瓣网为例[J].科技管理研究,2012.

[3]赵文兵,赵宇翔,朱庆华,等.Web2.0环境下社交网络信息传播仿真研究[J].情报学报,2013.

[4]王昊翔,曾珊,刘挥扬.虚拟社交网络中节点重要度分析[J].上海交通大学学报,2013.

[5]兰月新,邓新元.突发事件网络舆情演进规律模型研究[J].情报杂志,2011.

1.江苏高校品牌专业建设工程资助项目,项目编号:PPZY2015A058;2.南京森林警察学院教学改革研究与教学建设重点研究项目,项目编号:ZD18003。

猜你喜欢
演化过程级联数据流
铀浓缩厂级联系统核安全分析
模因论视角下韩语“먹다”表“喝”动作演化过程研究
时间非齐次二态量子游荡的演化过程分析
汽车维修数据流基础(上)
汽车维修数据流基础(下)
重庆万盛石林的形成时代及发育演化过程
富集中间组分同位素的级联
—— “T”级联
基于耗散结构的农产品冷链物流系统演化分析
基于级联MUSIC的面阵中的二维DOA估计算法
基于数据流聚类的多目标跟踪算法