互联网虚假信息研究概述

2014-09-15 22:49刘凯

价值工程 2014年22期

刘凯

摘要：由于互联网的普遍性、匿名性以及竞争的激烈性，越来越多的网络用户通过虚假信息以混淆视听、恶意诋毁竞争对手和蓄意扰乱社会秩序。本文通过论述互联网虚假信息的研究现状，结合相关研究理论和方法，探索互联网虚假信息的研究方向。

Abstract： Due to the universality， anonymity and the severity of competition of the internet， more and more network users use false information to confuse the public， malicious slander competitors and distribute the social order deliberately. This paper discusses the research status of internet false information and explores the research direction of it with relevant theory and method.

关键词：互联网；虚假信息；研究方向

Key words： internet；false information；research direction

中图分类号：TP393.4 文献标识码：A 文章编号：1006-4311（2014）22-0011-02

1 互联网虚假信息研究现状

2014年1月16日，中国互联网络信息中心（CNNIC）在京发布第33次《中国互联网络发展状况统计报告》，报告显示截至2013年12月，中国网民规模达6.18亿，互联网普及率为45.8%。根据国家互联网信息办公室统计，仅2012年3月监测到的各类网络虚假信息就高达21万余条。伴随着微博、微信等自媒体媒介的普及，虚假信息的传播也表现传播速度更快、传播范围更广、传播过程更难控制的特点。

互联网虚假信息作为一种信息形态，广泛的存在与互联网平台之上。互联网虚假信息的发布者往往是出于某种目的，虚假信息的传播也存在着非常大的安全隐患。因此，学者们逐步开始对互联网信息、互联网信息传播以及互联网中存在的与事实不相符的信息进行研究。

从红日（2003）[1]将网络虚假信息分为恶意的、无意的、技术性的和主观性的四类，将产生虚假信息的原因总结为利益驱动、从众心理、信息储存和传播中产生的“误差”和信息接受者的注意力或理解力不够等四类，并提出了针对性的应对策略。

Carlos Castillo1、Marcelo Mendoza和Barbara Poblete（2011）[2]研究微博平台twitter上的信息可信性发现，微博平台上的信息绝大多数的信息是可信的，但是也会有博主有意或无意的传播一些错误信息或者谣言。

王永刚、蔡飞志、Eng Keong Lua、胡建斌和陈钟等（2012）[3]将社交网络中的虚假信息分为涉及经济利益和名誉利益两类，并将用户类比成网页，提出了一种基于PageRank的社交网络虚假信息传播控制方法Fidic。

钟琪、戚巍和张乐等（2012）[4]在Lotka-Volterra系统下构建了社会型危机信息的扩散模型，并提到从真伪的角度可以将危机信息分为真实信息和虚假信息两大类，其中虚假信息为不真实、不客观，阻碍灾民认识危机、应对危机甚至扩大危机损失的信息。

刘可文（2012）[5]对微博中虚假信息的特征进行了详细的总结，主要包括即兴性与隐匿性、非理性与随机性、延伸性与交织性、频发性与反复性、蛊惑性与破坏性、难核实性与传播惯性等六个特征，作者同时指出应从法治与德治、自律与他律、公开与公信、主动与联动四个方面来防范微博虚假信息。

2 互联网虚假信息研究存在问题

互联网始于1969年，而互联网真正的普及是在1990年以后，因此对于互联网信息尤其是互联网虚假信息的研究还处于起步阶段，通过对互联网虚假信息的相关研究进行对比分析，可以得出互联网虚假信息的研究还存在以下几方面的问题：

2.1 学者对互联网虚假信息概念的界定不统一学者对互联网虚假信息还没有较为权威、严谨、完善的界定。虚假信息也因此会和欺诈信息、谣言、垃圾信息以及不实信息相混淆。

2.2 学者对互联网虚假信息的研究方向过于局限学者们对虚假信息的研究大多集中虚假信息的特征分析和防范体制建设上。然而这些特征只是虚假信息在互联网平台上的表现特征，不能用这些特征来识别或发现虚假信息；体制的建设对可以促成互联网形成较为健康的环境，却不能从源头遏制互联网虚假信息的传播。

2.3 互联网虚假信息的研究方法较为单一大多数学者对互联网虚假信息的研究是通过定性的方法来分析虚假信息的成因、特征、传播以及控制问题。定量研究是对统计收集到的资料进行分析、测算等，得出的结论是普适性的、概括性的、不受背景约束的。而对于互联网虚假信息的研究问题中，由于互联网信息数据庞大性，应该更多采用定量研究方法来对虚假信息进行科学的研究。

3 互联网虚假信息的研究方法探讨

互联网信息对人们日常决策产生越来越大的影响，关系到国家安全和社会稳定，在新的时代、技术背景基础上，本文认为可以从以下两个方向对互联网虚假信息展开研究。

3.1 利用分形分类技术在对信息进行识别分形数据挖掘技术是一种利用数据集的分形特征对其进行挖掘的技术，Faloutsos （2007）[6]指出诸如网络数据、图数据、传感数据、地理数据、医学数据、金融数据等数据集适合运用分形数据挖掘技术进行分析。可以利用分形分类技术对互联网信息的结构或属性进行挖掘，通过对新产生的互联网信息与已经被证明为虚假信息或者真实信息数据集的特征匹配程度来识别其真伪。

3.2 利用文本识别技术识别信息发布动机伴随着Web2.0的到来，互联网逐渐成为大众普遍交流观点、抒发感情感的平台，积累了大量的关于人类心理和行为的文本信息，社会科学研究可以利用心理学的情绪结构理论对信息进行分析处理。常用的研究方法主要有两类：一类是基于自然语言处理技术，通过确定情感表达与主题之间的关系，分析文本中某一主题的情感倾向；另外一类是基于机器学习，根据训练数据并利用支持向量机（SVM）等技术，将文本区分为正情感和负情感。互联网虚假信息正是互联网用户基于某种心理来在互联网平台上发布的信息，可以通过文本识别技术来挖掘信息内容所包含的情感因素，进而了解信息发布者的动机，借此识别信息内容的虚假与否。

参考文献：

[1]丛红日.网络环境下的虚假信息问题及其对策[J].现代图书情报技术，2003（101）：149-153.

[2]Castillo C， Mendoza M， Poblete B. Information credibility on twitter[C]//Proceedings of the 20th international conference on World wide web. ACM， 2011： 675-684.

[3]王永刚，蔡飞志，Eng Keong Lua，胡建斌，陈钟.一种社交网络虚假信息传播控制方法[J].计算机研究与发展，2012（49）：131-137.

[4]钟琪，戚巍，张乐.Lotka-Volterra 系统下的社会型危机信息扩散模型[J].系统工程理论与实践，2012，32（1）：104-110.

[5]刘可文.微博客虚假信息的传播特征及治理策略[J].贵州师范大学学报社会科学版，2012（6）：88-92.

[6]Faloutsos C. Data mining using fractals and power laws[J]. Lecture Notes in Computer Science， 2007： 1.