Folksonomy的网络性质分析

2009-10-13 03:29
现代情报 2009年7期
关键词:复杂网络标签

李 静

〔摘 要〕Folksonomy是Web2.0环境下一种有效的网络信息组织方式。本文分析了Folksonomy的网络性质,基于社会化书签系统delicious数据集,发现了标签网络具有的两个基本性质:(1)网络的平均最短路径为3.16,聚集系数0.63,远大于相同参数下的随机网络,这揭示了标签网络的小世界效应;(2)网络中标签的度大体上呈幂律分布,表明标签网络具有无标度特性。

〔关键词〕Folksonomy;标签;复杂网络;小世界;无标度

〔中图分类号〕G255.51 〔文献标识码〕A 〔文章编号〕1008-0821(2009)07-0061-03

Analysis of Network Properties of FolksonomyLi Jing

(Library,Henan Normal University,Xinxiang 453007,China)

〔Abstract〕Folksonomy is a new kind of information organization methods emerging in Web2.0 environment.This paper analyzed network properties of folksonomy.Based on the dataset of social bookmarking site delicious,two fundamental characteristics were discovered.(1)Average node degree was 3.16 and clustering coefficient was 0.63,which exhibited a typical small world effect.(2)The degree distribution of tag network followed a power law distribution,i.e.,the scale free property.

〔Key words〕Folksonomy;tag;complex network;small-world;scale-free

社会化书签(Social Bookmarking)服务(如Del.icio.us、CiteULike、Flickr等)是Web2.0的标志性应用之一。Folksonomy(分众分类法)是基于社会化书签系统的一种新型信息组织方法,它带来了全新的信息交流与资源分享方式。作为一种自由而有效的网络信息组织方法,Folksonomy为传统的网络信息分类和传播方法带来了新的理念,体现了互联网所推崇的共享与协作精神,开创了互联网信息传播的新阶段。对Folksonomy的研究也在计算机科学、情报学等多种学科中迅速展开。

在社会化标签系统中,用户通过标签对资源进行标注的行为,使标签,资源和用户之间产生了一定的联系,在拓扑上形成网络结构。本文旨在对基于Folksonomy的标签网络进行研究,从复杂网络研究的角度分析标签网络具有的特性。

1 Folksonomy概述

1.1 Folksonomy的概念

社会化书签系统是Folksonomy的运行环境。社会化书签系统为用户提供了基于标签(Tag)技术的信息组织和管理方式,帮助用户存储和管理个人信息资源,并提供分享和交流的平台。在社会化书签系统中,用户根据个人的需要自由选择词汇对资源进行标注,每添加1个词汇被称为对资源添加1个“标签(Tag)”。用户、资源和标签组成了社会化书签系统的3个基本元素。

在社会化书签系统中,用户使用标签对资源进行标注,每个标签相当于用户对资源的一个分类,资源根据不同的标签被组织到不同的分类之下;所有用户的资源存在于一个共享的平台上,相同的标签还能够聚合不同用户相同分类下的资源。这种信息组织方式具有2个明显的特征:一是在对资源添加标签的过程中,用户不需要遵循任何事先制定的分类法或者词表;二是每个用户的活动空间不是孤立、封闭的,而是开放、共享的,因此也是互相影响的。信息构建专家Thomas Vander Wal将这种在基于互联网的社会环境中、由大众用户产生的信息分类组织方式命名为“Folksonomy”[1](中文名称被译为“分众分类法”、“自由分类法”、“大众分类法”、“通俗分类法”或“社会分类法”等)。从语源学上讲,Folksonomy是由“Folk”和“Taxonomy”2个单词组成的,表示由“群众”制定的分类法。它是用户自发的用标签对资源进行标注和分类,并与他人共享标签的过程和结果。用户添加标签的行为是“在一个社会化的环境中进行,即这个环境是开放和共享的”[2]。标签是Folksonomy形成和使用的基础,也是Folksonomy词汇体系的基本构成单元。

1.2 Folksonomy的内涵与功能

Folksonomy的内涵与功能主要包括3个方面:

(1)普通用户参与和主导信息的组织,用户间通过协作完成对信息的分类组织;用户能够对资源的意义进行标注,以便于再次查找和使用,同时使个人的资源能够被其他用户发现和分享。从结构上来讲,Folksonomy是一种平面的结构,没有等级体系。

(2)Folksonomy具有社群聚合的功能,并且能够反映不同社群对相同事物的不同认识,从而建立不同知识体系间的联系,具有强大的知识聚合及共享功能。

(3)Folksonomy赋予了用户基于标签的检索、浏览和定制功能。Folksonomy能够通过特定的标签聚合整个信息空间中的相似内容,在资源极其丰富的背景下,Folksonomy能够帮助用户发现感兴趣的内容。

1.3 Folksonomy与相关概念

1.3.1 Folksonomy与传统文献分类法

传统的文献分类法以学科聚类,类目的等级结构是文献分类法的重要特征。等级列举式分类法和分面组配式分类法是文献分类法的两种基本形式。前者具有固定的类目等级结构,仅支持单一的检索途径,不能进行多角度的检索,难以增加新的类目;而后者可以调整分面的组配次序,支持多途径多角度的检索,也容易通过分面组配表达新产生的概念。根据以上特征,文献分类法的结构可以被比喻成一棵树,拥有枝干和树叶,等级列举式分类法具有稳定的分枝,分面组配式分类法的每条枝干则能够动态地移植、嫁接;与之相对的Folksonomy中的标签离散地分布在一个平面中,则可以被视为一堆树叶。

此外,文献分类法在标引资源时采用特定的符号系统,而Folksonomy却是直接使用词汇,因此Folksonomy也可以被看作一个词汇的集合。

1.3.2 Folksonomy与元数据

元数据和Folksonomy都是为了高效地组织信息以方便用户的使用而发展起来的,前者的实施主体是相关专业人士,而后者则依靠的是广大网民。元数据经过10余年的发展,标准越来越复杂,在语义网的导向下更是从“大众的元数据”变成了“机器程序的元数据”,操作和维护成本相当高,在应用中几乎停滞不前。

Folksonomy是普通用户对资源描述的结果,这些用户可能是资源的作者也可能是使用者,因此自由分类法在某种意义上可以被视为一种用户产生的元数据。这种用户产生的元数据提供了资源的描述、定位、权限管理等多种功能,同时结构非常简单,完全采用自然语言,既没有区分主题、作者或来源等元素,也没有受控词表的限定。与传统元数据相比,依赖于大众参与的Folksonomy难以形成某种通用或供推荐的标准,它需要在特定的环境中运行和发挥作用。它的价值在于由广大的用户以协作的方式对分布式、迅速增长的网络信息资源进行描述和标引,为这些资源提供新的检索途径,而不是仅仅依赖于互联网服务的提供者或搜索引擎。

2 Folksonomy的复杂网络性质

自然界中存在的大量复杂系统都可以通过网络进行抽象和描述。原则上讲,任何包含大量组成单元的复杂系统,当把构成单元抽象成节点、单元之间的相互关系抽象为边时,都可以当作复杂网络来研究[3]。复杂网络突出强调了系统结构的拓扑特征,通过对网络结构特征的分析和网络模型的构建,可以理解网络结构与网络行为之间的关系,进而调整和改善网络行为。小世界现象和无标度特性是目前两类最典型的复杂网络特征。

在社会化标签系统结构图中,可以看到,用户通过标签对资源进行标注的行为,使标签、资源和用户之间产生了一定的联系,在拓扑上形成网络结构。其中标签之间可以通过对资源的标注形成标签-标签网络等。若标签t1和t2标注了同一个资源,称t1和t2同现(co-occurrence)。若两个标签经常用于标注相同的资源,则它们在一定程度上具有相似的语义。标签之间的同现关系形成网络结构,可以通过图来表示。通过同现分析和网络分析,从标签关联角度发掘网络的性质,将有助于对Folksonomy性质的深入分析,深层次的挖掘用户、标签和资源间的关系。

2.1 小世界现象

小世界现象揭示了客观世界许多复杂网络运动中最为有效的信息传递方式之一,即一个高度聚集的包含了“局部连接”节点的子网,连同一些有助于产生短路径的长距离随机连接。小世界现象目前还没有精确的定义,一般认为,如果网络具有小的平均路径长度和大的聚集系数,则称该网络具有小世界现象。平均路径长度和聚类系数是考察网络小世界现象的两个重要指标[4]。

平均最短路径长度是网络中两节点之间的平均距离。具有小世界性质的网络的平均最短路径会很短,远小于网络规模(这也是“小世界”命名的原因)。一个节点的聚集系数反映了其相邻节点所构成集合的聚集程度。整个网络的聚合系数C是每个节点i的聚合系数Ci的平均值(0≤C≤1)。

2.2 无标度特性

对复杂网络进行考量的另一个重要方面是节点的度分布。节点的度是指与节点i直接相连的边的数目ki,平均节点度是网络中所有节点度的平均值。度值的分布特征是网络的重要几何性质。网络中节点的度分布用分布函数p(k)来表示,其含义为一个随机选定的节点恰好有k条边的概率。

网络的无标度特性指网络缺乏一个特征度值,或平均度值,即节点度值的波动范围相当大。节点度满足幂律分布的网络具有无标度特性,相应网络称为无标度网络[5]。节点度服从幂律分布,指具有某个特定度的节点数目与这个特定的度之间的关系可以用一个幂函数近似地表示,即p(k)∝k-λ,其中λ是幂律指数。与常见的钟型分布(如正态分布、Poisson分布)不同,幂律分布有一条长尾,是一种重尾分布,其随机量有明显的两极分化倾向。把幂函数的两边取对数得到logp∝-λlogk,即在双对数坐标下,变量关系是一条直线。在网络中幂律分布表示大多数节点仅有少量连接,而少数节点拥有大量连接。

成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。成长性是指网络节点数的增加,即网络规模不断扩大同时其自身在不断演化;优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,表现出“马太效应”。这两个性质导致了复杂网络中节点的度分布服从幂律分布,存在少量度相对很高的节点,但绝大多数节点的度相对很低(即存在所谓的“长尾”)。

3 实验与分析

笔者使用使用Java Html Parser[6],于2008.11.25-27日抓取了delicious.com页面数据,经过数据清理和处理,得到数据集如下所示:

3.1 标签网络的小世界现象

网络平均节点度为16.5,聚集系数为0.63,平均路径长度为3.16。可以发现,标签网络具有小的平均路径长度和较大的聚集系数,呈现典型的“小世界网络”特征。

标签网络具有比较小的平均路径长度,说明任意两个标签都可以通过网络比较方便地连接,某个标签的使用行为可以通过网络轻易地传递,影响其他标签的使用。同时它又具有比较大的聚集系数,说明标签的“相邻标签”的簇内部的网络连接完备程度比较高。在Folksonomy中可以随意选用标签,并可以只用很短的路径就能从一个标签到达另一个标签。这样,Folksonomy网络一方面能够从规模上保证标签用词的丰富性,另一方面很好地保证了标签的选用效率。

3.2 标签网络的无标度特性

标签网络中的某个标签的节点度即为与该标签同现的标签数目,在双对数坐标下度分布如图1所示。可以发现各个数据点散落在双对数平面上的一条直线附近,可以用一条幂率函数拟合(y=2.5x-1.19,R2=0.812),即标签网络的度分布遵循幂律分布,呈现无标度特性。标签网络的无标度特性表明了该网络的的规模是不断增长的,有大量的新标签加入到网络,而且新增加的标签倾向于选择具有高连接度的节点,即用户在标注特定的资源时,倾向于选择已用于标注该资源的高频标签。

4 结束语

本文研究了基于Folksonomy的标签网络的小世界现象和无标度特性。对Folksonomy的网络特性的分析,将帮助我们对Folksonomy有更深入的理解,也从一个侧面印证了复杂网络的普适性。在此基础上,后续研究将进一步探索网络中标签的语义关联和社群结构,充分发掘Folksonomy在信息资源组织和知识管理等领域的潜在价值。

参考文献

[1]Adam Mathes.Folksonomies-Cooperative Classification and Communication throughShared Metadata[EB/OL].http:∥www.adammathes.com/academic/computer-mediated-communication/folksonomies.html.

[2]Gene Smith.Folksonomy:social classification[EB/OL].http:∥atomiq.org/archives/2004/08/folksonomyzsocialzclassification.html.

[3]Newman M E J.The structure and function of complex networks[J].SIAM Review,2003,45(2):167-256.

[4]Watts D J,Strogatz S H.Collective dynamics of‘small-worldnetworks[J].Nature,1998,393:440-442.

[5]Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272:173-187.

[6]Java Html Parser[EB/OL].http:∥htmlparser.sourceforge.net/.

猜你喜欢
复杂网络标签
拒标签
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于复杂网络节点重要性的链路预测算法
基于复杂网络理论的通用机场保障网络研究
标签化伤害了谁
基于多进制查询树的多标签识别方法