2000-2016年我国数字档案馆研究现状及热点分析

2017-04-01 01:06王明杰
云南档案 2017年3期

■王明杰

2000-2016年我国数字档案馆研究现状及热点分析

■王明杰

本文以CNKI中有关“数字档案馆”的期刊论文作为样本数据,借助SATI和Ucinet等统计分析软件,抽取文献关键词,对合作者进行社会网络分析,对关键词进行共现分析,绘制了我国数字档案馆研究的热点知识图谱。对数字档案馆当前研究现状进行计量分析,多角度揭示数字档案馆的发展现状及研究热点。

数字档案馆社会网络分析关键词共现分析文献计量

(二)研究方法

主要使用SATI(StatisticalAnalysisToolfor Informetrics)和UCINET(universityofCalifornia atIrvineNETwork)等统计软件,对关键词进行共现分析。关键词共现分析方法,是指抽取样本文献库的高频关键词,构造关键词共词矩阵,对关键词共词矩阵进行知识图谱绘制,进而揭示热点主题。[5]SATI主要对字段信息进行抽取,统计所得文献的字段信息并构建共现矩阵,包括作者、年度、期刊、地址、关键词词频及关键词共现矩阵、作者共现矩阵等。UCINET则对这些类项之间的关系进行具体的分析。UCINET以处理社会网络数据及其他相似性数据为长,可以进行社会网络量化分析。同时笔者使用嵌入的NetDraw,绘制了数字档案馆研究图谱,以便清晰地展示社会网络关系及热点研究。

二、关键词共现分析

(一)文献发表年度分析

根据SATI统计结果,2000-2016年数字档案馆研究相关的论文发表数量及时间关系如图1所示,整体呈现增长态势。可分为两个阶段:①快速起步阶段(2000-2005)。1999年我国开始实施“政府上网工程”,档案部门随之开始进行档案信息化,这一阶段的研究成果呈现出迅速增长的态势,并在2005年达到一个高峰,这说明在新世纪,人们对数字档案馆的研究激情非常高涨,这是数字档案馆研究的起步阶段;②稳速发展阶段(2006至今)。研究成果呈曲折发展态势,这一阶段的文献变化幅度比较大,一直处于起伏状态,但总体仍呈上升趋势。2008、2011年又出现了高峰期,并在2013年达到最高峰。但由图可见,核刊文献数量所占比重一直较低,但发文量很稳定。

图12000 -2016年发文量

(二)来源及作者分析

1.文献期刊来源分析

根据SATI统计,1239篇论文来源于214种不同的期刊,本文选取≥17篇文献的期刊,即每年至少发一篇论文的期刊进行统计分析,按照核刊与非核刊的分类标准生成图2。由图可见,刊载论文较多的期刊有:《兰台世界》《黑龙江档案》《浙江档案》《中国档案》《档案学通讯》《档案学研究》《档案管理》《档案与建设》《档案》《北京档案》《云南档案》《湖北档案》《办公室业务》《兰台内外》《机电兵船档案》《山东档案》《办公自动化》等21种期刊。档案学科的期刊种类占总期刊11%,共发表论文870篇,其中≥17篇论文期刊中档案学科的期刊占80%,共825篇论文。这说明数字档案馆研究的主体范围非常广泛,但档案学科是数字档案馆研究的核心。

2.高产作者分析

图2 文献来源期刊分布

在2000-2016年,1239篇论文中共1293名作者,1.04人/篇,第一作者共945名,人均发文1.31篇。其中≥6篇的作者如表1所示,可见,潘连根、程妍妍、唐艳芳和薛四新等是近16年来的高产作者,也是数字档案馆研究的核心作者。潘连根[6][7][8]主要研究了数字档案馆的定义及特征,并对数字档案馆的建设进行了前期研究;傅荣校[9]、金更达[10]、程妍妍[11]等对数字档案馆建设模式及相关网络技术和规范标准进行了深入研究;唐艳芳[12]、管先海[13]等在信息咨询服务方面进行了探讨;此外薛四新[14]、周枫[15]等对云计算和大数据环境下数字档案馆的应对进行了相关研究。

表1 高产作者频次表

本文选取≥9篇的高产作者进行具体分析,如图3所示,下图中的诸位作者都是在数字档案馆开展过深入研究,并发表了一系列相关文章;图3为我们呈现了数字档案馆研究学者的主要研究特征:引领性研究,潘连根在2002年发表了两篇关于数字档案馆的研究后,在2004年到2007年进行了深入研究,发表了18篇文章,引领了数字档案馆研究的浪潮;阶段性研究,唐艳芳分别在2002-2003年、2006年、2010-2011年三个阶段对数字档案馆进行了研究和探讨;持续性研究,金更达在2004-2008年持续关注并对数字档案馆进行了体系性的研究。不同的作者在不同时期都曾在数字档案馆领域内进行过深入研究,但持续性与连续性不强。

图3 高产作者发文量

3.合作者社会网络分析

选取发表论文≥2的作者(230名),通过SATI生成作者共现矩阵,然后导入专门处理社会网络数据的Ucinet,生成图4高产作者合作网络。节点的大小表示该节点的中心性,与该节点作者合作人数越多,节点就会越大,中心性越高。图4中,作者被聚类为20个学术合作群,分为以下三种类型:①最主要的是2人组的学术合作组,这种组合作方式占总学术合作组的75%,②3人组的学术合作群占13.3%,两组分别为高校内部和高校间合作。③4人组的学术合作网占20%,均为高校与企业合作。

重点讨论以两人组的学术合作,他们的主要合作方式有以下三种:高校内部合作53.3%,如唐艳芳和温献英同属于湘潭大学;企业内部合作26.7%,如段文和袁向阳同属于西北核技术研究所;高校与企业合作20%,如杨智勇和周枫,分别来自上海大学和中国商用飞机有限责任公司。由上可知,2人组且同单位的合作率最高;高校是数字档案馆研究的主要阵地,主要分布于京津和江浙沪;同时高校与企业数字档案馆研究者相互支持,共同发展。

表2 高频关键词

图4 高产作者合作网络

(三)高频关键词频率分析

关键词是从论文中提取出能够反映论文主题内容的词条,通过分析高频词能够得出期间研究热点内容。1239篇论文中共抽取出2502个不同的关键词,结合关键词的代表性和知识图谱清晰显示对关键词数量的限制,本文将频率阈值设置为≥30,即选取出频数前30的高频关键词(见表2)进行归纳分析。由表可见,关键词频次之间的差异非常大,数字档案馆的频率高达926次,其次数字档案馆建设、信息服务、档案数字化、信息资源、云计算、信息技术、知识管理、档案网站的频率也非常高,以上都是数字档案馆研究的热点内容。

(四)关键词共现分析

关键词不是孤立存在的,关键词共现矩阵能够直观得展现出关键词与关键词之间的联系,进一步揭示数字档案馆研究内容的内在相关性及其内部微观结构。本文选取频率≥10的关键词,生成高频关键词共现矩阵(表3)和高频关键词归一矩阵(表4)。

关键词矩阵中的共现变化范围是0-1,数值越大,相互之间的相似性就越大,也就是这两个关键词之间的关联性越大。如表4所示,数字档案馆建设与档案数字化的相似度为0.1616,是关键词中联系最紧密的,诚然,档案数字化是数字档案馆研究中不可避开的部分。而数字档案馆与信息服务之间的相似性为0,则可能是系统在提取字段、分析字段时的不规范设置造成的。

表3 高频关键词共现矩阵(部分)

表4 高频关键词归一矩阵(部分)

图5 研究热点知识图谱

图6 高频词研究热点知识图谱

(五)研究热点脉络分析

利用Ucinet和Netdraw对关键词共现矩阵进行可视化分析,根据关键词频次分析,笔者将关键词共现矩阵设为“100*100”,可以得出数字档案馆研究热点及其交互关系,见图5。蓝色方框代表该领域的研究点,连接研究点的双向箭头表示这两个研究点存在共现关系。该研究点的箭头越多,表示其与越多的研究点交叉相关,是数字档案馆研究领域的核心,反之表示该研究点受到的关注度较低,参与人员较少。箭头交叉形成黑色阴影,阴影越重,代表该研究热度越高,反之代表该研究点的关注度越低,发表的相关论文也越少。

依据图6可将数字档案馆研究的核心研究领域锁定为以下3层区域:

数字化档案、馆藏档案、档案信息、数字档案馆建设、档案事业是核心层。1999年,政府实施“政府上网工程”,我国开始进行档案数字化,2002年《全国档案信息化建设实施纲要》提出要加快档案资源数字化的进程,我国档案馆全面开始档案数字化工程,同时在摸索中开始了数字档案馆的建设,此后,我国学者对数字档案馆建设的背景、条件、功能、模式、技术、风险对策及标准体系等进行了全面深入的研究;信息服务、用户需求、信息资源、资源共享、档案网站、档案管理系统、网络技术是第二层。数字档案馆服务是数字档案馆价值的最终体现,也是检验数字档案馆是否成功的重要标志之一。[16]档案信息资源怎样实现共享、如何为用户提供更好的信息咨询服务,怎样保障数字档案馆高效、平衡建设是这一层主要探讨的问题;高校数字档案馆、云计算、大数据、知识产权、网络安全、知识服务、元数据、生态系统是最外层。在信息时代的背景下,数字档案馆的研究步入了新领域,我国学者积极探索了基于大数据、云计算的数字档案馆建设与管理。

综上所述,新世纪以来国内数字档案馆的研究和实践受到信息技术、网络通讯及国家政策的重大影响,数字档案馆的研究始终是档案学界的研究重点,近17年来,数字档案馆研究主体不断多元,研究内容不断深入,研究主题不断细化,数字化档案、数字档案馆建设、资源建设、信息服务、资源共享、知识管理、云计算、大数据等都是数字档案馆研究领域主要学术合作群研究的重要内容,但合作者社会网络过于零散,该领域研究者的合作规模较小,且学者研究的持续性和连续性需要继续加强。

[1]金波等.数字档案馆生态系统研究[M].北京:学习出版社,2014:6.

[2]朱小怡等.数字档案馆建设理论与实践[M].上海:华东师范大学出版社,2007:1.

[3]戴维·比尔曼:虚拟档案[A].第十三届国际档案大会文件报告集[C].中国档案出版社,1997: 120.

[4]冯惠玲.无纸收藏《拥有新记忆——电子文件管理研究》摘要之二[J].档案学通讯,1998(2): 47-50.

[5]郭树行,谈斯奇.关键词共现研究趋势分析[J].科技资讯,2011(32):204-205.

[6]潘连根.数字档案馆的定义及特征——数字档案馆研究之二[J].浙江档案,2004(4):7-9.

[7]潘连根.数字档案馆的功能及类型——数字档案馆研究之三[J].浙江档案,2004(5):7-8+18.

[8]潘连根.数字档案馆的组织形式、系统模式和运作方式——数字档案馆研究之四[J].浙江档案,2004(6):4-6+28.

[9]傅荣校,陈荣红.数字档案馆模式研究(二)——现阶段综合性数字档案馆建设模式初步介绍[J].档案学通讯,2005(5):59-62.

[10]金更达.基于OAIS的数字档案馆系统框架研究[J].浙江档案,2007(4):38-41+45.

[11]程妍妍,李圆圆.我国数字档案馆标准规范体系研究[J].档案学通讯,2014(6):53-57.

[12]唐艳芳.数字档案馆档案信息服务平台的构建[J].档案学研究,2006(5):44-48.

[13]管先海.数字档案馆用户研究[J].湖北档案,2004(12):11-13.

[14]薛四新,陶水龙,崔伟.数字档案馆云计算建设模式的思考——以北京市区域性数字档案馆为例[J].档案学研究,2012(3):62-64.

[15]周枫,杨智勇.基于大数据的数字档案馆信息服务模型构建[J].北京档案,2015(8):26-29.

[16]陈忠海,崔晓惠.数字档案馆信息服务研究综述[J].档案管理,2008(6):21-23.

作者单位:上海大学图书情报档案系

一、数据来源和研究方法

国学术期刊

总库为平台,以“数字档案馆”为检索词,篇名为检索项,选取2000.1.1-2016.11.30为时间界限,共检索出1347篇文献,手动剔除动态、消息、会议摘要、报告等非学术性文献,共计1239篇。

20世纪90年代,在技术推动下的“信息社会”与改革开放推动下的“转型社会”共同作用下,社会数字化发展受到社会的高度重视,[1]1994年玛格丽特·海兹乔姆(MargaretHedstrom)率先提出“电子档案馆”的概念,[2]1996年戴维·比尔曼(DavidBearman)提出“虚拟档案馆”,[3]1998年冯惠玲进一步提出“电子档案馆”亦可称为“数字档案馆”、“虚拟档案馆”或“无墙档案馆”,[4]2000年5月第一个数字档案馆研究项目——“深圳数字档案馆系统工程的研究与开发”正式立项,由此,我国开始了比较系统的数字档案馆研究。自新世纪以来,数字档案馆研究受到了更多学者的关注与研究,已取得诸多研究成果,也已成为我国档案事业建设研究的热点领域。本文针对CNKI中2000年以来的期刊论文进行统计分析,以期梳理并总结新世纪以来我国数字档案馆研究的现状及研究热点。

(一)数据来源