基于共词分析的2003-2012年全国核心期刊会议论文主题可视化

2014-03-26 01:14张斯龙程卫萍
中国科技期刊研究 2014年7期
关键词:共词专题报告高频词

■张斯龙 程卫萍

1)浙江大学医学院附属第二医院《中华急诊医学杂志》编辑部,杭州市解放路88号 310009,E-mail:zhjzyx@163.com

2)浙江省科技信息研究院,杭州市环城西路32号 310006,E-mail:cwp@zjinfo.gov.cn

由中国科学技术期刊编辑学会、万方数据等主办的全国核心期刊与期刊国际化、网络化研讨会,从2003至2012年已召开了10届会议,出版会议论文集10本。在2012年会议上,李军副秘书长宣读了十年来会议的情况回顾,指出会议主题鲜明,有一批热心、高产的作者积极参与,形成了一定的品牌效应。

本文将在定量统计的基础上,以关键词共词分析[1]为主要研究方法,对这十年来会议论文的主题进行可视化分析,探讨会议主题的历程演化和关注热点。

1 资料与方法

1.1 资料来源

2003-2012年《全国核心期刊与期刊国际化、网络化研讨会论文集》纸本,万方数据会议论文检索库、中国知网重要会议论文数据库。在数据库中检索,保存文献题录信息,并下载全文。

1.2 数据整理加工

会议论文集载文类型主要为专题报告与论文,部分篇目只有摘要,属于入选论文,这几种类型均纳入篇数统计与关键词整理汇总,附录与附表未纳入统计。

1.3 关键词整理策略

关键词是从文献中选出的能够揭示文献主题信息的词或词组,是对文献核心内容、观点、方法的提炼[2],是本研究分析的切入点,因此对关键词的标引要求尽可能精准、规范。大部分年份的论文集均已给出了作者关键词,个别年份的少数几篇未见有标注。从万方数据、中国知网的会议论文数据库中检索的结果来看,原先未给出关键词标注的,数据库为其补充了标引,有的还进行了扩展。

本研究对关键词汇总主要遵循以下几点策略:⑴尽量保留原有作者已给出的关键词标注,原先无标注的则考虑数据库给出的标引词或自行标注;⑵对数据库厂商标引的关键词进行适当的调整;⑶舍弃或改变部分无实指意义的泛词;⑷进行一些同义词的合并。具体包括:对数据库厂商标引过多的词进行舍弃,通过对部分论文进行原文或摘要的研读,调整改进部分关键词。比如“编辑”一词,其本身具有多种含义,需根据文章内容确定为具体所指含义。合并同义词方面,将“学术性期刊”统一表述为“学术期刊”,“开放获取”统一为“开放存取”,“期刊国际化”统一为“国际化”,“在线审稿系统”,“在线编发”等均统一为“投稿审稿系统”,等等。

1.4 高频关键词选择

关键词词频分析法主要通过关键词出现的频次变化来研判各学科研究的热点,关键词之间可以采取不同的方法计算关联强度,形成关键词聚类可用于识别研究主题[3],高频词共现聚类分析可揭示学科或主题的结构与变化[4]。因此对高频关键词的选择是一个重要的步骤。

对所有关键词进行频次统计与排序,确定高频关键词与低频关键词之间的阈值。采用齐普夫第二定律[5]所得的词频高低分界线为50,采用g指数法[6-7]词频高低分界线为13。为了达到更好的聚类效果,本研究采用g指数法,将词频≥13的定义为高频词,得到59个高频关键词。

1.5 可视化软件选择

本研究除采用office软件与自编的程序进行数据加工整理转换外,运用到可视化软件有UCINet、Pajek、CitespaceⅡ等。UCINet软件能对共词矩阵进行转化和分析;Pajek软件主要用于生成关键词共现网络图谱;CitespaceⅡ软件能进行多种共现分析,且支持选取不同的阈值参数,可用于生成不同时期、不同类别的关键词共词图谱。

采用自编的程序,将全部关键词从不同的分析角度进行抽取和区间划分(例如高频关键词,专题报告、获奖论文的关键词),循环计算两两关键词之间的共现频次,以矩阵的形式存储,逐个转化为excel矩阵文件保存,然后用UCINet软件进行转化,生成可视化软件Pajek能读取的.net文件。

根据CitespaceⅡ软件所支持的数据库检索结果格式,先将整理汇总的数据记录参照refworks题录格式进行转化,生成相应的题录文本文件,转化后的题录文本若能成功导入CitespaceⅡ软件,即可运行生成相应的共现聚类图谱等。

2 结果

2.1 基本情况

十年间会议论文集共刊出1132篇专题报告与论文,其中2008年与2010年各出现了一篇与前一届文题与内容均相同的稿件,属于重复投稿,予以弃除,实际统计纳入篇数为1130篇。

对每年稿件总篇数、获奖篇数、关键词数等进行统计,关键词总数5323个,篇关键词数最多为12个,最少的为2个,篇关键词数(4.71±1.52)个。基本信息见表1。

表1 2003-2012年核心期刊会议论文篇数与关键词数基本情况统计

2.2 高频词共现

共词分析法是内容分析法的一种,常用于展现某学科或研究领域的主题结构,选取在同一会议主题下高频关键词的共现情况,能给出各研究主题之间的关系。对出现频次≥13的59个高频词,先生成共现频次相关矩阵,对角线取值为0,再将相关矩阵经Ochiia系数法[1]转换为相似矩阵,然后在UCINet软件中,将相似矩阵转化为Pajek能读取的关系文件;同时以CONCOR迭代相关收敛法[8]对相似矩阵进行2次迭代,这些高频词按内在联系被分为有4个聚类的树状图,根据这些聚类将编号定义至Pajek的分区(patition)文件,最后在Pajek软件中生成共词图谱。词频度高的词相对居于视图中心位置,连线代表各节点间的共现关系密切度,具有相同颜色的节点属于同一分区,见图1。高频词的聚类能代表研究热点,从图1中可看出会议热点主要有以下几条主线:(1)网络信息化方面的数字化出版、网络出版、网络传播、开放存取、在线投稿审稿、以及版权保护、学术不端等;(2)办刊理念、期刊定位、学术质量、期刊国际化等宏观方面的探讨,以及具体的编校质量、规范化、影响因子等;(3)学术期刊、高校学报、期刊特色、创办精品期刊;(4)编辑意识、知识结构、创新意识、复合型人才;(5)各专业类别期刊的办刊宗旨、特点与策略;(6)核心期刊的研制方法、评价指标、学术评价、期刊评价、参考文献、引文分析。

2.3 专题报告中的关键词共现

专题报告是大会精心组织的专家报告或发言,是会议交流的重要内容,受到会议代表广泛关注,相当大程度上代表着会议的学术水平。历年专题报告共计35篇,累计关键词数达214次,将专题报告按词频高低进行分区定义,生成共词视图,形成聚类,并经部分手工布局,见图2。

图1 2003-2012年核心期刊会议高频关键词共词图谱

图2 专题报告中关键词共词图谱

通过图2可以发现,历年来专题报告在选题上主要有以下聚类:(1)有关核心期刊研制的方法、统计评价作用,以及与引文数据库、文献计量学之间的实证或指引;(2)以围绕期刊管理、出版事业、期刊经营、管理体制,争创精品期刊等有关期刊发展的探讨;(3)以学术期刊国际化为主题,涉及网络化、检索系统收录、稿源、编辑工作等相关内容;(4)以数字出版为主题的有关媒体融合、在线编审、网络社区的探讨,且该主题与创新平台、学术思想交流、科技发展事业等主题密切相关。(5)以数字出版为主题的有关知识服务、优先出版、数字出版平台等,其中对有关核心期刊的计量与评价功用等的探讨最为密集。

部分主题词与多个聚类相关,如“期刊国际化”、“数字出版”、“期刊评价”、“研制方法”、“国际检索系统收录”、“期刊论文”、“SCI”、“CSSCI”、“期刊管理”等,它们在连接不同的聚类中具有较高的中介度,今后有望继续成为探讨的热点。

2.4 三个时间段的高频词共现

除了UCINet、Pajek等软件能进行共词分析与视图生成外,CitespaceⅡ软件同样也能便捷地进行可视化分析,特别是利用其能灵活设定起止年份的功能,对十年来的会议热词与主题按三个不同时间段进行区分对比,以此来展现各阶段研讨内容与主题的演化特点[3]。

在CitespaceⅡ软件中,选择生成节点类型为“Keyword”进行关键词聚类,“Top N per Slice”参数选30,以最小生成树算法生成各时期的主要关键词共现视图,见图3。

共词视图中,节点的大小代表出现的频次,节点间的连线粗细代表共现频次的高次,连线颜色还代表共现的年代叠加,其中外圈为紫色圈的是网络中中介中心性较高的节点,即在网络中起到了重要的连接作用。

图3 三个时间段的热词共现视图

由图3可看出,历年来比较恒定、始终在密切探讨的主题词有:“网络化”、“数字化”、“期刊国际化”、“期刊质量”、“编辑素质”等。在2003-2006年间的报告与论文对《中文核心期刊要目总览》的研制方法、利弊进行了充分的分析,对加入WTO组织与中国期刊的挑战与机遇也进行了较多的讨论,许多论文围绕期刊国际化、网络化、规范化等多个角度展开了探讨。2007-2009年间的报告与论文选题更为广泛与丰富,新出现了如“经营策略、质量管理、品牌经营、专业化、运营机制、学术规范、作者交流、新媒体”等主题词。2010-2012年间与前一时间片段相比,“投稿审稿系统”“论文相似性检测”等词处于边缘的位置向较中心的位置靠拢,说明各类新技术的应用普及度有所提高,2012年还出现“云出版”一词,代表了数字化出版和信息传播较新的形态。还有“对策“一词也更为突出,说明各编辑工作者在实践中已总结出相当多的对策与措施。

2.5 研讨主题热点演化与趋势展望

通过对历年来关键词的词频与共现的统计,能基本掌握这十年来会议研讨主题的总体分布与脉络,还可以对各主题在时间上的演化进行观察分析,以此查看在本主题内的研究与实践进展。根据指定的某关键词进行筛选,查看各阶段的题录与摘要,可以初步判断该主题在会议论述中的内涵演变。

例如以关键词“办公自动化”进行筛选,共有10篇论文。早期(2003年)的相关论文报道引入微机或组建局域网进行编校管理,优化出版流程,基于单机版或网络版的采编系统开始运用。2004年出现了基于Web的期刊管理系统,随后有更多的论文指出要将办公自动化与网络化、信息化相结合,扩大在行业内的影响。2012年出现了一篇介绍报刊发行管理系统的论文,体现了精益发行、客户管理等理念和实践。办公自动化涵盖内容广泛,由于创新和应用领先,此类论文2003年的2篇报道均获得优秀论文一等奖,之后的论文基本就处于三等奖区间,这也能看出,办公自动化发展水平在提升,需要以更好的应用案例才能有望脱颖而出。当办公自动化、信息化渗入出版各环节后,已对采编运作、经营管理等提出了要向精细化发展的要求。

以含有关键词“学术不端”的论文为例,2003-2006年、2007-2009年间各有3篇论文,2010-2012年间达17篇,研究篇数显著增多,说明对学术不端行为的关注度上升,防范对策实施力度加大。中国知网与万方数据分别在2008年与2010年推出了学术不端文献检测系统,“论文相似性检测”这一关键词在2010年论文集中首次出现,并且2010年起探讨“学术不端”的论文几乎都包含了“论文相似性检测”,除了充分肯定论文相似性检测技术提供了有力的参考依据外,同时也对“文字复制比”“检测效果”等方面进行了研讨。可以看出,各期刊编辑部借助技术手段遏制学术不端行为的普及程度正逐年扩大,并且对有效性与适用范围进行了充分的思考。已有研究报道在投稿审稿系统中嵌入相似性检测功能,将二者集中使用能进一步提高效率、存档结果完整。这是目前几大主流期刊采编系统调用数据库厂商接口这一基础上完成的功能,开放的接口是业务系统持续提升的保障,这种基于开放接口的扩展功能有望成为将来的趋势。同时学术期刊办刊者也会进一步关注“反反抄袭”等新技术的开发。

从历年会议专题报告、获奖论文的关键词图谱与内容研读基础上,笔者推测,总体上近几年来的一些高频词仍将会被继续探讨。例如各版本核心期刊的“晋级与保级”、评价指标的调整会被密切关注;网络化应用水平会持续提升,在线投稿审稿系统、论文相似性检测、开放存取、新媒体传播等仍会持续产生影响,也会有越来越多的期刊开通此类功能与应用。

另外科技期刊/核心期刊今后的关注点将会进一步明晰,会致力于提高学术质量,打造核心竞争力,寻求期刊的办刊特色。国际化的追求会越来越务实,基本会由外文版期刊承担这一诉求。网络化的迅速发展,提升的不仅仅是效率,更是网络传播与人际传播时代的到来,因此,需要经营理念能契合行业的发展与大众习惯的变更,重新定位读者与作者,吸引用户参与表达与自主选择,把握市场与用户的切实需求,学习新的商业模式与适应新兴事物,根据自身定位在行业内发挥出应用的影响力,等等,均是在网络时代科技期刊会直面的课题。编辑队伍建设仍将会是重要话题,吸引人才与自我学习并举,发挥出每一个人的能动性,提高各方面的素质与技能。经营管理与人才队伍建设两者相辅相成,因此,在出版体制改革的背景下,各类管理工作事务的经验总结、各类创新型的理念与成果案例,都将会受到密切关注。

3 结束语

全国核心期刊会议十年来围绕核心期刊的网络化国际化等主题展开了不同层面与角度的探讨与交流,坚持了专题报告与论文评奖的形式,受到了广大期刊工作者广泛关注和积极参与。根据主题回顾分析,可以认为会议主题鲜明,切合期刊出版工作中广泛关注的议题与实际问题,近年来影响范围进一步扩大,是科技期刊工作者重要的会议研讨与交流平台。

本研究主要以选取高频词和共词分析法对会议论文研究主题进行分析,展现了我国期刊工作者特别是科技期刊工作者所思考与关注的领域,将各研究主题与热点进行直观的可视化呈现,并具有完整的空间结构,能较好地展现各研究主题之间的关系和密切程度。可视化软件的研究运用是近年来文献计量学方面的重要进展,它从定量、可重复的方法对学科知识进行分析与可视化,特别是能揭示不同时间段各研究主题的结构与演化特点,对学科热点、前沿能进行很好的呈现,具有简明、直观的特点,适用于包括编辑出版学在内的各学科的文献计量分析。

从高频词的角度着手分析能发现研究主题与热点,但并不代表着词频未达到高频词阈值的词就不属于研究热点范畴。某些出现在专题报告或获奖论文中的低频词仍然是非常好的研究点。

本研究的局限性在于:首先关键词并不能完全、到位地表达出整篇文章的主题或中心思想。其次,关键词标注的来源不完全相同,部分关键词有同义词或近义词,补充标注关键词与合并同义关键词等干预不可避免地具有一定的主观性。本研究还建立在假定所有关键词具有同等重要作用的基础上,同时也假定了两词在不同文章共现时,其关联密切度相等同。这些不足均可能影响对研究主题与结构的表达,因此生成的结果是一定程度上的参考,可与专家评判[9]等方法相结合应用。

致谢会议论文集收集时得到了《轻工机械》田晓老师、《造纸化学品》陈根荣老师、《机电工程》罗向阳老师、《新型建筑材料》张美强老师的支持与帮助,在此深表谢意!

1 张勤,马费成.国外知识管理研究范式——以共词分析为方法.管理科学学报,2007,10(6):65-75

2 耿志杰,朱学芳,王文鼐.情报学领域关键词同现网络结构研究.情报科学,2010,28(8):1179-1182

3 叶春蕾,冷伏海.基于共词分析的学科主题演化方法改进研究.情报理论与实践,2012,(3):79-82

4 李海燕,崔雷,崔蒙.近十年国外对中草药研究的关注点——基于高频主题词的共现聚类分析.情报学报,2009,28(3):395-400

5 魏瑞斌.基于关键词的情报学研究主题分析.情报科学,2006,24(9):1400-1404,1434

6 杨爱青,马秀峰,张风燕等.g指数在共词分析主题词选取中的应用研究.情报杂志,2012,(2):53-55,74

7 赵星,高小强,郭吉安等.基于主题词频和g指数的研究热点分析方法.图书情报工作,2009,53(2):59-61

8 刘军.整体网分析讲义——UCINET软件实用指南.北京:汉语大词典出版社,2009:181

9 李佳.共词聚类分析法中的主要问题与对策.情报学报,2010,29(4):614-617

猜你喜欢
共词专题报告高频词
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
专题报告
专题报告
专题报告
专题报告
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造