高校科研数据研究知识图谱
——基于CiteSpace的分析

2019-05-24 06:29
图书馆界 2019年2期
关键词:数据服务机构图书馆

(广西科技大学图书馆,广西 柳州 545006)

高校科研数据是国家科学数据的重要组成部分,在国家科技发展、教育教学发展中发挥着重要作用。近年来,社会各界对高校科研数据给予了较大的关注。从2001年开始,陆续有学者对高校的科研数据进行了研究并发表相关文献,2013—2014年刊发论文数量突增,并在随后几年持续走高,如图1所示。本文以CiteSpace5.0为计量工具,在CNKI数据库以高校、大学、科研数据、科学数据词汇为主题词提取数据源,以知识图谱的形式,梳理并解析该领域的研究脉络、热点前沿以及发展趋势。

图1 高校科研数据研究领域相关研究文献总体趋势分析

1 数据来源及研究的指标体系

1.1 关于数据的选取与预处理

在对检索结果数据分析研究前,按如下步骤对原始数据进行了预处理:

(1)数据的下载:检索时间为2019年1月21日,在CNKI数据库设定文献类型为“期刊”,来源类别勾选“全部期刊”,设置检索年限为1998—2018年,以检索式“主题=(科学数据或科研数据)与(高校或大学)”进行检索,共检索出857条结果,其中核心期刊论文426篇,占结果论文总数的一半。

(2)数据的清洗与格式转化:通过CiteSpace5.0软件的CNKI数据格式转换器,将下载的数据进行清洗、过滤、除重,转换变成Web of Science数据格式,供CiteSpace进行分析。

1.2 关于可视化分析涉及研究方法

(1)科学合作网络分析:科学合作是指研究学者为生产新的科学知识这一共同目的而在一起工作(Katz J S,Martin B R,1997)。科学合作一般是指一篇论文同时出现不同的作者、机构或者国家(地区),则被认为存在合作关系。CiteSpace提供微观的学者合作网络Co-Author、中观的机构合作网络Co-institution和宏观的国家或地区的合作Co-country/territory三个层次的科学合作网络分析。本文主要对前两者进行科学合作网络分析。

(2)词频分析方法:词频是指所分析的文档中词语出现的次数。词频分析方法是指在文献信息中提取能够表达文献核心内容的关键词或主题词频次的高低分布,来研究某领域发展动向。

(3)共词分析方法:共词分析的基本原理是对一组词两两统计它们在同一组文献中出现的次数,通过这种共现次数来测度它们之间的亲疏关系。共词分析相比文献的共被引和耦合,其得到的结果是更直观。CiteSpace分析共词的方法有两种:一种是直接分析作者的原始关键词和数据库的补充关键词,另一种则是从数据集的标题、作者关键词、系统补充关键词以及摘要中提取名词性术语。本文使用的是前者对原始字段的共词分析。

2 高产作者的可视化分析

由于作者的发文量可从数量的角度揭示作者对具体领域研究的持续性、深度及贡献大小,本文将经过处理的文献导入CiteSpace5.0中进行分析。具体参数设定为:时间为“1998—2018年”,Years Per Slice为“5”,Node Types为“Author”,Selection Criteria为“Top50”,路径搜索算法为“pathfinder”。通过软件运行获取作者聚类视图,即可统计出近二十年间累计发文量排名前50名的作者数据。统计后的可视化结果如图2所示(部分截图),数据只统计作者发文篇次,不考虑排名位次;结点大小代表发文量的频次;结点之间的连线代表作者间的合作关系,连线的粗细代表作者之间的合作紧密程度。

图2 高校科研数据研究领域发文量TOP50作者聚类知识图谱

根据图2所示的发文量TOP50作者聚类视图,可得如下分布特征。

2.1 高校科研数据研究领域高产作者合作态势明显

以司莉、卫军朝、沈婷婷、吴鸣、胡卉、孟祥保、黄如花、张群、张计龙等为代表的绝大多数高产作者已形成密切活跃的科研合作关系,论文(尤其是核心期刊论文)多以合著形式发表。跨地域、跨机构的学者之间的合作正在逐步形成,如武汉大学的司莉分别与湘潭大学、上海大学的学者合作,东南大学的孟祥保分别与深圳大学、深圳市图书馆、西南交通大学的学者合作,江苏大学的刘桂锋与上海海事大学的学者合作,上海大学的沈婷婷与河北师范大学的老师合作,而上海大学的卫军朝与华东师范大学的蔚海燕合作发文有4篇之多。

2.2 高校科研数据的研究骨干专家主要来自图书情报领域

如表1所示,在该研究领域内发文数量排名TOP10的学者中,无一例外,全部来自于高校的图书馆、信息管理学院、信息研究所或中国科学院文献情报中心。这些专家本身对信息数据具备高度的敏感性,对发现和探索大数据时代新出现的信息研究前沿问题(如科学数据研究)极具优势,既擅长于前瞻性的课题研究,又能兼顾基础性的课题研究,对整个科研数据的研究领域起到了行业指导的引领作用。

2.3 武汉大学、南京大学、上海大学成为高产作者的聚集地

在高校科研数据研究领域内发文数量排名TOP40的学者中,司莉、黄如花、邓仲华、庄晓喆、完颜邓邓、曾粤亮6位学者皆来自于武汉大学,且前2位都进入TOP10;宗晓华、吴向东、袁培国、马晓军、袁勤俭4位学者的科研单位均为南京大学;上海大学的3位学者卫军朝、沈婷婷、郝媛玲,其中前2位进入TOP10。

表1 1998—2018年高校科研数据研究领域发文量TOP10作者信息

3 高影响力机构的可视化分析

研究机构的共现词分析有助于明确该领域的研究力量分布特点,是发现该领域核心机构的最有效方法之一,且能为相关研究机构合作、交流提供依据。本文再次将检索到的文献导入CiteSpace5.0,参数设置为:Node Types为“Institution”,Selection Criteria为“Top50”,其他设置不变。通过运行软件获取研究机构的聚类知识图谱,如图3所示(截图)。

图3 发文量排名TOP50的机构聚类知识图谱

由图3机构聚类知识图谱可看出,高校科研数据研究领域高影响力科研机构互动合作关系密切,发展态势较好。具体有以下特征:

3.1 跨机构合作形式呈多元化发展趋势

多元化的跨机构合作形式有助于科研人员知识的碰撞和创新,从而实现理论知识与研究实践的结合及优势互补。主要包括3种形式:1)高校院系与本校图书馆的合作。如武汉大学信息管理学院与武汉大学图书馆的合作,北京大学信息管理系与北京大学图书馆的合作,中山大学资讯管理学院与中山大学图书馆的合作。2)高校院系与外校图书馆的合作。如武汉大学信息管理学院与上海大学图书馆的合作,南京大学信息管理学院与西北大学图书馆的合作。3)高校院系与科技情报研究所的合作。如辽宁师范大学管理学院与中国科学院文献情报中心的合作,中国科学院大学与多家文献情报中心(包括中科院兰州文献情报中心、中科院成都文献情报中心、中科院文献情报中心)的合作。

3.2 机构合作呈现出跨地域的趋势

从图3可以看到,在当地研究机构合作的基础上,已经呈现出了超越地理局限的跨地区机构合作的趋势,其中两个大的跨区域合作网络尤为引人注目:以武汉大学信息管理学院为中心、上海大学图书情报档案系为次中心的合作网络,覆盖了武汉、上海、河南焦作、湖南湘潭四个地区的十所科研机构;以中国科学院大学为中心、中国科学文献情报中心为次中心的合作网络,覆盖了北京、成都、兰州、大连四地的6所科研机构。跨地区机构的携手合作有助于打破信息壁垒,实现数据开放与共享。

3.3 高校院系和图书馆是该领域高影响力科研机构的主体

表2列举了高校科研数据研究领域的核心期刊发文量TOP10的科研院所,可以看到,高校院系、研究所及图书馆是重要的科研主体,是研究高校科研数据的中坚力量。该10所科研机构所发核心论文总数占该领域核心论文总数的1/3强。该领域的文献研究涵盖多个主题:高校图书馆、科研数据管理服务、数据监管或监护、机构知识库、科研数据共享、数据科学、科研人员、数据素养,等等。

表2 高校科研数据研究领域科研产出TOP10的机构排名

4 高频关键词的可视化探析

通过绘制关键词共现知识图谱,可将近五年高校科研数据研究领域的研究内容以图谱的方式直接呈现出来,进而反映出该学科领域内的知识结构演变状况及研究热点。在CiteSpace 5.0软件界面中,NodeTypes选择为“keyword”,Selection Criteria选择“Top50”,其他设置不变,运行CiteSpace 5.0软件,可获取1998年至2018年高频关键词聚类视图的总体概况,如图4所示。

此外,为探知1998—2018年每一年研究主题的发展演进情况,在CiteSpace5.0界面,时间分别设置为“1998—2003年”“2003—2008年”“2008—2013年”“2013—2018年”,Years Per Slice的值为“5”,Node Types选择为“keyword”,Selection Criteria选择“Top50”,其他设置不变,通过软件运行分别获取每一年高频关键词的聚类视图。本文将1998—2018年每一年出现频次≥30的高频关键词表进行了汇总,如表3所示。

表3 高频关键词

4.1 对高频关键词的解读

每年出现频次≥30的高频关键词共有12个。排名第一的关键词是“高校图书馆”,加上排名第五的“高校”和第八的“图书馆”,这说明大部分学者认可高校图书馆是研究和管理科研数据的主体机构,图书馆是高校中最适合管理数据并向其他单位和用户提供数据服务的,如同管理其他文献信息资源一样。

图4 1998—2018年高校科研数据研究领域核心期刊高频关键词的聚类视图

对于排名第二和第六的两个高频关键词“科学数据”“科研数据”,前者是指通过实验、观测、调查等科技活动或其他方式所获取的、反映客观世界本质、变化规律和特征的基本原始数据和相关元数据,以及按照某种特定需求系统加工整理的各类数据集;后者是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机上的任何数据,也包括能转换成数字形式的非数字形式数据。如调研结果、神经图像、实验数据、传感器读取的数据、遥感勘测数据、来自测试模型的仿真数据等。从它们的定义来看,两者基本上是属于同义词,在研究实践中,高校的学者更习惯把科学数据称为“科研数据”。同理,排名第七和第十二的“科研数据管理”与“科学数据管理”也可视为同义关键词。

4.2 对高频关键词的发展态势探析

从表3和图4中可知,高校图书馆、科学数据、大数据、数据管理、科研数据等是当前高校科研数据领域内的研究热点。

4.2.1 以“高校图书馆”为代表的高频关键词,聚类词汇有:大学图书馆、学科馆员、学科服务、数据服务。数据密集型科研环境的到来以及科研人员个性化的信息需求,使数据服务逐渐成为高校图书馆学科服务新的发展方向。早在2008年,南京财经大学的安艳杰等就提出“数据服务是图书馆参考咨询服务中新的领域”,并介绍说国外把提供数据服务的图书馆员称为“数据馆员”。陈定权等、沈梦轩、完颜邓邓等、刘澈等、吴晓静、汪全莉等、王翠萍等、刘莉等、汪满容等、黄如花等一批学者纷纷介绍了国外高校图书馆在科研数据服务方面的宝贵经验,以期对国内高校图书馆开展数据服务提供借鉴。王丹丹探索如何识别用户的科学数据管理服务需求,提供了三种方法及相应的应用场景。朱彩萍研究了高校图书馆提供科学数据服务的途径和内容,特别提到将服务嵌入到科研过程中成为科学数据服务的主要途径。沙淑欣等从博弈论的视角出发,将图书馆作为数据服务合作开展的核心角色,分析其与各利益主体的关系,提出多方共赢的合作博弈策略,并构建实现数据服务顺利、高效开展的保障机制。杨佳等则从实践出发,介绍了上海图书馆利用数据可视化方法对图书馆的数据资源进行数据分析与挖掘的成果,借此进行数据创新服务实践并帮助图书馆洞察运营情况和未来发展趋势。郝媛玲对数据服务模式与数据馆员新角色进行了思考,认为数据馆员应该具备技术能力、知识能力、行为能力、环境能力等四种能力。

相比国外,我国高校图书馆科研数据服务的实践刚刚起步,仅有几所高校建设了数据服务平台,如武汉大学图书馆高校科学数据共享平台、复旦大学图书馆复旦大学社会科学数据研究中心、北京大学图书馆北京大学开放研究数据平台等。然而,这几个平台均以技术型为主,突出数据主导,忽视数据服务,容易造成技术与人文隔离,影响用户使用效果。高校图书馆作为科研数据服务的主要责任方,应该协调多方相关机构,合力建立以图书馆为主导的协同发展管理机制,随时根据用户的需求提供有效的科研数据服务。

4.2.2 以“科学数据”和“科研数据”为代表的高频关键词,聚类词汇有:科学数据管理、科研数据管理、研究数据管理、科研支持、数据服务、数据监管。我国学者对科研数据的研究最早见于1990年,近十年来研究和实践都进入蓬勃发展时期。用户对数据服务与科研支持服务的需求促使高校图书馆从单一的信息资源服务中心转变为集科研、教学、学习、文化服务于一体的知识中心,根据不同研究阶段的信息需求,为高校、企业及社会机构的科研人员提供支撑性的知识服务。鄂丽君等《国外大学图书馆科研支持服务内容介绍及特点分析》《“211工程”大学图书馆科研支持服务现状调查分析》、朱彩萍《高校图书馆提供科学数据服务的途径与内容》、完颜邓邓等《英美澳科学数据存储与共享平台建设现状调查及启示》、王翠萍《国外高校图书馆科学数据服务现状与启示:以五所高校图书馆为例》等文献值得借鉴和学习,受到业内学者的高度关注与认可。

科研数据管理的目的是为了数据能够被重复利用、节约研究成本。为保证数据的质量,需要对数据施以科学的处理及有效的监管,也就是说,要管理数据整个生命周期的活动,充分保持数据的完整性和真实性,确保数据经过正确的评估、选择并得以安全存储,以支持适时访问,并在今后的技术环境中保持其可用性。但对于科研数据监管的研究,我国尚处于起步阶段,主要以介绍国外的经验及对我国相关领域的启示研究为主。在未来的研究中,应该把更多的关注放在实证研究上,以拓展该主题的研究深度与广度。

4.2.3 以“大数据”为代表的高频关键词,聚类词汇有:高校、图书馆、机构知识库、数据素养教育。2012年3月,美国奥巴马政府公布“大数据研发计划”,由此拉开大数据研究的序幕。我国学者顺应时代发展洪流,迅速加入大数据研究的阵营。研究科学数据的学者敏锐地把大数据、科研数据和机构知识库联系起来。机构知识库的建设是近十多年来中国科学院系统与高校图书馆一直在探索的热点课题,它保存、积累和共享的,不仅仅是本机构的研究成果,还应拓展到记录和共享科研数据,使它能够还原科研过程。邓佳等、陈和、周宇等学者一致认为,机构知识库应该增加科研数据的内容。他们为我国机构知识库存储内容的丰富发展提供了新思路。麻思蓓指出,机构知识库能够为高校图书馆提供大数据分析的平台,挖掘海量数据的潜在价值,让隐性知识显性化,从中发现新的知识,使其服务用户、服务科研、服务创新主体和决策,让图书馆成为科技创新的有力支撑。邓君等则构建了对机构知识库中所存储的科学数据价值鉴定的模型。然而,现阶段我国的机构知识库建设遇到了瓶颈,制约其发展的因素有很多,但究其根源,主要是因为相关政策的缺失。迄今为止,我国还没有严格意义上的国家开放存取政策,组织及机构级别的机构知识库相关政策也较少,大部分机构知识库是由基层的图书馆独立支撑其建设、运营、维护并制定相应的政策。期望业内有志之士,从各方面自上而下推动国家层面的宏观政策、机构中观层面以及具体落实者层面的微观政策的制定与实施,保障机构知识库的可持续发展,有效发挥科研数据的作用。

鉴于提供数据服务成为高校图书馆工作的新方向,一些学者提出了服务双方都应该具备的数据素养教育问题。如焦海霞分析了信息素养馆员向数据素养馆员转型的驱动因素,提供了数据能力的全方位构建、数据文化的持久性浸润、数据用户的贡献力挖掘的转型路径。董薇、隆茜等、徐刘靖等也研究了图书馆员数据素养能力的培养途径。另外一部分学者,如邓李君、凌婉阳、郝媛玲等、胡洋等、杨晓琼、隆茜则从用户的角度出发,对如何提高科研人员、教师、学生等用户的数据素养进行了探索和实践。虽然目前在数据素养领域取得了一定的研究成果,但在数据需求与利用行为、数据素养概念模型、数据素养影响因素、数据素养评价与数据素养教育评价等方面的研究还存在不足。这些不足将成为后续研究的重点。

5 结 语

在科学研究正向数据密集型发展的背景下,科研数据的价值日渐凸显,对科研数据的管理与共享的需求也日益增长。从前述分析来看,目前对高校科研数据的研究仍然处在发展上升期,相关研究文献的体量还不算大。其间,虽然出现了不少研究热点,但在政策的制定、相关部门的协调合作、实践的推行、管理模式与评价机制等方面还很欠缺,与快速增长的数据产出和数据需求不相符合。在借鉴国外先进经验的同时,应该着力加快我国在科研数据管理与服务方面的务实建设,以推进科研创新与知识再创造。

猜你喜欢
数据服务机构图书馆
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
图书馆
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
一周机构净减仓股前20名
大数据开启图书馆工作新时代
去图书馆