科研活动热度与科技文献使用次数之间的互塑机制*

2022-12-26 03:16田文灿王贤文王勇臻
情报杂志 2022年12期
关键词:科研活动格兰杰次数

田文灿 王贤文 王勇臻

(大连理工大学科学学与科技管理研究所暨WISE实验室 大连 116024)

0 引 言

科研人员在开展科研活动过程中,需要准确及时地了解相关领域的研究热点,以更好地辅助科研选题和进行职业生涯规划。因此,对研究热点进行精确实时的探测具有重要的现实意义。科技文献的使用次数(pdf下载和html浏览)恰好能够反映出科技文献的受关注程度,进而能够揭示出潜在的科研新动向。事实上,早在20世纪初,图书馆员就根据读者对期刊或专著的借阅次数来制定期刊订阅策略[1]。数字化时代来临后,学术交流环境发生了巨大变化,电子出版物取代纸质出版物,人们的阅读习惯也随之转向数字化。由此,人们的阅读行为被实时记录,所产生的科技文献使用数据也被实时存储到网络空间中,这使得对科技文献使用数据的测度变得更加便捷和易于统计。特别是,随着开放科学的兴起,越来越多的学术出版商和学术资源数据库开始提供和公开展示文章的使用数据指标,这为利用科技文献使用数据探测研究热点提供了新契机。

相较于科技文献的题录数据和引用数据,科技文献的使用数据则具有更强的时效性[2],可以实时反映文献的受关注程度,更适合用来探测研究热点。具体而言,一篇文章从构思到发表,再到产生引用,期间耗费的时间一般以年为度量单位,如JCR(Journal Citation Reports)就是每年发布一次。然而,产生使用数据所耗费的时间却能以月、天甚至小时或分钟来度量。另一方面,相比于引用数据的稀疏性,使用数据的储量也更为丰富。以IEEE Xplore数据库为例,该数据库在2011-2020年共出版258万篇文章,由此产生了1 024万条的引用数据,同时累积了高达1.5亿条的使用数据。可以看出,使用数据具有高度的研究价值。目前针对使用数据的研究大多聚焦于科技文献的使用次数与引用次数之间的相关性分析[3-4]。同时,科技文献的使用数据也被用于探索科研工作者对学术论文的使用行为[5-7]。然而,鲜有研究去探究使用数据与科研活动热度之间的逻辑关系。

对于科研活动热度,先前研究通常将其称为“研究热点”或“科研热点”,主要以发文量及其延伸出来的指标来衡量[8],如被引量[9]、高被引论文数量[10]等。但科研活动是一项复杂的群体性社会实践活动,是科研工作者在进行科学研究过程中所产生的一系列行为总和,如确定未来的研究方向、筹措必要的科研经费和开展广泛的国际合作等。因此科研人员在进行科研活动时所产生的一系列趋向性行为均会反映出科研活动的热度。然而科研论文仅是科研活动的一种结果表现形式,并不能描绘出科研活动的全貌。鉴于此,本文从6个不同的维度(文章出版数量、主题讨论数量、机构参与数量、会议召开次数、国合开展次数、基金资助比例)来测度科研活动的热度。其中,文章的出版是科研工作者进行科研活动的核心诉求之一,也是科研工作者从事科研活动最直接且最重要的产物。由于文章撰写前需要下载和阅读大量的相关文献,故文章的出版会导致相关文献预先获得使用。主题数量则代表着某项科研活动研究的多样化程度。科研机构是科研活动的载体,其参与数量代表着某项科研活动的从业规模。通常而言,主题数量的扩充和从业规模的扩大都会增加相关文献被使用的频次。学术会议是科研人员进行科研活动最重要的交流形式,促进了知识传播和科技发展。在学术会议上进行交流的文章由于自身曝光度的增加后续则会受到更多的关注,会议期间的交流也会增加科研工作者之间进行国际合作的概率[11]。合作是科研活动的表现形式,国际合作则是最具影响广度的合作方式,可以促进文章的使用在地理空间上的扩散。但无论是参加会议进行学术交流,还是进行国际合作扩大影响力,都离不开基金资助。基金资助是从事科研活动的必要条件,是对科研工作者从事科研活动的一种激励行为,会增加科研人员和公众对支持领域的兴趣。相比于未获得基金支持的论文,受到基金资助的论文的使用次数会更高[12-13]。

综上所述,科技文献使用次数和科研活动热度之间存在一定程度的相关关系。一方面,科技文献使用次数能在一定程度上反映出某领域的研究热度;另一方面,该领域的科研活力水平的增加也会致使相关文献受到越来越多的关注与使用。然而,这些猜测仅停留在局部观察和浅在的计量分析层面,并未从整体与内在的因果层面揭示两者之间的逻辑关系。鉴于此,本文则通过大样本数据构造出科研活动热度和科技文献使用次数的时间序列,并以格兰杰因果检验方法去检验使用数据和科研活动热度之间的逻辑关联,为进一步利用科技文献使用数据去探测科研活动热点提供前提验证与实证支撑。

1 研究设计

本文以5G领域开展实证研究,通过IEEE Xplore数据库获取到相关文献的题录数据和月度使用数据。然后,以题录数据对科研活动热度进行逐月测算。最后,采用格兰杰因果关系检验法论证了科研活动热度和科技文献使用次数之间的逻辑关系。

1.1 案例选取与数据来源

5G(第五代移动通信)技术是当前最具代表性和引领性的网络信息技术,是实现未来万物互联愿景的关键技术,甚至可能引发第三次互联网革命[14-15]。在中美博弈的大背景下,5G技术更是成为了未来争夺全球话语权的战略性领域,引发了世界各国政府对5G技术的高度重视。截止2019年5月,全球已有93个国家(地区)开启了5G网络投资。中国更是将5G技术定义为“新基建”之首,并在2019年进入了5G商用时代。此外,5G也成了科研工作者关注的热门话题,根据Google Trends显示,自2019年始,关于5G的搜索指数直线飙升。作为近些年研究热点和关注焦点相交织的技术领域,5G是探寻科研活动热度与科技文献使用次数之间内在联系的绝佳范例。

数据来源于IEEE Xplore数据库,该库是计算机和电子通信领域的专业数据库[15],业已成为相关领域科技信息传播的首选资源。在2018年的《期刊引证报告》中,电信领域影响因子Top20的期刊中,IEEE 来源期刊就占了19种[16]。由于2011年是IEEE Xplore数据库提供科技文献月度使用数据的起始年,故本文首先获取了2011-2020年与5G相关的科技文献数据及其对应的月度使用数据。但越靠近当前的年份,其使用次数的统计就会涵盖更多之前的文章。于是,我们需要测度一篇文章自发表后需要经过多长时间不再受到大量关注。进而根据相应的时间尺度,将在2011年之前发表的与5G相关的科技文献在2011-2020年产生的使用数据也补充进来。为此,我们观察了2011年IEEE Xplore数据库收录的20万余篇科技文献在发表后的108个月内(在2011年1月发表的文章,我们会逐月统计其在2011年1月-2020年1月所产生的使用数据,在2011年2月发表的文章,我们会逐月统计其在2011年2月-2020年2月所产生的使用数据,以此类推)所产生的约2 160(20×108)万条使用数据的变化趋势(见图1)。

图1 文章使用次数的变化趋势

图1a展现了文章自发表后每月的使用情况。可以看出,文章在发表之后会迅速获得大量关注,使用次数得到迅猛增长,在12~15个月后达到顶峰。此后,文章便逐渐淡出人们视野,使用次数迅速下降,并在36个月后逐步达到平稳。上述现象与我们之前的研究结果具有一致性[17]。一方面,由于注意力的有限性,研究人员更倾向于使用当前论文来追踪热点;另一方面,为了保证研究的新颖性,科研人员也偏向引用新近发表的论文,从而增大了当前论文的使用次数。图1b则展现了文章自发表后使用次数的累计情况,可以看出,文章在发表后的3年内(第35个月)迅速达到了其累计使用的50%,在第6年时(第74个月)便会达到其累计使用的80%。依据上述统计结果兼确保数据补充的完整性和可靠性,我们将补充数据的时间跨度定为8年,即补充2003-2010年以5G为主题的科技文献在2011-2020年的使用数据。最终本研究确定了27 386条题录数据和约79万条使用数据。

1.2 指标构建与数据描述

以科技文献的发表时间作为统一的时间切分标准,本节将介绍如何测算某个月内5G领域的科研活动热度与科技文献使用次数。首先,我们给出如下基本定义:

图2 科研活动热度与科技文献使用次数的月度观测序列

a.文章出版数量。显然,5G领域科研活动在第t月的文章出版数量Pt可以表示为:

Pt=|Dt|

(1)

(2)

(3)

(4)

(5)

f.基金资助比例。依据基本定义,5G领域科研活动在第t月的基金资助比例Ft可以表示为:

(6)

(7)

通过上述公式对5G领域的科研活动热度和科技文献使用次数进行了逐月测量,表1对其进行了统计性描述。可以看出:a.各变量的月度观测序列的偏度皆大于0,处于右偏态势。其中,国合开展次数的时间序列偏度最大,高达1.037,属于高度正偏态分布。b.主题讨论数量、会议召开次数和国合开展次数的月度观测序列的峰度大于3,表明其曲线较为陡峭,呈“尖峰”分布。c.JB统计量明显大于临界值(在5%的检验水平下为5.99),表明各变量的月度观测序列不符合正态分布。d.Pearson系数和Kendall系数都在0.7之上,反映出科研活动热度和科技文献使用次数之间存在着紧密联系,两者表现出高度正相关性,这为我们探究两者之间的互动关系提供了依据。

表1 统计性描述

1.3 研究方法与平稳性检验

格兰杰因果检验是源于计量经济学领域的一种统计方法,目前也开始应用在信息计量学领域[18-19],主要用于检验一组时间序列是否为另一组时间序列的原因。基于事件发生时间的先后顺序,格兰杰对因果性给出了一般性的定义。以检验文章出版数量是否是科技文献使用次数的格兰杰原因(Granger-cause)为例,则可以构建自回归模型如下:

(8)

其中,Ut代表科技文献使用次数当前t时刻的值,为现在值。Ut-j与Pt-l分别代表技文献使用次数和文章出版数量在t时刻之前的值,为过去值。s和m代表滞后期,表示某一事件发生后,开始对另一事件产生影响所需要的时间长度。依据格兰杰因果关系检验的基本思想:如果文章出版数量的变化会引起科技文献使用次数的变化,则文章出版数量的变化要发生在科技文献使用次数的变化之前。那么,当探讨文章出版数量是否为科技文献使用次数的格兰杰原因时,只需检测文章出版数量的过去值是否能影响科技文献使用次数的现在值即可。如果在控制了科技文献使用次数的过去值以后,文章出版数量的过去值仍有助于解释科技文献使用次数的将来变化,则认为文章出版数量是引致科技文献使用次数的格兰杰原因。格兰杰因果检验的原假设为文章出版数量不是科技文献使用次数的格兰杰原因,反映在上述公式中则是β1=β2=…=βm=0。如果有一个β不为零,则原假设不成立,就认为文章出版数量是科技文献使用次数的格兰杰原因。

进行格兰杰因果关系检验的前提条件是时间序列必须具有平稳性,否则容易产生伪回归。最常用的时间序列平稳性检验方法是单位根检验,如果时间序列没有通过单位根检验,则说明检验序列不平稳,需要对时间序列进行差分等变换来消除单位根,得到平稳序列。单位根检验有诸多方法,通用的是ADF检验。本文亦采用ADF检验法对科技文献使用次数、文章出版数量、主题讨论数量、机构参与数量、会议召开次数、国合开展次数和基金资助比例的月度观测序列进行单位根检验,结果见表2。

表2 单位根检验结果

续表2 单位根检验结果

检验结果表明,只有会议召开次数和基金资助比例的月度观测序列是平稳的。但由表1可知,会议召开次数和基金资助比例的峰度较大,两者的月度观测序列存在较大波动。为了使检验结果更具鲁棒性,故对所有变量的月度观测序列皆做了一阶差分处理。一阶差分后,各变量的月度观测序列在1%的显著性水平下均是平稳的,可以直接对其进行格兰杰因果检验。

2 结果分析

对5G领域的科研活动热度和科技文献使用次数的月度观测序列进行格兰杰因果检验,结果见表3。由于格兰杰因果关系检验对滞后阶数的选取较为敏感,本文则对两者进行了滞后1~12期的格兰杰因果检验,根据结果的稳定性确定了滞后期。总体来看,5G领域的科研活动热度和科技文献使用次数之间呈现一种非对称的互塑效应,即检验结果皆在5%的水平下显著,但两者之间的滞后期却有长有短。其中,最短的滞后期为1个月,最长的滞后期为12个月。

表3 格兰杰因果检验结果

a.文章出版数量和科技文献使用次数之间的互促作用不明显。在5%的显著性水平下,文章出版数量在滞后8期时是科技文献使用次数的格兰杰原因,而科技文献使用次数在滞后10期时是文章出版数量的格兰杰原因。从检验结果来看,文章出版数量和科技文献使用次数之间的互促作用在短期内不明显,尽管从中长期来看两者之间存在一定的共进现象。究其原因,一篇文章从写作到发表需要经历查阅文献、实验、写作、投稿、同行评议等一系列流程,通常需要花费半年以上的时间。

b.主题讨论数量对科技文献使用次数具有单向促进作用。在5%的显著性水平下,主题讨论数量在滞后3期时是科技文献使用次数的格兰杰原因。然而,科技文献使用次数却在滞后8期时才是主题讨论数量的格兰杰原因(在1%的显著性水平下)。即某个领域主题讨论数量的增加短期内会引起科技文献使用次数的快速增长,但科技文献使用次数的快速增长在短期内并不会引起主题讨论数量的增加。为了更好的解释这一现象,本文将5G领域的发展历程划分为3个阶段(见表4)。可以看出,5G领域的沉寂期与平稳发展期相比,后者的主题讨论数量是前者的20倍,科技文献使用次数也相应是前者的4倍。这说明主题讨论数量快速扩充的同时也促进了科技文献使用次数的迅猛增长。沉寂期和快速爆发期相比,后者的科技文献使用次数是前者的5倍,但主题讨论数量却未见较大扩充。这说明科技文献使用次数的增长对主题讨论数量的扩充影响有限。当然,并不是在平稳发展期形成的所有主题都保持了较高的活跃度(即在多个不同月份被提及),仅有数十个主题一直保持高活跃度和高关注度,如带宽(bandwidth)、无线通讯(wireless communication)、天线测量(antenna measurements)和无线电频率(radio frequency)等主题。依据上述观察并结合库恩所提的科学范式理论,便可以做出如下合理解释:一个领域在发展初期,由于没有形成相应的研究范式,各个方向的研究主题喷涌而出;随着科学的发展,科学家对某些研究问题达成共识并筛选出了真正有价值的研究主题,“前科学时期”发展到了“常规科学”,新主题数量的增长速度也就会变缓。

表4 5G领域的发展历程

c.机构参与数量和科技文献使用次数之间的互促作用不明显。与文章出版数量类似,机构参与数量和科技文献使用次数之间的互促作用在短期内也不明显,滞后期在9个月以上。一般而言,研究机构都有固定的研究课题和研究方向,如果现有研究方向与受关注较高的主题不符,需要花费一定时间进行调整。

d.会议召开次数和科技文献使用次数之间具有双向促进作用。在5%的显著性水平下,会议召开次数在滞后1期时是科技文献使用次数的格兰杰原因。同样地,科技文献使用次数在滞后1期时也是会议召开次数的格兰杰原因。两者在短期内互促作用显著。学术交流的主要渠道就是会议,学术会议促进了知识的传播与扩散。会议上代表前沿热点的文章也会受到众多学者的关注和讨论。在会议交流期间,不同科学家之间的思想碰撞和自由争辩也更容易催生新的研究方向。

e.科技文献使用次数对国合开展次数具有单向促进作用。在5%的显著性水平下,国合开展次数在滞后9期时是科技文献使用次数的格兰杰原因。相较而言,科技文献使用次数对国合开展次数的影响则呈现较快态势,仅滞后5期(在1%的显著性水平下)。这是因为国合开展次数会先影响基金资助比例[20],再间接影响到科技文献使用次数,所以国合开展次数对科技文献使用次数的影响在短期内并不显著。另一方面,如果某个领域受到学者较多的关注,则学者为了抢占科学发现优先权,就会选择更多的合作伙伴来加快研究进度。因此,科技文献使用次数对国合开展次数的促进作用则产生的相对较快。进一步地,为了展现各国在5G领域的实力强弱,我们绘制了5G领域的国际科研合作共现图谱(见图3)。

图3 5G领域的国际科研合作共现图谱

图3中节点大小代表某个国家所发表的科技文献的使用次数,连线粗细代表合作次数,连线越粗,两个国家之间的合作次数就越多。节点颜色深浅代表国家活跃度,如果某个国家在120个月内都有发文,则该国家活跃度为120。可以看出,中国和美国在5G领域最为活跃,活跃度分别为120和116,即在近十年基本每个月都会有5G相关的文章发表。其次活跃度较高的国家还有印度、日本和英国,活跃度也都在100以上。在科技文献使用次数层面,中国遥遥领先,是排在第二和第三位的美国和印度的科技文献使用次数之和,这从侧面反映出我国在5G领域的科研实力已处于世界领先地位。

f.基金资助比例对科技文献使用次数具有单向促进作用。在1%的显著性水平下,基金资助比例在滞后3期时是科技文献使用次数的格兰杰原因。作为对比,科技文献使用次数在滞后12期时才是基金资助比例的格兰杰原因(在5%的显著性水平下)。即基金资助比例在短期内就会对科技文献使用次数产生影响,但科技文献使用次数对基金资助比例的影响却在较长一段时期后才能显现。事实上,基金资助越来越成为科学研究的必要条件,在促进科研产出、突破研究前沿等方面发挥着至关重要的作用[21]。已有研究表明,基金资助可以提高论文的使用次数[13],也会提高学者的影响力和可见度[22]。值得注意的是,基金项目基本是年度评审,这也恰好解释了为什么科技文献使用次数会在12个月后才对基金资助比例产生影响。

3 研究结论与启示

本文以5G领域开展实证研究,基于题录数据和使用数据构造出科研活动热度和科技文献使用次数的月度观测序列,并对两者之间的互塑机制进行了格兰杰因果关系的刻画,且对这种格兰杰因果关系的形成进行了合理解释。研究结果表明,科研活动热度和科技文献使用次数在整体上呈现出一种非对称的互塑关系,即文章出版数量、主题讨论数量、机构参与数量、会议召开次数、国合开展次数和基金资助比例与科技文献使用次数之间表现出不同的逻辑关联。

3.1 研究结论与研究贡献

从5G领域的自身发展来看,研究人员对某些研究主题达成了一致共识,这些被筛选保留下来的研究主题一直保持着高活跃度和高关注度,形成了5G领域的研究热点,如带宽(bandwidth)、无线通讯(wireless communication)等。在此基础之上,随着技术的发展和时代的进步,新兴研究主题也悄然涌现,如多输入多输出通信技术(mimo communication)、3gpp协议、物联网(internet of things)、非正交多址技术(noma)和网络切片(network slices)等。可以看出,“优胜劣汰”的物种进化论思想不仅存在于自然界中,也同样适用于技术的演变进程。从国家参与情况来看,中国和美国处于第一梯度,其活跃度和所受到的关注度都处于世界前列。处于第二梯度的则是英国、印度、日本、德国和法国,其他国家皆处于第三梯队。

从格兰杰因果关系检验结果来看,文章出版数量、机构参与数量和科技文献使用次数之间并不能在短期内形成相互影响的态势。然而,会议召开次数和科技文献使用次数之间却快速呈现出同频共振的状态。主题讨论数量的扩充和基金资助比例的上涨会单向促进科技文献使用次数的提升,科技文献使用次数的提升则会单向促进国合开展次数的增加。

本文的研究贡献主要体现在以下两点:a.通过格兰杰因果检验的方式证明了科研活动热度与科技文献使用次数之间存在互塑作用,这可以使科技文献使用次数成为探测科研活动热度变化的“风向标”。与此同时,科技文献使用次数所拥有的动态实时性更是可以对某一领域的科研热点进行实时追踪,甚至是提前预测。b.数字化时代的大量关于学术成果的原生数字资源为科学计量学的研究提供了广阔图景,使用数据则是顺应潮流产生的原生数字资源之一。其拥有区别于题录数据的动态实时性,打破了引文数据的时滞性与稀疏性的局限,拥有宝贵的研究价值。本文扩展了使用数据的现有研究,并丰富了时序分析方法在科学计量学上的有益应用。

3.2 相关启示与未来展望

基于科研活动热度和科技文献使用次数的互塑机制,可以利用科技文献使用次数去实时追踪科研热点,这不仅有助于我国研究人员在全球科技创新竞争中占据先发优势,而且可以为相关决策部门合理配置科技资源、促进相关领域开展科技创新提供建设性意见。如对于基金资助管理部门而言,基于科技文献关注度可以提前探测出各领域的研究热点,并进行前瞻规划,以有限资源支持和推动科技进步。对于国家科研决策部门而言,基于海量的数据基础可构建出科学研究趋势的实时分析系统,提供面向国家和科研人员的实时科技情报服务。该项服务将推动科学研究从小作坊模式转变到大平台模式,进而提高科研效率,避免资源浪费。科研人员亦可基于该项服务实时查看自身领域的科学研究趋势,同时关注相关领域的科学研究热点,这将对促进学科交叉融合、加强高层次创新人才培养起到重要作用。

当然,本文也存在几点可以在未来研究中继续深入探讨的地方。首先,目前所发现的科研活动热度和科技文献使用次数之间的互塑关系仅限于5G领域,对其他领域是否具有相同的结论仍需要进一步验证。其次,本研究未考虑科研活动热度的自塑影响。例如,会议召开次数能否影响文章出版数量?这种影响能否体现在科技文献使用次数上?进一步地,不同指标之间是否存在某种潜在共性和交互效应也是值得深入研究的话题。再者,对科研活动热度的衡量指标亦可以做进一步的有益补充,如学术讲座次数、基金资助额度等。此外,也应注意格兰杰因果关系检验的结论只是统计意义上的因果性,并不等于实际因果关系,但仍超越了一般意义上的相关关系,具有重要的参考价值。

猜你喜欢
科研活动格兰杰次数
计算机学科科研活动行为规范建议
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
基于切削次数的FANUC刀具寿命管理
国内外铜期货市场的格兰杰因果检验分析
依据“次数”求概率
机械卓越工程师教育培养计划学科竞赛和科研活动体系建设研究
依托科研实践促进大学生创新精神及实践能力的培养
浅谈畜牧专业大学本科生参与科研的重要性
临终的医生与关怀的本意