医学学科的研究型数据类数字资源消失速度研究

2014-07-27 06:20臧硕博谷轶亚
创新科技 2014年16期
关键词:研究型比率年限

臧硕博 谷轶亚

(郑州大学基础医学院,河南 郑州 450002)

医学学科的研究型数据类数字资源消失速度研究

臧硕博 谷轶亚

(郑州大学基础医学院,河南 郑州 450002)

医学学科的研究型数据是一类重要数字资源。本文随机检索发表年限在1911年至2011年之间的1 032篇医学学科的学术论文,对其研究型数据的可获得性进行调查,采用SPSS软件进行逻辑回归拟合,结果显示,该学科研究型数据的消失速度为每年17%。

数字保存;研究型数据;消失速度;医学学科

医学学科的研究型数据是一类重要数字资源,主要包括实验数据、临床观测数据、病理分析数据和实证研究数据等。在该学科的科学研究中,学术论文的论据主要来自于医学学科研究型数据,结论也主要来自于对该类数字资源的分析、推理与总结,因此,研究型数据对于医学学科的再现性科学实验、学术成果的质量评价、后继研究和相关研究的参考等方面具有重要的甚至不可替代的作用。

无论是政府,还是研究项目的资助机构和研究成果的出版机构[1],都越来越重视制定和实施一些方针政策,以确保研究型数据存储在公共保存系统中,从而使其能够被长期访问获取。这种做法是基于这样一个观点,即研究型数据的生产者在保存其研究型数据方面比较糟糕,尤其是长期保存。实际上,不少研究也表明,研究人员常常不能或不乐意共享他们的研究型数据[2]。但是,到目前为止,有关研究型数据的可获得性随着学术论文发表时间的延长而变化的定量研究还没见报道。本文随机检索了1911年至2011年发表的1 032篇医学学科的学术论文,对这些论文的研究型数据存在状态进行调查分析,结果显示,论文发表的年限对研究型数据的可获得性有重大影响。通过e-mail调查,在作者给出研究型数据存在状态的论文中,研究型数据的可获得比率以每年17%降低。本项研究结果证实了研究人员不能对自己生产的研究型数据实施有效的长期保存。因此,制定和实施相关方针政策引导乃至强制研究人员将自己生产的研究型数据共享保存在公共保存系统中是业界的一项紧迫任务。

1 实验过程

1.1 研究型数据的类型限定。对研究型数据共享的期望在不同学术团体之间有所差别,不同类型的研究型数据的保存困难度也可能不一样,研究人员产生的研究型数据的类型也会随着时间的推移而变化。为了控制这些因素带来的影响,本实验聚焦在医学学科中采用判别函数分析法(DFA,discriminant function analysis)对细菌形态(bacteria dimensions)进行研究的研究型数据。因此,在收集论文时设置了两个条件:分析方法(判别函数分析法)和研究型数据类型(细菌形态)。

1.2 论文的检索。我们利用Web of Science检索相关论文,检索式为:bacteria*and discriminant,年限限定为:1980至2011。检索结果中1991年之前只有51篇,由于太少不具代表性而被排除。为了减少实验工作量,我们选择了1991年至2011年的奇数年,共计有2018篇论文。如果论文的全文通过网络等方式无法获取,我们将其排除;如果分析方法不包括DFA,也排除;如果采用DFA但分析的对象不是细菌形态数据,也排除;如果研究型数据已经包含在论文的附件中、附录中,或通过因特网能够找到,那么这些论文的研究型数据保存不再是研究人员的职责,这些论文也被排除。通过上述排除,剩下1032篇论文,每个选定的年份至少52篇,大部分超过80篇(见表1)。

1.3 通过e-mail进行调查。针对每篇论文,我们试图从论文文本中提取每位作者的e-mail地址。但是很快发现发表年限较长的论文作者e-mail的有效性很低,甚至根本就没有e-mail。在这种情况下,我们通过因特网查找每个作者的近期或当前的e-mail。我们通过e-mail对每篇论文作者进行调查,并在3周之后对没有回复的e-mail发送提醒邮件,整个调查过程持续45天。对调查结果进行整理后,1 032篇论文的调查样本被分为6类:①有关该论文的所有邮件发送都返回一个错误信息;②至少有一个邮件没有返回错误信息,但均没有收到回复;③至少收到一个回复,但均没有给出研究型数据的状态;④研究型数据已经丢失或存储在过时的硬件中;⑤研究型数据仍存在但不愿提供共享;⑥接收到来自论文作者提供的研究型数据。因为⑤⑥都表明研究型数据还存在,我们将这两类归纳成一类,即“研究型数据仍可获得”。调查结果见表1。

表1 按照论文发表年份获得的调查数据(N=1032)

【注1】没有有效e-mail的论文数量,指没有找到e-mail,或虽找到有e-mail但均不能成功发送。【注2】无回复的论文数量,指在所有成功发送的e-mail中,均没有收到回复的论文。【注3】回复但没有给出研究型数据状态的论文数量。【注4】在给出研究型数据状态的回复中,指明研究型数据丢失的论文数量。【注5】在给出研究型数据状态的回复中,指明研究型数据存在但不乐意提供共享的论文数量。【注6】作者提供研究型数据的论文数量。【注7】研究型数据处于可获得状态的论文数量(包括【注5】和【注6】两种情况)。

图1 论文发表年限对从作者中获得研究型数据的四个影响因素

2 实验结果

本实验的目的在于探讨医学学科研究型数据的可获得比率与论文发表年限之间的定量关系,为实现该目的,我们依次递进地进行四个步骤,使用SPSS软件拟合逻辑回归系数来探讨论文发表的年限与下述因素之间的关系:①至少找到一个有效e-mail的比率;②在至少找到一个有效的e-mail中得到回复的条件比率;③在得到的回复中指明研究型数据状态的条件比率;④在指明研究型数据状态的回复中,研究型数据处于可获得状态的条件比率。实验结果见图1。

2.1 至少找到一个有效e-mail的情况。实验结果表明,论文发表的年限与至少能够找到一个有效e-mail的比率成反变关系(见图1A)。使用SPSS拟合逻辑回归曲线系数,计算结果为:OR=0.93,[0.90-0.96,95%CI]。该结果表明,论文发表年限每增加一年,至少能够找到一个有效e-mail的比率下降7%。该拟合过程中用到的“至少能够找到一个有效e-mail的比率”的计算公式为:(A8-A1)÷A8,其中,A1、A8分别为表1中的列名数据(关于A1至A8的含义,下同)。

2.2 获得邮件回复的情况。实验结果表明,论文发表的年限与至少找到一个有效的e-mail中得到回复的条件比率之间不存在关系(见图1B)。使用SPSS拟合逻辑回归曲线系数,计算结果为:OR=1.00,[0.97-1.04,95%CI]。表明无论论文何时发表,在至少找到一个有效e-mail中得到的回复期望值相同。另外,采用线性回归拟合,所得的线性方程的斜率为0,截距为0.5,这也表明两个变量之间不存在关系,并且无论年限如何变化,条件比率的期望值都是50%。上述两个拟合过程中用到的“至少找到一个有效的e-mail中得到回复的条件比率”的数据计算公式为:

(A8-A1-A2)÷(A8-A1)。

2.3 指明研究型数据状态的情况。实验结果表明,论文发表的年限与在得到的回复中指明研究型数据状态的条件比率之间也不存在关系(见图1C)。使用SPSS拟合逻辑回归曲线系数,计算结果为:OR=1.00,[0.95-1.07,95%CI]。表明无论论文何时发表,在得到的回复中指明研究型数据状态的条件比例期望值相同。另外,采用线性回归拟合,所得的线性方程的斜率为0,截距为0.83,这也表明两个变量之间不存在关系,并且无论年限如何变化,条件比率的期望值都是83%。上述两个拟合过程中用到的“在得到的回复中指明研究型数据状态的条件比率”数据计算公式为:

(A8-A1-A2-A3)÷(A8-A1-A2)。

2.4 研究型数据处于可获得状态的情况。这里的可获得状态包括可以提供共享和存在但不可以共享两种情况。实验结果表明,论文发表的年限与在指明研究型数据状态的回复中研究型数据处于可获得状态的条件比率之间存在很强的反变关系(见图1D)。使用SPSS拟合逻辑回归曲线系数,计算结果为:OR=0.83,[0.79-0.90,95%CI]。表明论文发表后每增加一年,在指明研究型数据状态的回复中研究型数据处于可获得状态的条件比率下降17%。

上述拟合过程中用到的“在指明研究型数据状态的回复中研究型数据处于可获得状态的条件比率”的数据计算公式为:A7÷(A8-A1-A2-A3)。

科学研究活动产生的研究型数据大多具有鲜明的时间和地点特征,一旦丢失,它们将很难通过再现性实验等方式重新获得。本项研究表明,由科研人员对其生产的医学学科研究型数据进行长期保存的做法很不靠谱,很难保证这类数字资源被未来有效使用。解决方案是要求研究人员将其生产的研究型数据共享在公共保存系统中,从而使这类数字资源的可获得性与研究人员无关。一些保存机构已经制定实施了相关政策[3]。我们期望,该项研究得出的研究型数据不可获得性的令人担忧程度能够引起业界的高度重视。

[1]Holdren,J.P.Increasing Access to the Results of Federal⁃ly Funded Scientific Research.[2013-07-02].http://www.white⁃house.gov/sites/default/files/microsites/ostp/ostp_public_access_me mo_2013.pdf.

[2]Vines,T.H.,Andrew,R.L.,Bock,D.G.,et al.Mandat⁃ed data archiving greatly improves access to research data.The FASEB Journal.2013(27):1304-1308.

[3]Groves,T.BMJ policy on data sharing.British Medical Journal,2010(14):564.

谷轶亚(1993.8-),女,在读本科生。

G250

A

1671-0037(2014)08-48-2

臧硕博(1994.3-),男,在读本科生。

猜你喜欢
研究型比率年限
影响种公牛使用年限的几个因素与解决办法
国有企业研究型审计思考与探索
不同连作年限对设施农田土壤微生物群落的影响
辽宁朝阳市刘禹佳问:退役士兵参加基本养老保险出现欠缴、断缴的,允许补缴吗
基于半导体聚合物量子点的羧酸酯酶比率荧光传感
小学数学单元研究型整合学习的探究
基于研究型大学视角下数学课程学习初探
中国研究型大学经费筹措及对策研究
千点暴跌 两市净流出逾7000亿资金
美拭目以待的潜力城市