不同替代计量数据库数据政策与数据数值的比较研究*

2021-05-29 01:57余厚强尹梓涵
情报杂志 2021年5期
关键词:数据源计数计量

余厚强 尹梓涵

(1.中山大学信息管理学院 广州 510006; 2.南京理工大学经济管理学院 南京 210094)

0 引 言

随着网络技术的不断发展,科学交流模式也发生着日新月异的变化,从传统的科学图书、科技期刊、声像资料等的交流媒介,以及个人之间通过面谈、书信等方式进行的交流形式,到现在各种在线科学交流平台和工具的兴起,这为研究科学交流和科技评价提供了大量丰富的数据,构成了替代计量学研究的基础[1]。NISO(National Information Standards Organization, 美国国家信息标准化组织)给出替代计量学的定义为,“替代计量学是一个宽泛的概念,囊括了与学术成果相关的一系列多样化的数字化指标,这些指标来源于学术生态系统乃至公共空间中各种不同利益相关者和学术成果的活动和交互”[2]。

替代计量学研究离不开高质量的替代计量数据[3],影响替代计量数据质量的因素有很多,替代计量数据的动态性、准确性、一致性和可重复性是影响替代计量数据质量的主要因素[4]。为规范替代计量数据的使用,美国信息标准化组织对替代计量数据质量提供了建议性标准,从透明性、可重复性和准确性三个方面进行了规定。在此基础上,刘晓娟等[5]从生命周期视角下,描述了数据产生、数据收集、数据聚合三个环节下存在的数据质量问题和出现问题的原因。余厚强等[6]则通过对替代计量数据生产流程的梳理,对与数据质量相关的主体要素进行识别,构建了替代计量数据质量评估体系。这些研究为理解和评估替代计量数据质量提供了框架性的指导。

准确性是数据质量的基本维度之一,指的是数据库记录下的数据与来源平台真实的数据相一致的程度。针对替代计量数据库的数据记录开展内容分析,将数据库提供的数据与来源平台的原始数据进行对比,可识别出潜在的错误类型。Zahedi等[7]对Mendeley元数据的准确性研究发现,学术成果的期刊标题、页码的错误普遍存在。Yu等[8]对政策文件替代计量数据的准确性做了系统测定,识别出政策文件平台和替代计量数据库两个方面的错误类型,并计算出了各种错误类型的比例。Ortega[9]则对替代计量数据库中提供的博客和新闻数据做了研究,测定了所提供链接的可用性。

可重复性是数据质量的另一个基本维度,指的是针对相同的对象采用相同的方法在多大程度上可以得到相同的结果。由于各个替代计量数据库具体的数据处理方法无法获取,相关研究将不同替代计量数据库的数据进行对比,测度数据库之间的数据一致性,以评估替代计量数据的可重复性。Zahedi等[10]比较了PLoS、Mendeley和Altmetric三种数据库的数据,对改进不同替代计量数据服务平台的数据一致性起到了参考性作用。Ortega等[11]从国家、语言和主题角度比较了Altmetric、CrossRef和PlumX在博客提及和新闻提及数据上的表现,发现Altmetric在地理和语言上做的较好,博客的覆盖率最高,PlumX收集的新闻媒体尤其是美国的地方报纸更多一些。不同替代计量数据库提供的替代计量数据之间的差异,可能是访问社交媒体平台数据的不同形式造成的,也可能与收集、处理、汇总和更新替代计量数据的不同方式有关[12]。

替代计量数据库的数据政策,是数据库获取、处理、展示数据的根本依据,对指导和保障数据质量起到至关重要的作用。不同替代计量数据库为保障数据的透明性、可重复性和准确性,分别采取了不同的政策,对不同替代计量数据库的数据政策进行比较,有助于理解不同替代计量数据库对相同的数据源在数据处理上的差异,以及这些差异可能对数据质量造成的影响。不同替代计量数据库数据数值的交叉比较,可以从整体上反映替代计量数据的稳定性,并且发现不同替代计量数据库在数据质量上的差异,通过结合数据政策进行分析,可以对差异形成的原因进一步解读,进而帮助学者和研究人员在选取替代计量数据时根据不同的需求选择合适的数据库。

因此,本研究分析了目前主流替代计量数据库的数据政策与数据数值,旨在解决以下两个研究问题:

a. 从数据质量保障的政策来看,主要的替代计量数据库存在什么异同?数据质量保障政策包括保障数据透明性的政策,保障数据可重复性的政策和保障数据准确性的政策。

b. 从数据交叉比较的分析角度,不同数据库对相同数据来源捕捉的数据存在什么异同?针对相同的替代计量数据源,分析不同数据库之间的替代计量数据差异,并根据这些差异对替代计量数据库的特征进行分析。

1 数据来源与处理

1.1研究对象的选取目前较为流行的替代计量数据库有CrossRef、Altmetric.com、PLoS ALM、ImpactStory、PlumX和Kudos,共计6家。对比了这几个替代计量数据服务平台的服务范围、受众范围、数据源等基本情况,本研究选取了Altmetric.com、CrossRef和PLOS ALM这3种替代计量数据库作为比较分析的对象,因为:ImpactStory数据库中的数据仅对研究者个人开放使用,无法获取替代计量数据来进行数据库的分析;只有少数几家与PlumX合作的机构公开了它们的数据,所以PlumX可以访问的数据很有限;关于CrossRef、PlumX和Altmetric.com数据库的数据比较,Ortega等[11]已经进行了较为深入的研究;Kudos与Altmetric.com的数据存在重叠。

上述选取的Altmetric.com、CrossRef和PLOS ALM 3种数据库,所收集的替代计量数据来源种类并不完全相同。为了进行对比分析,本研究关注至少被其中两种数据库收集的替代计量数据来源,结果共有7种数据源,其定义和收集情况如表1所示。

表1 获取的替代计量数据库的数据源比较

1.2数据获取过程针对各数据库关于数据政策的比较分析,主要通过网络调研,包括各个数据库的网站和其他会议资料,收集各个数据库在数据质量方面采取的措施和制定的政策。

针对各数据来源的数值比较,首先利用自行编写的Python程序,对CrossRef数据(CED,CrossRef Events Data)2019年12月1日的数据进行获取,得到了414 132条数据。将这些数据涉及的学术成果DOI提取出来,分别在PLoS ALM数据库和Altmetric.com数据库中进行检索,得到至少被两个数据库收录的学术成果1 600个。对3个数据库的数据按照DOI进行匹配,两两数据库进行数据对比,由于不同数据库对于学术成果的收录范围、收录时间的不同,不同数据库检索出来的论文数量有一定差异,分别获得的论文数量如图1所示。

图1 三种替代计量数据库收录论文重叠情况

1.3数据分析步骤在得到每一项替代计量数据库的数据项后,分别进行数据库之间的比较,比较方式有以下两种:

a.利用不同数据库之间数据的计数差反映差异。设DOI相同的学术成果为i,i在3个数据库中某一类型的替代计量数据(如Twitter)的提及量分别为Ci(CrossRef中提及量)、Ai(Altmetric.com提及量)和Pi(PLoS ALM提及量),用k表示两个数据库数据的差值,N(k)表示两个数据库差值为k的学术成果的总个数。

k=Ci-Ai

(1)

通过对比N(k),来反映不同替代计量数据库的替代计量数据的差异。

b. 利用计数差的标准差反映不同替代计量数据库之间的差异。将计数差进行统计分析,标准差可以展现不同替代计量数据库的差异,较集中的分布表明替代计量数据库之间数据差异较小,普遍向一个替代计量数据库倾斜的数据分布则表明,这个数据库总是比其他数据库提供更多或更少的替代计量事件。

2 不同替代计量数据库数据政策的对比分析结果

NISO从透明性、可重复性和准确性三个方面,提出了替代计量数据质量的建议性规范和标准[3],替代计量数据库服务商分别应对NISO标准做出了回应和调整,建立了相关数据政策,对数据库的数据处理方式、数据质量的保障方法、数据库信息等进行公示,这为对比不同替代计量数据库数据政策,提供了依据和数据支撑。

2.1不同替代计量数据库保障透明性数据政策的对比分析透明性是指所提供替代计量数据的信息和细节的清晰程度以及完整的文档记录,并将这些信息都向所有用户开放,以便进行验证。NISO建议数据库能够提供以下信息来保障透明度:替代计量数据库如何生成、收集和管理数据;数据库如何将数据聚合和生成派生数据;数据库更新数据的时间和频率;如何访问数据;数据库如何监控数据质量。

为保障替代计量数据的透明性,Altmetric.com、CED和PLoS ALM三个替代计量数据库都对数据源及其收集方式、更新频率和监控数据情况进行公开。三个替代计量数据库的相同点体现在:都公开了生成和管理数据的方式;获取数据的途径主要是各个数据平台的API;提供数据访问的方式主要是API和可视化操作界面。不同点主要体现在:在数据库数据更新上,PLoS ALM根据学术成果的发布时间进行更新,而CED和Altmetric.com都是分时段或实时更新;在监控方式上,Altmetric.com采取多种数据监控方式,如设置阈值自动标记可疑活动、人工监控等;在监控数据上,PLoS ALM采用24小时自动监控,并结合人工监控。

2.2不同替代计量数据库保障可重复性数据政策的对比分析可重复性是指一组数据在数据源和数据收集者之间以及在一段时间内保持一致的程度。NISO建议替代计量数据库通过以下方式来保障数据的可重复性:随着时间的推移,数据库生成所提供的替代计量数据的方式应该是相同的;数据库应该记录下收集和处理数据方法的变化及其造成的影响;数据库对错误进行纠正后,数据的变化应该被记录在案;数据库同时提供给不同用户的替代计量数据应该是相同的,如果提供的数据不同,则数据库应当记录不同用户组访问的差异;替代计量数据库应该提供关于数据是否可以独立验证以及如何独立验证的信息。

为保障数据库的可重复性,Altmetric.com、CED和PLoS ALM 3个替代计量数据库都对提供的每个类型的替代计量数据进行了说明。a.在数据的生成和处理上,Altmetric.com对于学术成果的替代计量关注度得分的加权算法、原始的计数在学术成果替代计量详情页都是公开的;而PLoS ALM由于一些数据源的限制,部分数据只能提供计数,不能获取数据来源详情;CED更关注事件本身而不是对数据进行度量,所以不对数据进行计量处理。b.在数据的提供与跟踪上,Altmetric.com所有替代计量数据都基于相同的数据库;CED数据库直接传递替代计量事件的数据,而不提供度量标准,所有事件都有时间戳,用于表示它们发生的时间,因此,用于收集事件的程序可以用时间戳进行匹配;PLoS ALM数据库没有审计跟踪数据,对于运行ALM的开源软件,将可能影响数据的收集方式的变化都予以记录。

2.3不同替代计量数据库保障准确性的数据政策对比准确性是指收集到的数据描述的准确程度。NISO建议数据库确保以下几点来保障数据的准确性:替代计量数据库提供的数据和数据库声明反映的数据一致;数据库应当能够识别和纠正已知的错误;替代计量数据库提供数据的任何限制都被说明。

在保障数据的准确性上,3个数据库的共同点在于,都定义了不同类型的数据,但是采取了不同的措施:Altmetric.com对数据进行监控,并在学术成果替代计量详情页进行解释;CED为保障数据的准确性,对每个数据源都进行监视,以防服务中断导致数据源不可用,但是不对数据进行调整,只对新产生的数据标上时间戳;PLoS ALM对新收集数据的数据质量通过每24小时运行一次的自动过程进行监控,并寻找异常值,同时工作人员也对数据进行人工监控。

3 不同替代计量数据库不同类型数据的交叉比较分析

3.1 Twitter数据的交叉比对分析根据处理后的数据,绘制数据库之间计数差的直方图,如图2所示,其中白色柱状代表Altmetric/CED,也就是学术成果的Twitter数据在Altmetric.com数据库和CED数据库计数差的累计总和。例如,横坐标为0的白色条形代表在Altmetric和CED两个数据库中,Twitter数据的数值相差为0的论文数量的值。

图2 不同替代计量数据库中Twitter提及数据分布差异

表2 不同替代计量数据库Twitter提及数据分布统计参数差异

表2展现了Altmetric、CED、PLoS ALM 3个替代计量数据库的Twitter替代计量数据分布差异,可以看出Altmetric的Twitter替代计量数据普遍比CED和PLoS ALM两个数据库的数据要大,CED与PLoS ALM相差相对较小,但PLoS ALM部分数据的计数比CED要大一些。

3.2 Wikipedia数据的交叉比对分析Wikipedia是目前全球最大的网络参考工具书。图3表示Wikipedia替代计量数据的不同数据库的数据分布差异情况。从图3中可以发现Altmetric/CED分布在坐标轴0刻度的左侧,CED/PLoS ALM分布在坐标轴0刻度右侧,因此CED的计数普遍高于Altmetric和PLoS ALM数据库。

图3 不同替代计量数据库中Wikipedia提及数据分布差异

表3 不同替代计量数据库Wikipedia提及数据分布统计参数差异

表3展现了Altmetric、CED、PLoS ALM 3个替代计量数据库的Wikipedia替代计量的数据分布参数差异。从表3中可以看出CED的Wikipedia替代计量数据的计数普遍比其他两个数据库的数据计数值大,从计数差的平均值来看,CED比Altmetric数据库的数据平均值要高444.8,CED比PLoS ALM数据库的平均值高325.2,从标准差来看,CED与其他两个数据库的计数差异的标准差分别为1147.1和995.1,标准差普遍偏高进一步证明了CED替代计量数据库对Wikipedia的引用数据的计数值更高一些。但是值得一提的是,3个数据库的计数差为0的数据所占百分比都较大,其中Altmetric和PLoS ALM数据库的Wikipedia替代计量数据一致性更高一些。

3.3 Reddit数据的交叉比对分析Reddit是一个集娱乐、社交和新闻一体的网站,网站上的内容分类包括新闻、电子游戏、电影、音乐、书籍、健身、食物和图片分享等。Reddit替代计量数据不同数据库的分布差异如图4所示,可以看出Altmetric和CED数据库的差值分布在坐标轴0刻度的两侧,可以把这种差异归结为误差所致。而Altmetric/PLoS ALM和 CED/PLoS ALM都在坐标轴0刻度的右侧分布多一些,说明Altmetric数据库和CED数据库在Reddit替代计量数据上,比PLoS ALM数据库的计数值都要大一些,而Altmetric数据库和CED数据库的数据一致性更强一些。

表4展现了Altmetric、CED、PLoS ALM 3个替代计量数据库的Reddit替代计量的数据分布差异。可以看出Altmetric/CED的Reddit数据的计数差平均值为-0.2,标准差为2.1,其中计数差为0的部分所占总体79.9%。从数据计数差值来看,3个数据库计数差值都达到80%左右,相比其他替代计量数据源,Reddit的替代计量数据计数上相差比较小,数据的分布一致性较强。

图4 不同替代计量数据库中Reddit提及数据分布差异

表4 不同替代计量数据库Reddit提及数据分布统计参数差异

3.4 F1000数据的交叉比对分析F1000是基于订阅的文章推荐和文献发现服务,可帮助读者筛选每天出版的数千篇有关生物学和医学的期刊文章。图5展现了Altmetric、CED、PLoS ALM 3个替代计量数据库的F1000替代计量的数据分布差异。从图5可以发现Altmetric/CED、Altmetric/PLoS和ALMCED/PLoS ALM在直方图的分布上都在坐标轴0刻度的左侧,但分布相对较少,这说明CED数据库在F1000替代计量数据的收集的数据相较于PLoS ALM和Altmetric数据库更多一些。相比其他替代计量数据源,F1000的替代计量数据计数上相差小,数据的分布一致性强。

图5 不同替代计量数据库中F1000提及数据分布差异

表5 不同替代计量数据库F1000提及数据分布统计参数差异

从表5中可以看出3个数据库直接的计数差平均值都很小,相差都在0.05及以下,标准差都在0.04及以下,计数差为0的部分所占总体均在97.5%以上,进一步证实数据分布的一致性较强。

3.5 Facebook数据的交叉比对分析Facebook是源于美国的社交网络服务及社会化媒体网站,是用户分享生活的主要平台。图6和表6展现了Altmetric和PLoS ALM两个替代计量数据库的Facebook替代计量的数据分布差异,由于CED数据库没有Facebook这一替代计量数据源,只对Altmetric和PLoS ALM数据库进行分析。

表6 不同替代计量数据库Facebook提及数据分布统计参数差异

图6 不同替代计量数据库中Facebook提及数据分布差异

从图6中可以看出直方图的分布上在坐标轴0刻度的两侧,分布较为均匀,从图中可以看出大于0所占的比例相对大一些。从表6中可以看出,两个数据库计数差平均值为-20.2,标准差为189.8,两个数据库的数据分布存在一定的差异,两个替代计量数据库在Facebook替代计量数据数值差为0占总体的56.1%,计数差小于0占总体的20.4%,Altmetric数据库比PLoS ALM 数据库的数值多1的数据占比10.7%。所以Altmetric数据库与PLoS ALM在Facebook上的数据存在一定差异。

3.6 DataCite数据的交叉比对分析DataCite是一个国际非营利性组织,为研究数据和其他研究输出提供持久性标识符(DOI)。图7和表7展现了CED和PLoS ALM两个替代计量数据库的DataCite替代计量数据的数据分布差异,由于Altmetric数据库没有DataCite这一替代计量数据数据源,只对CED和PLoS ALM数据库进行DataCite替代计量数据进行分析。

图7 不同替代计量数据库中DataCite提及数据分布差异

表7 不同替代计量数据库DataCite提及数据分布统计参数差异

从图7中可以明显地看出直方图更多的分布在坐标轴0刻度的右侧,也就是CED的数据值普遍会比PLoS ALM的要大一些。从表7中可以看出,两个数据库计数差平均值为5.5,标准差为100.8,计数差小于0仅占总体的0.1%,计数差为1占总体的0.2%,计数差为2占总体的0.3%,但其平均值5.5相对其他替代计量数据来说,平均值较小,说明两个数据库的数据相差不是特别大。

3.7 Wordpress数据的交叉比对分析Wordpress是一个开源的博客软件和内容管理系统,是目前最流行的博客系统之一。图8和表8展现了CED和PLoS ALM两个替代计量数据库的Wordpress替代计量数据的数据分布差异,因为Altmetric数据库并不包含Wordpress这一替代计量数据源,所以只对CED和PLoS ALM两个数据库的Wordpress的替代计量数据进行分析。

图8 不同替代计量数据库中Wordpress提及数据分布差异

表8 不同替代计量数据库Wordpress提及数据分布统计参数差异

从图8中可以看出直方图在坐标轴0刻度两侧的分布比较均匀,可以理解为两个数据库的差异更多是由于随机误差导致的。从表8中可以看出,两个数据库计数差平均值为0.1,标准差为2.6,计数差小于0占总体的4.3%,计数差为0的数据占总体的91.0%。就平均值而言,相对其他替代计量数据数值小得多,一方面是本身替代计量数据为0的数量比较多,另一方面是在Wordpress这一平台上被讨论的学术成果相对偏少,但总的来说Wordpress这一替代计量数据源在CED和PLoS ALM替代计量数据库中的差异较小。

4 结 论

虽然理论上来说,不同替代计量数据库应该提供一致的替代计量数据,但是由于替代计量数据本身的多源性,目前还没有一家替代计量数据库能够涵盖所有来源的数据。不同的替代计量数据库在发展的过程中,都形成了自己特色的数据源,并且基于各自的愿景和目标,制定了不尽相同的数据政策。这些数据政策对数据数值有直接的影响,使得在某些替代计量数据上呈现出显著差异。

本文通过对不同替代计量数据库的数据政策和数据数值进行对比,揭示了不同替代计量数据库数据的特征,主要得出以下结论:

4.1 不同替代计量数据库在保障数据透明性、可重复性和准确性方面的政策不尽相同,并且各有特色

a.Altmetric.com对提供的每个替代计量数据都进行了清晰定义,对于学术成果的替代计量关注度得分的加权算法也进行了公布,原始的计数在学术成果替代计量详情页也可以看到,同时Altmetric.com也将不同数据源的采集方式公布。

b.CED的数据是通过从非学术来源进行收集以及允许学术来源发送数据。与其他替代计量数据库相比,CED更关注事件本身而不是对数据进行度量,CED对每项替代计量数据数据的来源以及采集方式进行了说明,同时CED对每个事件都打上时间戳,所有的事件都会与这一时间戳匹配,所有数据都将有一个开放的API。

c.PLoS ALM将所有数据源的供应商进行了公示,由于一些数据源的限制,部分数据只能提供计数,对于不同的数据源,PLoS ALM收集数据的时间间隔也不一样,在论文发表的第一个月每天收集,在论文发表的一年内,每周收集,一年后,每个月收集一次。

4.2不同替代计量数据库的数据存在显著差异一是不同数据库追踪的替代计量数据源不同,二是不同数据库在同一数据源上的数值也存在一定的差异。其中,在数据数值的比较上,对至少被两种数据库收录的7种替代计量数据做了交叉对比,得到了具体的结论如下:

a.Twitter数据方面,Altmetric数据库的Twitter数据计数值比CED和PLoS ALM替代计量数据库高。这可能是因为计数方式上的差异,Altmetric数据库在获取Twitter数据时将转发也进行计数。

b.Wikipedia数据方面,CED所提取Wikipedia的数据最为广泛。3个替代计量数据库搜集Wikipedia页面的范围不同,Altmetric数据库只收集英文Wikipedia数据,PLoS ALM只收集世界上最受欢迎的20个维基百科网站的维基百科页面数。

c.Facebook数据方面,PLoS ALM的数据数值要大于Altmetric。这可能是因为Altmetric数据库只获取公开的Facebook数据,而PLoS ALM涉及私密的Facebook帖子。

d.Reddit、F1000、DataCite和Wordpress数据方面,三个数据库的数据一致性较强,随机误差导致的数据分布差异较小。

猜你喜欢
数据源计数计量
计量检定在食品行业中的重要性
古人计数
CPMF-I 取样式多相流分离计量装置
递归计数的六种方式
古代的计数方法
古代的人们是如何计数的?
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
计量自动化在线损异常中的应用
数据有增加 图表自适应