学术资源平台信息幽禁问题探讨

2021-12-03 12:24周春雷李彦博孟丽慧
档案管理 2021年6期

周春雷 李彦博 孟丽慧

摘  要:探讨国内外学术资源平台中普遍存在的阻滞信息流动问题,分析其影响并探讨破解之道。通过列举各平台存在的限制用户利用数据、错误展示资源关系、随机提供部分检索结果等现象,归纳出信息幽禁问题并详细阐述其表现与影响。本文认为,用户需增强对信息幽禁问题的认识,提升应对能力; 数据库商需加强数据质量控制工作, 提高信息服务能力;政府需完善学术资源管理制度,保障知识生产者合法权益。

关键词:学术资源平台;信息幽禁;代理风险;信息感知;信息权利

Abstract: This paper explores the common problem of blocking information flow in academic resource platforms in domestic and international, analyzes its impact and discusses the way to solve it. By enumerating the phenomena existing in various platforms, such as restricting researchers' use of data, wrongly displaying resource relationships, and randomly providing some retrieval results. This paper sums up the information confinement problem and elaborates its performance and influence in detail. As for the solution to information confinement, this paper holds that users need

to enhance their understanding of information confinement and enhance their coping ability; database vendors need to strengthen data quality control and improve information service ability; the government needs to improve the management system of academic resources to protect the legitimate rights and interests of knowledge producers.Keywords: Academic resource platform; Information confinement; agency risk; Information perception; Information rights

1 引言

本文通過梳理相关文献[1-9],发现学术界对学术资源平台阻滞信息流动的现象已有所认识,但尚未对该问题进行系统性研究。本文将该现象定义为“信息幽禁问题”并以实例阐述其影响及危害,然后从政府、数据库商与用户三个角度探讨解决对策。

2 信息幽禁问题及其表现

2.1 信息幽禁问题。作为用户,我们在接受国内外学术资源平台提供的各种服务时,经常会遇到检索结果与预期存在偏差、部分信息不可得的情况。通常,大多数人会善意地将其理解为自身的检索策略问题或数据库偶然出现的技术故障,而很少怀疑是由数据库商设定的检索环境造成的,更不用说系统反思用户应有的信息权利与数据库商采取的某些数据控制措施之间的矛盾。但事实上,当用户将获取学术资源的工作委托给数据库平台由其作为代理人检索各种底层数据时,往往会出于对数据库的信任而忽视其中的代理风险,并未察觉其所用信息可能不够完整、准确。本文将那些因功能缺陷或数据质量问题导致正常用户难以通过学术资源平台所提供的信息服务顺利提取其所允诺数据的现象称为信息幽禁问题。

2.2 信息幽禁问题的表现

2.2.1 过度干预用户获取数据。数据库商本身并不生产新的学术信息,但为学术成果的传播与利用提供了平台,其开发的各种学术资源库为学术界的知识生产和消费活动提供了必要的基础设施。虽然数据库商和用户在某些方面有着共同利益,但这并不意味着用户可以自由取用数据库中的资源。当用户尝试从数据库中获取信息时,会面临诸多隐性限制。

表1总结了用户从主流学术资源平台批量下载题录数据、引文数据时须遵守的规则。其中“是否需逐页点击”指用户是否需要点击“下一页”等按钮才能实现翻页功能;“单页最大显示量”指同一页面呈现的最大记录条数;“单次最大导出量”指单个导出文件最多能接纳的数量;“最大可获取量”指单次检索时能获取的最大数据量。虽然用户借助一定的技巧可以部分规避数据库方的不合理限制,但某些情况下即使检索经验再丰富也不得不放弃对完整数据的追求。

2.2.2 随机提供部分检索结果。笔者在利用专业表达式批量检索数据时遇到了一些令人困惑的问题:在不同时间使用相同的检索表达式有可能得到不同的记录。例如,笔者于2021年3月24日以“DO=10.1016/S0378-4371(02)00736-7”为专业检索式在WoS中检索时可以查到相应的论文,而以“DO=10.1007/s11192-009-0120-0orDO=10.1016/S0378-4371(02)00736-7”检索时却无法查到该文。但是,当2021年4月24日重复验证时却又完全正常了。此外,类似情况还有:检索时明明选中了某些文献却无法导出,以及调整批量检索语句的组合次序会出现不同的检索结果等。在万方数据库中,笔者发现尽管选择记录总数可以大于500,但最多只能导出500条,且并不满足前500或后500条这样的规则。这些现象不仅会浪费用户的时间和精力,也会让人质疑相关数据库的稳定性和数据质量。如上所述,数据库商通常会有意或无意地在其产品中设置种种障碍,以限制数据自由流通、增加数据复用难度等手段来保障自身的商业利益,压制潜在的竞争者。

2.2.3 错误展示文献题录信息。由于相关技术还不够完善,各学术资源平台在数据处理、加工及提供等方面均面临不少难题,我们在获取信息时也难免会遇到繁体字、外文、化学式等,但数据库的处理结果往往不尽如人意,如CNKI将《青海藏族丧葬文化》的作者加工成“愫”,而其作者本名为“忞愫”。作者姓名为两个字时,数据库处理标准不一致,或是不做任何处理(直接著录名字),或是在名字中间加空格,然而有些情况下,无论加不加空格均无法检索出作者的发文或被引数据。此外,对于篇名中破折号前后的内容、主副标题等也会出现不同程度删除处理现象。在著录信息时,数据库商的某些信息加工人员会由于粗心等原因造成一些错误。

2.2.4 错误展示文献间的关系。WoS核心集中同样存在文献关系错误问题。表2展示了《SCIENTOMETRICS》上存在引用关系的三篇论文的具体信息,其不同视角的引用情况如图1所示。

完全符合事实的正确引用关系为:B引用A,C同时引用A、B。但是,不同视角下的文献关系却让这本应清晰明了的关系变得如同“罗生门”般复杂。图1中的实线箭头表示文献间存在引用关系,如A→B表示文献B引用文献A,虚线箭头表示文献间存在错引。由于C的原文参考文献存在错误,故从正文体现的引用情况来看,三者间的关系为:B引用了A,C引用了B,C引用了A但存在错引问题。这一错误引发了一连串的衍生问题:从WoS导出数据来看,CR字段“忠实”地记录了原文的错误,没有纠正文献C与A之间的错引,导致C与A之间的引文关系呈现断裂状态;从WoS平台上的文献链接情况来看,这三篇论文各自独立,不存在引用或链接关系。

3 信息幽禁问题的影响

3.1 阻碍信息流动,干扰学术探索。在政府财政资助下产生的科学数据具有公共属性,理应由社会公众共享,而学术资源平台中的信息来源于学术界,因此本文认为这些资源理应由学术界共享。自由获取信息是用户应享的信息权利,而该权利实行的效果与数据库商释放数据的程度息息相关。大数据时代下,人们对信息的获取效率与拥有量成为科研产出的重要影响因素,同行之间的智力对抗逐渐演变为信息意识比拼。信息意识较低的群体获取信息效率较低,对研究前沿的感知也落后于他人,而信息幽禁问题更是会拉开二者的差距。总之,数据库商的信息服务能力关系着学术成果的扩散,也在一定程度上影响着科研人员的学术热情与科研创新深度。

3.2 妨碍展示真实的学术交流图景。学术交流图景是通过文献间的引用关系呈现出来的,其中体现着学术界的智力偿还与信息礼仪。通过分析学术交流图景,我们不仅可以了解学科间的知识流动,发现其中存在的学缘关系,还可揭示学者的学术视野与学术偏好。但由于数据库收录范围、加工技术等原因,使得原本应完整反映学术交流概况的数据割裂开来,且这些异域分布的数据多在字段结构、字段内容等方面有所差异。此外,部分加工错误的数据也在妨碍展示学术交流图景,同时不利于学术评价结果的真实性。

4 信息幽禁问题解决对策

4.1 建议从国家层面完善学术资源管理制度。长期以来,学术文献数据库缺乏宏观规划与统一管理,不同数据库商普遍存在重复收录文献、技术壁垒、各自为政等问题,相关方的知识产权界限较为模糊。收费不合理等问题也加剧了用户对数据库商的不满情绪。

笔者认为,无论是促进科学发展还是完善管理机制,国家都应该制定一系列行业标准与规范,以法律法规的形式宏观调控数据库商的行为,以一系列学术资源管理措施指导实践活动。数据库商限制信息与数据流通的行为,多数可归为知识产权问题,模糊的知识产权界限让中介环节谋取了大量的利益。在数字环境下,如果默许数据库商无限追求利益而罔顾公众的信息权利,则会损害知识生产者的合法权益。

4.2 建议数据库商不断提升信息服务能力。要想让数据和信息充分发挥促进知识生产作用,需要让其在流通环节“活”起来,减少各种不合理的阻滞行为。我们不仅要考虑如何保障數据库商的经济利益,更应思考如何激发数据活力以提升社会效益。虽然学术数据库商为展示学术界的成果提供了“上传”“下载”“流通”的空间,但其中的绝大部分资源来源于学术界,具有明显的公共属性,其理应承担一定的学术责任与社会责任,与包括学术界在内的各界人士合作,共同解决信息幽禁问题。首先,数据库商应与高校及科研院所等方合作,共同更新各类词表,完善网络环境下文献著录与标引等工作的规则,针对呈现文献量、检索字段、阅读途径等共同制定工作流程与标准。其次,数据库商可联合业界人士形成团体,共同参与完善数据库中的短缺技术,解决如部分生僻字与外文无法显示、内容中有乱码等问题。最后,还应与期刊社等相关方开发参考文献检测工具,解决学术资源间关系紊乱等问题和规避学术不端问题。

4.3 建议广大用户增强应对信息幽禁问题的能力。长期以来,学术界成员缺乏对信息幽禁问题的认知,深受数据库商信息幽禁行为的困扰,忽视了自身应有的信息权利。我们在开展知识创新活动时,或不熟悉情报检索语言,或不熟悉数据库使用方法与技巧而遇到各种阻力,阻碍着我们的知识生产与消费。因此在数据库商等方积极作为的同时,也应提高信息权利意识,增强信息幽禁问题认知并提升应对能力。

*基金项目:河南省哲学社会科学规划项目“基于ESI的河南省优势学科识别与人才评价研究”(项目编号:2019BZH005);郑州大学教学改革研究与实践项目“大学生信息空间适应能力提升机制研究”(项目编号:2020zzuJXLX184)。

参考文献:

[1]苏新宁,黄水清.学术资源库建设重在促进学术研究[N].光明日报,2016-01-21.

[2]王启云.关于数字资源计量问题[EB/OL].[2021-5-20].http://blog.sciencenet.cn/blog-213646-721092.html.

[3]苏新宁.引文索引数据质量控制研究[J].中国图书馆学报,2001(02):76-78.

[4]张友谊,刘春.中文社会科学引文索引数据质量问题研究

[5]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.A novel approach for estimating the omitted-citation rate of bibliometric databases with an application to the field of bibliometrics[J].Journal of the American Society for Information Science and Technology,2013,64(10),2149-2156.

[6]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.Empirical analysis and classification of database errors in Scopus and Web of Science[J].Journal of Informetrics,2016,10(04):,933-953.

[7]张美琦,刘斐,姚兰,等.查收查引质量控制关键环节——错引判断实践及其效果评估[J].大学图书馆学报,2018,36(05):93-100.

[8]LIU WS.Accuracy of funding information in Scopus:a comparative case study[J].Scientometrics,2020,124(01):803-811.

[9]LIU WS,HUANG MT,WANG HF.Same journal but different numbers of published records indexed in Scopus and Web of Science Core Collection:causes,consequences,and solutions[J].Scientometrics,2021,126,4541-4550.

(作者單位:周春雷,郑州大学信息管理学院,郑州市数据科学研究中心;李彦博、孟丽慧,郑州大学信息管理学院 来稿日期:2021-08-01)