e-Science环境下科研活动与科学数据一站式管理平台研究

2024-03-25 04:34曹秀丽王宇飞王一
四川图书馆学报 2024年2期
关键词:科研活动数据管理服务

曹秀丽 王宇飞 王一

收稿日期:2023-04-23

摘  要:

在信息化、数据密集化(e-Science)科学研究新形势下,规范高效地管理科研活动和科学数据,对科研创新突破、资源集成共享具有十分重要的意义。文章在调研多个研究团队科研数据管理现状的基础上,基于科研—数据双生命周期模型,构建了科研活动与科学数据的一站式管理平台。初步探讨了平台的系统架构与功能实现,详细阐述了平台的用户角色管理及权限分配策略,以期这个新型平台能为科研数据管理服务工作提供一些新的思路和方法。

关键词:

科研数据管理;双生命周期;科研活动;研究数据;管理平台

中图分类号:G252    文献标识码:A    文章编号:1003-7136(2024)02-0042-07

Research on the One-stop Management Platform of Scientific Research Activities and Scientific Data in e-Science Environment

CAO Xiuli,WANG Yufei,WANG Yi

Abstract:

Under the new situation of scientific research becoming informationalized and data-intensive (e-Science),standardized and efficient management of scientific research activities and scientific data have great significance to scientific research innovation,resource integration and sharing.By surveying the current situation of scientific data management in several research teams,this paper constructs the one-stop management platform of scientific research activities and scientific data based on a dual-life cycle model of scientific research and data.The system architecture and function realization of the platform are discussed.The user role management and permission allocation policies of the platform are elaborated on.This new platform is expected to provide some new ideas and methods for scientific research data management services.

Keywords:

scientific research data management;dual-life cycle;scientific research activity;research data;management platform

0  引言

随着信息技术的飞速发展,科学研究从计算模拟第三范式迈入数据密集第四范式 [1],各学科领域的科研活动源源不断地产生海量的科学数据。各国政府将科学数据视作重要的战略资源,纷纷颁布相关政策法规,从国家层面大力支持科学数据的生成采集、管理使用和开放共享等活动[2-4]。除此之外,科研资助机构[5-7]、大型出版集团[8-11]均要求受资助项目与学术论文得到妥善保存和开放共享科研数据,以提高科学研究的透明性和可重复性。总的来说,科研数据管理对国家智库、资助机构、出版商、研究人员等利益相关群体而言,具有不可估量的价值和深远的意义。

1  国内外研究现状

在积极明确的政策导向和相關群体的迫切需求下,国内外涌现了许多不同规模和类型的科研数据管理平台。

国外高校率先研发科研数据管理平台及提供配套服务。由美国哈佛大学定量社会科学研究所开发的Dataverse平台主要为社会学、人文科学、信息学等多个学科的科研人员提供资源和信息的长期存储与管理服务[12]。麻省理工学院的DSpace数字资产管理系统是一个大型的、多学科的数字管理存储平台,可以为教育科研人员提供电子档案管理、数字出版物管理、机构知识库等服务 [13-14]。除此之外,康奈尔大学的DataStaR存储库[15]、约翰斯·霍普金斯大学Data Conservancy项目[16]也是国外优秀科研数据管理平台的典型代表。

近年来,国内高校已认识到科研数据集中存储与管理的重要性,在平台建设和服务内容方面做了许多积极的尝试。国内高校大多是在国外优秀的研究数据管理平台的基础架构之上,依据本机构需求进行二次开发。北京大学、复旦大学选用开源Dataverse软件进行特殊化定制,创建了北京大学开放研究数据平台[17-20]和复旦大学社会科学数据平台[21-22]。此外,清华大学、厦门大学、武汉大学立足本校的教学科研活动,采用DSpace搭建了本机构的科研数据仓储平台 [23-26]。

在国内外学界的不断努力下,科研数据管理平台相关的理论和应用实践越来越丰富,但仍有一些值得继续优化和深挖的地方。例如,休斯敦大学Peters C和Dryden

A R认为在传统的数据存储需求之外,还可以为研究人员提供诸如数据管理计划、资金资助申请、出版支持等科研辅助服务[27]。刘桂锋等在复旦大学社会科学数据平台上以具体的科研情景开展功能定位研究,提出高校科研数据平台如能具备选题立项、科研准备、科研实施和成果管理等功能,将能更好、更全面地开展科研数据管理服务工作[28]。

现有的科研数据管理平台主要侧重于科学数据的广泛收集与专业管理,这种以数据为中心的组织模式和功能定位相对较为单一。这将与数据紧密相连的科研活动从平台管理中剥离开来,无法体现二者在整个科研工作流中协同配合与相互促进的内在机制。另外,单一的数据管理模式在一定程度上也会削弱科研人员对平台的依赖度和持续使用度,不利于平台长期稳定地运行。

综上所述,构建科研活动与科学数据一站式管理平台是一个非常重要的拓展方向,可以在科研工作流中实现对二者的实时追踪与同步管理,更好地满足研究团队复杂的科研数据管理需求。

2  研究内容

2.1  需求调研

科研团队和研究人员既是科研数据的生产者,也是使用者,是科研数据管理平台最直接和最重要的利益相关者,其需求意见对科研数据管理平台的开发具有十分重要的参考意义。

本研究在四川省内两所“双一流”建设高校(四川大学、成都理工大学)和两所省属高校(四川师范大学、西华师范大学)调研生物学、计算机、化学、环境学、数学、物理学、教育学、经济学、历史学、设计学十个研究团队,采访研究团队负责人、研究员、研究生等群体,收集科研数据管理的现状和实际需求调查表,共计收到132份调查问卷,统计结果见表1。调查结果显示,

在数据存储介质方面,有八个科研团队使用个人电脑,各有一个科研团队选用移动硬盘、云服务器来存储研究数据。另外,十个研究团队现阶段均还未使用专业的科学数据管理平台来保存和管理数据。

存储内容方面,除了研究数据之外,科研团队还对文献资料、资金使用、科研成果、项目情况、团队成员等非传统意义的科研数据有较高的存储需求。存储格式方面,十个研究团队产出的数据类型较为复杂,当前最常采用的格式是文本文件和电子表格。存储效果方面,

数据共享困难、数据保存分散、数据格式不统一是大多数研究团队集中反馈的困境,另外,研究团队当下还面临数据丢失、数据传承、数据共享和重复利用等方面的困难。管理需求方面,由于研究数据的体量不断增加,各科研团队均需数据素养教育或数据管理方法与工具使用培训,有针对性地提升科研人员的数据意识和能力。团队还需要合适的管理工具以辅助研究人员对数据进行有效的组织和评估,实现数据管理系统化、专业化。另外,本研究还对科研活动中的数据相关操作、科研人员的数据操作权限等做了详细的调查。

2.2  科研—数据双生命周期模型

科研数据管理同时涉及科研活动和科学数据两个核心要素,这二者本身具有高度的关联特性,其中,研究人员在科研全流程中历经的不同工作环节称为科研生命周期[29]。与此同时,伴随科研活动产生的科学数据也在经历“生成—捕获—组织—评估—分析—存储—二次利用”的动态循环过程,即数据生命周期[30]。科研和数据两个生命周期某些阶段可能重合或互为补充。笔者前期以研究团队为首要责任主体,细化了科研活动和数据管理的关键环节,详细讨论了二者的互补协同机制,创建了科研—数據双生命周期模型[31],如图1所示。在这个模型中,科研生命周期是科研活动中核心研究步骤的概括和总结,可用于指导科研人员有计划地安排研究进程;数据生命周期从数据主动管理出发,追踪数据在全生命周期内的有效路径,是科研数据管理服务的基础框架。

2.3  科研数据一站式管理平台

本研究基于科研—数据双生命周期模型设计合适的平台组织架构和科研数据管理形式,构建科研活动和数据管理的一站式平台——R&D平台,其中R代表科研活动(Research),D代表科学数据(Data)。

2.3.1  平台系统架构

R&D平台主要包含文献资源空间、项目信息空间、研究数据空间、科研成果空间、应用创新空间五个科研数据二级仓储,如图2所示。这种空间划分主要依据的是双生命周期模型的核心阶段,能更清晰明了地展示科研工作流中的具体研究阶段和数据产出内容。

R&D平台的系统架构共五层,分别为存储层、基础服务层、业务服务层、接入层和展示层,其中箭头表示依赖关系,即上层依赖下层,如图3所示。

存储层为整个系统提供持久化服务,其中的分布式搜索分析引擎Elastic-Search几乎支持所有类型的数据(如结构化或非结构化文本、数字数据或地理空间数据等)快速检索,借助它可以建立科研项目、研究主题、论文主题词等特殊关键字与文件之间的映射关系,便于执行实时分析与快速搜索;关系型数据库MySQL则用于存储用户、权限、流程等关系型数据;Redis-Cluster集群用作整个系统的缓存;HBase数据库用于存储系统按时间沉淀的文档、图片等多种类型的海量科学数据;分布式文件系统Ceph则提供对象存储和文件系统服务。

基础服务层作为一个引擎驱动着业务服务层的流程流转,业务服务层依赖于基础服务层。基础服务层采用分布式微服务架构,服务注册中心是微服务的核心,具备注册和发现的能力,系统内任何服务想要与其他服务通信,都可以通过注册服务来发现其他服务的地址。用户管理和权限管理属于后台管理基础服务,用户管理提供整个系统的用户注册、登录认证等相关用户操作;权限管理负责用户的权限配置,包括用户角色管理,角色菜单、数据权限配置等功能。流程引擎作为系统的流程抓手,提供流程模板配置、流程流转驱动等功能。OAM服务是运维基础,提供人机接口供后台定位问题等。

业务服务层包含了R&D平台上能提供的文献资源、项目信息、研究数据、科研成果、应用创新五个科研数据存储和管理空间,是系统核心服务能力的体现。接入层作为业务服务和用户请求的介质,用于把用户请求路由到对应的业务服务之上,并提供对多服务实例负载均衡的访问能力。展示层是整个平台系统提供给用户的多种访问渠道,包括电脑Web端、手机App、小程序等。

2.3.2  用户管理与角色权限分配

用户管理与权限分配是科研数据管理平台的核心业务之一。DSpace采用分级权限控制策略给用户分配了与数据操作关联的角色,例如提交者、审核者、终审者等,赋予读取、写入、添加、删除等不同权限[32]。Dataverse则是将多种数据管理权限的组合定义为角色,如管理员、贡献者、监管者、创建者等,用户被赋予的角色决定了他们在归属数据集中的权限,例如,贡献者有查看、下载、编辑和删除数据集的权限,但却没有发布数据集的权限[33]。在上述两个平台中,权限是对受保护对象授予操作的批准集合,受保护对象可以是平台中所有的内容,包括数据、模块、菜单、页面、字段、操作等。通过角色将用户与权限相关联的机制称为角色的权限访问控制RBAC(Role-Based Access Control)[34]。

在RBAC这种机制中,用户与角色、角色与权限之间可以是多对多的关系,如图4所示。数据库中引入用户与角色关联映射(t_user_role)、角色与权限关联映射(t_role_permission),加强用户、角色和权限三者间的关联性。值得注意的是,在DSpace和Dataverse两个平台上用户被赋予了数据角色和相应的数据权限,但用户的科研角色却未能得到明显体现。

R&D平台借鉴RBAC机制,先确定研究人员的科研角色及科研权限,然后再赋予其数据权限,从而将两种类型的权限集中统一于同一研究人员。

在R&D平台,研究人员在注册时先依据团队中自身的职能和分工选定科研角色。图1内环是双生命周期模型中的科研生命周期,这十四个科研环节仅仅代表了典型的十四种科研权限。在R&D平台上,科研角色是显性角色,数据角色是隐性角色,数据角色并不独立存在,而是隐含于科研角色之内。图1外环所示的数据生命周期七个环节对应着七种数据权限。研究人员在科研活动中的数据相关操作、科学数据的流向以及数据的敏感隐私特性是数据权限分配的主要依据。

总的来说,将科研和数据权限集中于同一角色的用户管理模式有着明显的优势。首先,用户直接关联的就是科研活动中自己本身所属的科研角色,不存在角色转换过程,能更及时地响应科研需求,有助于提升用户对平台的持续使用度和依赖度;其次,两种权限的统一意味着研究人员在科研进展过程中可以同步完善数据相关活动,能更好地保证数据的专业性和准确性;最后,科研产生数据,数据驱动科研,这种用户管理模式使得科研活动和数据管理处于实时交互且闭环的良性循环之中。

2.3.3  数据组织与管理

对数据进行合理、有效的组织是科研数据管理平台较重要的功能之一,R&D平台数据组织与管理内容主要包括五个方面。

(1)文献资源空间。文献资源是科研活动顺利开展、取得突破的重要保障。信息化时代,文献资源具有载体多元化、数量增长快等特点,仅仅借助于文献管理工具或个人电脑很难达到集中、协作与传承之目的,亟须对文献数据进行科学、高效地存储与管理。为此,在R&D平台创建科研数据仓储,即文献资源空间。在该空间中,研究团队成员收集、阅读、整理与科研项目研究主题相关联的文献资源,随后按照项目主题或文献主题进行标签化。重复文献不二次录入,仅在原记录上增加主题关联标签,便于数据的分类存储、快速检索与精确定位。最后将其提交到平台由项目负责人审核,审核通过后即可存入文献资源空间,若审核不通过则通知团队成员不做入藏处理。

(2)项目信息空间。科研活动中团队成员档案和资助情况虽不是研究的主体数据,但是它们对于科研项目的完整性和发展性也十分重要。R&D平台为此开辟了特有的项目信息空间,重点存储与学术团队、资助申报相关联的科研辅助数据。其中,团队带头人负责创建学术团队的成员信息,并对其进行长期培育;项目负责人对项目申报、项目立项、资金使用等具体数据进行维护,结合项目定期检查将更加明确项目当下的推进情况。这些科研辅助数据虽然维护起来较为繁琐,但其本质上却体现了研究团队的组织和执行能力,比一般意义上的科研数据管理的外延更广,是科研全流程中不可或缺的部分。

(3)研究数据空间。研究产生的主体数据是科研结果的直观证明和强力支撑,是科研的核心价值所在。R&D平台的研究数据空间致力于研究主体数据的集中整合和长期保存,如图5所示。其存储机制为研究人员收集原始数据并对数据进行分析、分级、分类等,按科研项目或研究主题对数据进行标签化,再提交给项目负责人审核,以确保数据的准确性和有效性。审核通过后即可存入相应的数据集,全部的数据集整合在一起即为完整的研究数据空间。这里的研究数据主要包含实验直接产生的原始数据,如文本、代码、软件、图像和音频等。诸如研究进度记录、研究思路整理、周会月会报告等启发科研思维和阶段突破的信息资料,以及已公开的定量或定性数据也应囊括在研究数据的范围之内。

(4)科研成果空间。科研成果是研究人员通过具体的研究活动所取得,经得起检验评价,具有学术或实用价值的创新成果,是科研质量和水平的客观体现。科研成果管理对于研究总结和数据传承有重要的现实意义。由于学科门类和研究方向的差异,科研成果的最终呈现形式多种多样,包括专著、学术论文、发明专利、软件图纸、工艺技术等。

(5)应用创新空间。研究成果转化与应用创新是科研工作中相當重要的环节,是理论研究向实际应用的重大转变。R&D平台创建了独立的应用创新空间,如图6所示。项目负责人在该空间可以录入和管理学术会议、参观考察、对外合作等学术交流信息,等同于建立了相关研究领域的最新进展信息库,以便让研究团队更快、更好地洞察到潜在的合作伙伴或新的科研方向。

3  结语

以研究团队实际需求为导向,基于双生命周期模型构建科研数据管理平台,旨在实现同一平台内同步管理科研活动和研究数据。区别于其他管理平台,该平台主要有两个特点:第一,平台执行科研和数据管理权限均集中于同一科研人员的用户管理模式,在这种模式中研究人员能更及时地响应科研需求,也能更好地保证数据的有效性和完整性。第二,平台以双生命周期的重要阶段作为空间划分的主要依据,创建了文献资源空间、项目信息空间、研究数据空间、科研成果空间、应用创新空间五个科研数据二级仓储,在科研工作流中能够更加规范、合理地存储和访问数据。

现阶段,平台的基础架构设计已初步完成,但仍有许多地方需要不断完善和优化。诸如,在该架构上嵌入数据可视化、数据挖掘、数据引用等软件和工具的直接调用接口;考虑到不同研究团队或机构间的合作,平台后期还要设计数据整合与相互调用的模块,为数据交流和知识共享做准备。

参考文献:

[1]HEY T,TANSLEY S,TOLLE K.The fourth paradigm: data-intensive scientific discovery[M].Washington:Microsoft Research,2009:xi-xvii.

[2]WILKINSON M D,DUMONTIER M,AALBERSBERG I J J,et al.The FAIR guiding principles for scientific data management and stewardship[J].Scientific data,2016,3(3):18-27.

[3]Increasing access to the results of federally funded science[EB/OL].

(2016-02-22)

[2022-10-12].https://obamawhitehouse.archives.gov/blog/2016/02/22/increasing-access-results-federally-funded-science.

[4]国务院办公厅印发《科学数据管理办法》[EB/OL].

(2018-04-02)

[2022-10-11].http://www.gov.cn/xinwen/2018-04/02/content_5279295.htm.

[5]Chapter II-Proposal preparation instructions[EB/OL].

(2017-01-30)

[2022-10-12].https://www.nsf.gov/pubs/policydocs/pappg17_1/pappg_2.jsp#IIC2div.

[6]Basics and Principles of Funding[EB/OL].[2022-10-12]. https://www.dfg.de/en/principles-dfg-funding/basics-and-principles-of-funding.

[7]Research data management[EB/OL].[2022-10-13].https://www.arc.gov.au/policies-strategies/strategy/research-data-management.

[8]Open data[EB/OL].[2022-10-10].https://www.springernature.com/gp/open-research/open-data.

[9]Supplementary information[EB/OL].[2022-10-12].https://www.nature.com/nature/for-authors/supp-info.

[10]Open data[EB/OL].[2022-10-11].https://authorservices.wiley.com/open-research/open-data/index.html.

[11]Sharing research data[EB/OL].[2022-10-12].https://www.elsevier.com/authors/tools-and-resources/research-data.

[12]Harvard Dataverse[EB/OL].[2022-10-10].https://dataverse.harvard.edu/.

[13]DSpace:an open source dynamic digital repository[EB/OL].[2022-10-09].https://www.dlib.org/dlib/january03/smith/01smith.html.

[14]DSpace@MIT[EB/OL].[2022-10-09].https://dspace.mit.edu/.

[15]DIETRICH D.Metadata management in a data staging repository[J].Journal of library metadata,2010,10(2-3):79-98.

[16]Data Conservancy[EB/OL].[2022-10-12].https://dataconservancy.org/.

[17]北京大學开放研究数据平台[EB/OL].[2022-09-20].https://opendata.pku.edu.cn/.

[18]朱玲,聂华,崔海媛,等.北京大学开放研究数据平台建设:探索与实践[J].图书情报工作,2016,60(4):44-51.

[19]罗鹏程,朱玲,崔海媛,等.基于Dataverse的北京大学开放研究数据平台建设[J].图书情报工作,2016,60(3):52-58.

[20]崔海媛,罗鹏程,李国俊,等.一流高校研究数据管理服务体系的研究与建设:以北京大学图书馆为例[J].大学图书馆学报,2019,37(2):42-48.

[21]殷沈琴,张计龙,张莹,等.社会科学数据管理服务平台系统选型研究:以复旦大学社会科学数据平台为例[J].图书情报工作,2013,57(19):92-96.

[22]张计龙,殷沈琴,张用,等.社会科学数据的共享与服务:以复旦大学社会科学数据共享平台为例[J].大学图书馆学报,2015,33(1):74-79.

[23]曾婷,董丽,邹荣,等.开源仓储软件在清华大学图书馆的研究应用与思考[J].图书馆杂志,2012,31(5):58-64.

[24]陈和.DSpace系统与厦门大学机构存储的构建[J].数字图书馆论坛,2006(9):61-67,75.

[25]项英,赖剑菲,丁宁.高校图书馆科学数据管理服务实踐探索:以武汉大学社会科学数据管理为例[J].情报理论与实践,2013,36(12):89-93.

[26]刘霞,饶艳.高校图书馆科学数据管理与服务初探:武汉大学图书馆案例分析[J].图书情报工作,2013,57(6):33-38.

[27]PETERS C,DRYDEN A R.Assessing the academic library′s role in campus-wide research data management: a first step at the University of Houston[J].Science & technology libraries,2011,30(4):387-403.

[28]刘桂锋,张裕,苏文成,等.高校科研数据平台功能定位与优化研究:基于眼动追踪实验[J].情报理论与实践,2021,44(2):115-121,70.

[29]HUMPHREY C.E-Science and the life cycle of research[EB/OL].[2022-09-20].https://era.library.ualberta.ca/items/3334684b-fa6a-4c9d-a74b-559fecd42f9f.

[30]INMON W H,LINSTEDT D.Data architecture:a primer for the data scientist:big data,data warehouse and data vault[M].Amsterdam:Morgan Kaufmann,2015:33-37.

[31]曹秀丽,赖朝新.e-Science环境下科研—数据双生命周期模型初步研究[J].情报理论与实践,2022,45(6):157-163.

[32]DSpace[EB/OL].[2022-10-12].https://dspace.lyrasis.org/.

[33]Dataverse Project[EB/OL].[2022-10-12].https://dataverse.org/.

[34]

FERRAIOLO D F,KUHN D R.Role-based access controls[C]//15th National Computer Security Conference.Gaithersburg:National Institute of Standards and Technology,1992:554-563.

作者简介:

曹秀丽(1984— ),女,博士,馆员,任职于四川师范大学图书馆。研究方向:数字资源管理与建设。

王宇飞(1987— ),男,硕士,馆员,任职于四川师范大学图书馆。研究方向:电子信息技术。

王一(1993— ),女,硕士,馆员,任职于四川师范大学图书馆。研究方向:信息素养教育。

猜你喜欢
科研活动数据管理服务
企业级BOM数据管理概要
计算机学科科研活动行为规范建议
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
招行30年:从“满意服务”到“感动服务”
机械卓越工程师教育培养计划学科竞赛和科研活动体系建设研究