全球学科知识库发展现状扫描*

2015-10-23 02:14董文鸳袁顺波
图书馆 2015年4期
关键词:知识库数量学科

董文鸳 袁顺波

(1.嘉兴学院图书馆 浙江嘉兴 314001; 2.嘉兴学院商学院 浙江嘉兴 314001)

1 引言

自存储是20世纪90年代兴起的一种开放存取(Open Access, OA)策略之一,旨在推动科研成果的快速传播与免费共享。一般而言,自存储的途径包括个人主页、机构知识库和学科知识库。

所谓学科知识库,是指用以收集、保存并免费开放关于某一个或多个学科文献资源的知识库。与诞生于21世纪的机构知识库相比,20世纪90年代初期以arXiv.org为代表的学科知识库的问世更早,经过20多年的发展,全球学科知识库的发展现状值得探究,现有研究大多针对包括多种类型的OA知识库或者机构知识库的发展现状进行分析[1-2],并不能完全准确地反映出学科知识库的发展现状。为此,文章试图通过对学科知识库的发展进程、国家/地区分布、系统软件、管理政策及资源内容等方面的分析,对全球学科知识库发展现状进行扫描。

OpenDOAR(Direct of Open Access Repositories,OA知识库名录,http://www.opendoar.org)是在开放社会研究所(Open Society Institute, OSI)、欧洲学术出版和学术资源联盟(Scholarly Publishing and Academic Resources Coalition Europe, SPARCEurope)、英国联合信息系统委员会(UK Joint Information Systems Committee, JISC)及英国大学学术图书馆联盟(Consortium of University Research Libraries, CURL)等机构的资助下,由英国诺丁汉大学(The University of Nottingham)和瑞典兰德大学(Lund University)于2005年所创建的一个全球OA知识库目录网站。[3]该网站致力于收录全球范围内各种类型的OA知识库,并对其进行有效组织与揭示,以方便科研人员对OA资源的检索与利用,推动OA运动的发展。因此,通过OpenDOAR可以了解到全球学科知识库的发展现状。

2 发展进程

截至2014年10月1日,OpenDOAR共收录296个学科知识库(如图1所示):

图1 学科知识库数量及增长情况

从图1可以看出,学科知识库近年来保持着平稳增长的态势,从2006年至今已新增约200个学科知识库,说明近年来学科知识库已经得到了学术机构的认可,预计在未来一段时间内学科知识库的增长还将得以继续。需要注意的是,与机构知识库相比,学科知识库的发展速度明显落后,目前OpenDOAR收录的机构知识库已经超过了2200个,且基本保持着300个/年的增长速度。分析其原因,主要是因为二者的建设主体存在差别,机构知识库建设主要依靠高校、科研机构,每所高校或科研机构均可以建设一个或多个机构知识库,因此在数量上具有优势属于情理之中。

在质量方面,学科知识库的发展取得了较好的成绩,产生了一大批具有影响力的学科知识库(如arXiv.org、Research Papers in Economics、PubMed Central等),尤其是arXiv.org已经成为了最具影响力的跨学科自存储平台,得到了物理学、数学、计算机科学等领域科研人员的广泛认可[4];E-LIS则是图书情报领域最为知名的学科知识库,目前已发展成为图书情报领域的作者、出版商和协会获取信息资源的重要来源[5]。

3 国家/地区分布

经过20多年的发展,自存储理念已经在全球范围内得到了较为广泛的认可,因此各大洲均已建成多个学科知识库,排名前三位的分别是欧洲(146, 49.3%)、北美洲(96, 32.4%)和南美洲(19, 6.4%)。具体而言,296个学科知识库分布在51个国家,其中美国、英国和法国排名前三(见表1):

表1 学科知识库的国家/地区分布

从表1可以看出,排名靠前的国家/地区大多来自于欧洲和美洲,巴西、阿根廷等拉美国家的表现也相对较好,相比之下,亚洲国家/地区落后较为明显。排在首位的美国目前已经建成了84个学科知识库,占总数的28.38%。美国一直是引领全球OA运动的前沿阵地,在OA理念的普及程度、OA期刊的创办与管理、学科知识库和机构知识库的建设等方面都处于全球领先的地位,arXiv.org目前由美国康奈尔大学(Cornell University)提供服务并在全球设置镜像点,Research Papers in Economics、PubMed Central等知名学科知识库也都由美国的相关学术机构提供服务,因此美国排名第一实属情理之中。英国也是最早开始学科知识库建设的国家之一,“自存储”这一概念最早是由英国南安普顿大学(Univetsity of Southampton)Harnad教授所提出,知名的开源软件Eprints也由该校开发。Eprints具备良好的灵活性和可扩展性,大大降低了创建学科知识库的技术难度,因此成为了目前应用最为广泛的系统软件之一,有效地推动了英国学科知识库的实践发展。同时,英国的自存储政策也是推动其学科知识库快速发展的重要原因,英国目前是贯彻执行强制性存储政策力度最大的国家之一,英国研究委员会(Research Councils UK, RCUK)早在2005年就已制定强制性存储政策,要求所有接受RCUK资助的科研人员,必须将研究成果的最终版(期刊论文、会议论文)存储至各分会制定的平台当中进行免费开放。

印度有7个学科知识库被OpenDOAR所收录,排名第9,是亚洲地区被收录最多的国家,这应该与印度教育国际化程度较高、OA理念较为普及有关。相比之下,亚洲的其他国家/地区表现不够理想,韩国(2个)、日本(1个)和台湾(1个)被收录的数量很少,而我国大陆更是没有被OpenDOAR所收录的学科知识库。近年来OA及其相关主题已经成为我国学术界的一个研究热点,产出了大量的研究成果,也先后建成了中国科技论文在线、奇迹文库、中国预印本服务系统等学科知识库,但总体而言,实践建设落后于理论研究。现有的学科知识库中仅有中国科技论文在线发展势头较好,中国预印本服务系统中的资源数量少且增长速度较慢,奇迹文库更是因为维护问题而关闭。因此国内相关学术机构需要行动起来,切实推动学科知识库的实践发展。可喜的是,目前已有一定数量的机构开始制定相关政策,如国家自然科学基金委员会最新规定,要求国家自然科学基金全部或部分资助的科研项目和研究论文应在公开发表时,将同行评议后录用的最终审定稿存储到国家自然科学基金委员会的知识库,不晚于发表后12个月实现OA。[6]

4 系统软件

大量开源软件的涌现为学科知识库的发展奠定了良好的技术基础。统计表明,除去92个学科知识库的系统软件无法确定外,204个学科知识库共使用了45种系统软件,其中Eprints和DSpace排名前2位,具体如表2所示。

Erpints是由南安普顿大学针对预印本管理而开发的开源软件,也是最早支持OAI协议的专业系统平台之一,利用该平台能快速、简便地构建学科知识库并能根据实际需求进行有效改进,[7]因此该软件成为目前在学科知识库建设中使用最多的开源软件;DSpace是由美国麻省理工大学(Massachusetts Institute of Technology, MIT)和惠普公司合作开发的面向机构知识库的系统软件,也是目前知名度最高的自存储平台。DSpace是遵循BSD协议的开放源代码数字存储系统,该系统可以存储文本以及多媒体等多种类型文件,同时支持OAI-PMH2.0协议,为数据的存储于共享提供了优质的数据标准与平台。[8]同时,学科知识库与机构知识库在系统功能方面具有较大的共通性,因此DSpace在学科知识库的构建中也得到了广泛应用。

表2 学科知识库系统软件使用情况

表2的统计结果还表明,目前可供选择的学科知识库系统软件较多,且绝大多数为免费的开源软件,这在为学科知识库构建带来便利的同时也带来了如何进行选择的问题。目前我国机构知识库大多是在DSpace基础上进行本地化处理后所构建的,而Eprints则是针对学科知识库所开发的主流系统软件,因此今后国内在构建学科知识库时可以考虑采用DSpace或Eprints作为系统平台。

5 管理政策

管理政策是影响学科知识库持续发展的关键因素,只有制定了完善的内容管理、质量控制以及激励等政策,学科知识库才能得到科研人员的支持,其资源建设才能得以顺利开展。OpenDOAR通过访问各学科知识库网站的“OAI-PMH Identify Response”、“Policies”或“About”等网页查找有关管理政策的内容,并根据所制定的评价标准给予相应的等级。目前OpenDOAR列出了学科知识库的资源提交政策、资源内容政策、长期保存政策、元数据再利用政策以及全文再利用政策等5方面的政策等级,对于所有的政策,分别给予“未知”、“未陈述”、“未定义”、“未明确”和“已定义”5个等级;对于元数据再利用政策和全文再利用政策,则还有“禁止再利用”、“不允许自动获取”、“不稳定”、“允许非商业用途”和“允许商业用途”5个等级,具体如表3所示:

表3 学科知识库管理政策等级列表

OpenDOAR提供了258个学科知识库管理政策等级,其中:

(1)资源提交政策,有20个学科知识库的资源提交政策处于“未知”状态,占总数的7.7%,处于“未陈述”、“未定义”和“已定义”等级的数量分别为11(4.3%)、185(71.7%)和42(16.3%)。

(2)资源内容政策,处于“未定义”等级的数量最多(183,70.9%),其次是“已定义”(53,20.5%),处于“未知”和“未陈述”的数量分别为13(5%)和9(3.5%)。

(3)长期保存政策,154个学科知识库处于“未定义”等级,占总数的59.7%,处于“未陈述”、“已定义”和“未知”等级的学科知识库数量分别为69(26.7%)、18(7%)和17(6.6%)。

(4)元数据再利用政策,处于“未定义”等级的学科知识库有198个(76.7%),处于“允许非商业用途”、“未知”、“未陈述”和“允许商业用途”的数量则分别为28(10.9%)、14(5.4%)、12(4.7%)和6(2.3%)。

(5)全文再利用政策,179个学科知识库处于“未定义”等级,占总数的69.4%,处于“允许非商业用途”的有37个,占总数的14.3%。此外,处于“未知”、“未陈述”、“不稳定”、“不允许自动获取”和“禁止再利用”等级的数量分别为13(5%)、11(4.3%)、11(4.3%)、5(1.9%)和 2(0.8%)。

从上述数据可以看出,目前大多数学科知识库的管理政策处于“未定义”和“已定义”等级,说明目前学科知识库的管理政策建设已经取得了一定的成绩,这为学科知识库持续稳定的发展提供了良好的制度保障。但我们也应该看到,现有管理政策还不够完善,一方面,大多数学科知识库仅公开了管理政策的主体内容,而没有全面、详细地公开具体的管理政策,同时还有一定数量的学科知识库没有提供任何管理政策信息或公开管理政策的相关内容;另一方面,各项政策之间也存在着不平衡,作为自存储资源建设的两项基本政策,资源提交政策和资源内容政策相对较为成熟,绝大多数学科知识库均已公开了这两项政策的主要内容或具体内容,而其余政策的发展则较为落后。因此,学科知识库的管理政策建设依然任重道远,在未来的发展过程中,需要对管理政策的相关内容开展更加深入的理论探讨和实践摸索。

6 资源内容

学术资源内容是关系到学科知识库发展的直接决定因素,学科知识库要避免“有站无车、有车无人”的困境,必须拥有大量类型丰富、组织有序的高质量学术资源。文章将从资源数量、资源类型和学科领域等3个方面对全球知识库的资源内容进行扫描。

(1)资源数量。统计结果表明,除去37个学科知识库缺乏数据外,259个学科知识库共有接近1.1亿条资源,平均拥有资源数量41万余条,有3个学科知识库的资源数量已超过了1000万,7个学科知识库的资源数量在100万-1000万之间。与机构知识库相比,学科知识库在资源数量方面优势较为明显,目前2176个机构知识库共有7600余万条资源,平均拥有资源数量为3.5万余条。分析其原因,主要与学科知识库发展历史较长以及对存储资源的科研人员身份不设限制等因素有关。

在259个学科知识库中,来自新西兰的Papers Past资源数量最多,现已拥有超过了4000万条资源,Europe PubMed Central和Research Papers in Economics紧随其后,拥有超过100万条资源的10个学科知识库,如表4所示:

表4 资源数量排名前十的学科知识库

8 Predicted Crystallography Open Database 立陶宛 1,062,771 9 Social Science Research Network 美国 1,043,147 10 OpenGrey Repository 法国 1,015,048

从表4可以看出,10个资源数量最多的学科知识库分别有3个来自于英国和美国,表明这两个国家不仅是拥有学科知识库数量最多的国家,同时也是在资源建设方面表现突出的国家。其余的4个学科知识库分别来自新西兰、瑞士、立陶宛和法国,也再一次说明学科知识库在欧美地区,尤其是欧洲地区发展较为普及。

(2)资源类型。与商业数据库相比,学科知识库的一大优势就是能收录多种类型的学术资源。统计结果表明,目前学科知识库收录了期刊论文、专著及专著的部分章节、多媒体资源、未发表的报告及工作论文等,具体如表5所示:

表5 学科知识库资源类型分布

从表5可以看出,学科知识库中不仅包括常见期刊论文、专著等常见的学术资源,也包括了商业数据库中未收录的灰色资源,如未发表的报告、工作论文以及数据集等,而这些信息资源对于科研人员了解学科内最新研究进展、激发科研灵感以及拓展科研思路都具有较为重要的价值。因此可以说,学科知识库是对现有商业数据库的有益补充,也是完善的学术交流体系所不能缺少的重要组成部分,科研人员有必要重视学科知识库的价值,有效利用当中的信息资源,尤其是传统学术交流体系中难以获取的资源。

(3)学科领域。资源内容所属的学科领域能在一定程度上反映出学科知识库发展的广度,统计结果表明,现有的学科知识库资源共涉及到29个学科领域,囊括了自然科学、社会科学和人文科学等所有主流学科领域,说明自存储理念在不同的学科领域内得到了有效的普及,各学科的科研人员都可以找到合适的学科知识库公开自己的研究成果,同时免费了解同行的研究进展。在所有的学科知识库中,有70个学科知识库包括历史与考古学(History and Archaeology)领域的学术资源,排名第一,包含地理学(Geography and Regional Studies)、健康与医学(Health and Medicine)的学科知识库数量分列第二、第三。此外,拥有多学科综合(Multidisciplinary)、法律与政治(Law and Politics)、生物学和生物化学(Biology and Biochemistry)等资源的学科知识库也较多。

7 结语

综上所述,学科知识库保持着平稳增长的态势,以Eprints和DSpace为代表的一大批开源软件为学科知识库的发展奠定了良好的技术基础,资源建设也取得了不错的成绩,资源数量较多、资源类型丰富且涉及学科较多。但也还存在着地区发展不平衡、管理政策有待进一步完善等不足。展望未来,需要进一步完善相关管理政策、加强资源质量控制并争取科研人员更多的支持与参与,以保障学科知识库的长期稳定发展。

(来稿时间:2014年11月)

1.周志峰. 基于资源目录网站的机构库分布研究. 图书与情报, 2009(6): 97-103

2.田质兵. 全球开放存取知识库发展现状分析与启示.图书馆建设, 2010(12): 43-47

3.OpenDOAR. [2014-10-01]. http://www.opendoar.org

4.arXiv.org . [2014-10-01]. http://arxiv.org/

5.E-LIS . [2014-10-01]. http://eprints.rclis.org/

6.国家自然科学基金委员会. 国家自然科学基金委员会关于受资助项目科研论文实行开放获取的政策声明. [2014-10-01].http://www.nsfc.gov.cn/publish/portal0/tab38/info44471.htm

7.Eprints. [2014-10-01]. http://www.eprints.org/software/

8.王媛. 基于DSpace系统的数字图书馆体系结构研究.图书馆工作与研究, 2011(5): 51-53

猜你喜欢
知识库数量学科
【学科新书导览】
芳芳猜童话书的数量
土木工程学科简介
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
统一数量再比较
“超学科”来啦
高速公路信息系统维护知识库的建立和应用
头发的数量
论新形势下统一战线学学科在统战工作实践中的创新
基于Drupal发布学者知识库关联数据的研究