中外学术图书馆公共域文献资源合作存储与开放利用研究

2024-03-04 11:04郑雅鑫盛兴军
图书馆学刊 2024年1期
关键词:版权保护学术利用

郑雅鑫 盛兴军

(1.滨州医学院图书馆,山东 烟台 264003;2.上海大学图书馆,上海 200444)

作为开放获取、免费平等使用的公共文化资源,公共域文献是人类共有、共享的知识财富。20世纪以来,国内外对版权的过度保护、商业资本对公共域文献资源加剧的逆向侵蚀,严重影响了公共域文献资源的开放获取和开发利用,基于此,学者们纷纷反思传统版权制度利弊、聚焦公共域文献开发利用研究。较早的如1982年Lange提出知识产权公共域正在被侵犯的观点,突出强调公共域文献作为人类知识再造原动力的功能和对于公众文化继承物的作用与价值[1]。2005年,美国学者Litman同样提请学界密切关注由“版权战争”带来的公共域文献“损失、破坏和两极化发展”[2]。在我国,梅慎实早在1990年即提出“作品的著作权消灭之后,有的作品便进入公共领域,不再属于任何个人、法人或国家,任何人均可无偿使用”[3]。之后,学者李雨峰、冯晓青更是从概念和原理出发,分别对著作权公共领域的基本性质进行了专题研究,突出强调开展公共领域研究的必要性和正当性[4-5]。

数字信息时代,作为科研创新、信息知识开放获取主要阵地的学术图书馆,在公共域文献资源免费获取与开发利用方面具有不可替代的责任。因此,早在21世纪初期,美国部分学术图书馆即开展了关于公共域文献合作保存与利用的尝试,如康奈尔大学自2006年起便与微软公司合作,数字化现有公共域图书并提供Live Book Search服务供公众使用[6]。2008年,美国高校学术联盟“机构合作委员会”发起了HathiTrust项目,公共域文献资源的总量超总文献量的三分之一。同样,早在2000年,我国在实施“中美百万册图书计划”(后为CADAL联盟一部分)时,就特别强调公共域文献资源收集、整理、存储和开放利用的研究。

基于此,笔者以HathiTrust和“大学数字图书馆国际合作计划”(CADAL)两大公共域文献资源存储联盟为个案,通过比较分析,探寻数字时代学术图书馆公共域文献资源存储和开放利用的有效途径,为公共域文献资源开放共享、平等获取等方面的研究提供借鉴。

1 公共域文献资源合作存储与开放获取利用的意义

1.1 概念解析

1.1.1 公共域与公共域文献

公共域,即公共领域,最早源于政治学和社会学概念,作为版权制度和著作权法术语,与文献资源密不可分,在19世纪法国《伯尼尔公约》[7]中被首次使用,最初指代版权保护期届满的各种作品,在后续的发展中,其范围不断扩大,增加有关“版权不予保护的作品”“版权作品中不受保护的内容,如思想、方法、系统等”[4]及其他资源类型。进入21世纪后,数字技术发展使得公共域文献的概念延伸到虚拟存储与开放获取等诸多方面。

目前,图书馆的公共域文献资源主要包括以下4种类型:一是版权不予保护的文献资源及内容;二是版权保护期届满的文献资源;三是经作者本人许可,供公众免费利用和传播的文献资源;四是特殊情形下可合理使用版权的作品。

1.1.2 公共域背景下的开放获取

开放获取与公共域文献资源在免费使用和平等共享等方面具有相似性,但二者也存在差异(见表1)。

表1 公共域文献与开放获取文献比较

无论是从文献类型、版权保护状态还是文献内容上,公共域文献的范围都更广。究其根本,公共领域是基于文献资源或思想的一种版权状态而非使用状态,公共域文献无疑是开放获取的重要文献来源之一,而开放获取则是公共域文献资源最期望达到的使用状态。

1.2 公共域文献资源合作存储与开放利用的意义

公共领域本身代表着维护所有人公共利益的契约精神,其文献资源的规模数量、传播利用水平及其开放度、共享程度,很大程度上影响着人类社会的知识创新活力乃至社会发展进程。公共域文献合作存储与开放利用既顺应了数字时代信息传播利用的要求,又有利于学术图书馆的发展和其本身价值的挖掘和利用。

在数字时代,新兴信息技术的发展使得公共域文献资源呈几何级数增长,仅凭单一类型的信息机构难以使公共域文献资源得到最大程度地利用,更不能为用户提供最好的服务体验。合作存储和开放利用是集多方之力解决发展矛盾、扩宽信息广度、深化服务内容的首要途径。同时,学术图书馆自身的知识领航员性质,使其能够充分发挥公共域资源作为人类知识文明基底的作用,建构完整学科发展脉络,指引学者高效完成跨学科研究,发挥资源二次利用价值。同样,对于学术图书馆本身,公共域文献是其必不可少的资源构成之一,此举也可合理改善其资源结构,减少版权纠纷,提高资源开放性。因此,公共域文献资源是学术图书馆不可或缺的重要组成部分,学术图书馆的合作存储与开放利用则是公共域文献资源发展的最佳之路。

2 国内外学术图书馆公共域文献资源合作存储与利用

笔者运用文献研究与网络调查法,选取启动时间相近、合作地域范围同级、公共域文献资源占比均达到35%以上的两个代表性学术图书馆数字资源合作存储与利用项目为研究对象,分别是美国的开放储存项目HathiTrust和国内项目CADAL,拟从公共域文献资源来源、文献资源版权属性界定、公共域文献资源利用方式对二者进行深入分析。

2.1 HathiTrust项目公共域文献资源储存与开放获取利用

HathiTrust项目是2008年由美国高校学术研究型图书馆联合发起,为应对Google Book Search项目引起的商业机构对学术信息资源的垄断而建立的非盈利性数字资源合作机构。至2021年底,HathiTrust可供用户访问的公共领域资源达到近七百万卷,占总数的39%[9]。

2.1.1 HathiTrust项目公共域文献资源来源

HathiTrust中公共域文献资源主要由其数字图书馆项目、CRMS(版权审查管理系统)项目、联邦文件计划三大部分构成。

目前,由HathiTrust项目所组成的“数字图书馆”已经发展成为一个数字仓储库和可供访问的、功能强大的虚拟平台,其公共域资源主要来源于Google、Internet Archive、Microsoft合作项目以及其内部成员机构,种类繁多、综合性强[10]。

CRMS项目及联邦文件计划则是具有极强针对性的专题项目,文献类型专指度高,所属领域相对集中,主要包括对已藏文献资源进行版权大规模分布式调查后所形成的资源集合以及针对公共域文献资源专题所开展的采集、审查项目[11],分为1923—1963年的美国专著、出版日期项目、Common Wealth Crown版权所有政府作品、美国州和地方政府文件4个部分。除此之外,HathiTrust项目还扩大了联邦文件计划并加强对包括GPO(国家印刷局)和其他联邦机构发行出版物在内的美国联邦出版物的数字访问,旨在与政府出版机构合作建立一个全面的联邦文件数字馆藏[12]。这些合作计划都在一定程度上弥补了HathiTrust公共域文献资源的种类,增加了大量公共域文献资源,更好地利用了项目本身的能力来挖掘公共域文献资源。

2.1.2 HathiTrust项目文献资源版权属性界定

相较于Google Book Search计划初始采取先使用后界定的版权管理方式,为明确馆藏中公共域文献资源的概念、类型与范围,有针对性地对公共域文献资源进行采集和利用,HathiTrust采取了主动标引的方式,实行严格的版权管理制度,其中包括CRMS和版权数据库。两种方式的具体工作内容有所关联,详见图1。

图1 Hathitrust项目版权信息管理

CRMS对HathiTrust项目收藏中作品的版权状态进行大规模分布式调查,而版权元数据信息则由单独的版权数据库进行界定标引,与书目数据库相连,共同组成每卷资源的元数据信息,其中既包含版权属性信息,也包含确定版权属性的原因代码。HathiTrust项目根据这两类信息决定该文献资源版权元数据信息的优先级(1~5级)[13],并在更新中根据优先级数,由优先级高的版权元数据信息覆盖低的版权元数据信息,保证了Hathitrust所藏文献资源版权信息的准确度、清晰度和时效性。通过以上的两种方式,Hathitrust对所藏文献资源的版权进行严格的界定和管理,有效规避了版权问题的纠纷,极大程度上方便了公共域文献资源的明确划分和使用。

2.1.3 公共域文献资源的利用方式

(1)一站式检索,专题式访问

HathiTrust将已搜集的公共域文献资源作为数字图书馆资源重要的一部分为用户提供开放获取服务,访问者既可以通过主页一站式检索平台进行全文检索,也可以通过访问“collection”版块,按已建成的项目进行分组访问。其中一站式检索平台由HathiTrust项目在2011年与OCLC合作建立,在平台主页上即可实现跨库一站式检索[14]。检索方式分为“全文检索”和“目录检索”,“目录检索”中可按类型(领域)、题名、作者、主题、ISBN/ISSN、标题等选项[15]设定检索范围。在“检索结果”中可使用“项目可见度”“出版日期”等功能筛选出可全视图浏览的公共域文献资源。

此外,HathiTrust还以项目主题形式对资源进行分类,供用户浏览。通过访问主页上的“collection”[16],用户就可轻松访问HathiTrust项目中的公共域专题项目文献数据集,并可通过检索框检索各种项目数据集的名字。

(2)分享数据集,提供分析工具

为进一步增加资源的灵活度和可用性,提供研究工具和数据挖掘服务,HathiTrust与印第安纳大学和伊利诺伊大学联合成立了研究中心(HTRC)[17],其包括算法、Data Capsules(数据胶囊)、工具集、数据集4个模块[18]。其中,数据集模块为用户提供所藏文献资源的描述性信息及研究人员合作开发的数据集,包括公共域资源的所有题录信息及版权保护期内资源的特征信息,供用户进行非消耗性分析——即研究人员在不直接阅读原文本的基础上进行分析[19]。工具集模块为用户提供信息分析服务,在下载数据集后,用户可通过工具集创建所需的数据集合,并通过HTRC的算法模块,利用基于网络运行工具,对其中内容进行计算文本分析。而Data Capsules模块,则为研究人员提供了单独的、安全的线上计算环境,研究人员可在HTRC平台上创建虚拟机(Capsule)并导入分析HathiTrust内的文本数据,为保护版权内资源合法权益,计算后结果需经过HathiTrust的审查方可导出[20]。

HathiTrust通过这些措施,扩展了公共域文献资源范围,增加了其有序性和二次利用的可能性,并创意性地通过非消耗性分析等方式不断探索在不侵害原有利益情况下合理使用版权保护作品的策略。

2.2 我国“大学数字图书馆国际合作计划”(CADAL)

CADAL源于“中美百万册图书计划”,是在信息技术发展的背景下由中美两国计算机科学家共同发起的一项国际合作计划[21],该计划致力于满足学术图书馆数字资源建设与共享的需求,并以此为目标对各学校和合作方的公共领域信息资源进行汇集和利用,在250万册CADAL数字资源中,除60万尚在版权保护期内,剩余均为公共域文献信息资源[22]。

2.2.1 CADAL项目公共域文献资源来源

CADAL的公共域文献资源主要来源于国内外研究型大学图书馆的馆藏,其合作建设机构包括国内外高校、出版社、媒体单位等。同时,CADAL建设有“南北数字图书馆技术中心”、40所高校数字资源加工中心,并与美国互联网档案馆(Internet Archive)合作,共同研究符合国际主流的标准体系以辅助文献资源的收集和数字化处理[23]。笔者从文献语种和文献类别两个视角展示对比CADAL内公共域文献资源的内容(见表2)。

表2 CADAL公共域文献资源组成

CADAL公共领域资源集中了具有学术价值、版权保护期届满或不受版权保护的文献资源。值得注意的是,随着国内外论文数据库和各高校内部机构知识库的快速发展和不断完善,目前CADAL将资源建设的主要精力集中在与各合作机构共建共享特藏文献专题数据库项目上[23]。

2.2.2 文献资源版权属性界定

在最初资源建设时,CADAL主要集中建设版权明晰且经济利益相对较低的学术性文献,原则上不对文学作品或新出版的图书进行数字化,以此来降低版权纠纷风险[25]。至资源利用时,CADAL主要通过数字版权保护技术(Digital Rights Management,简称DRM)实施版权管理,如根据IP、edu邮箱,对资源的访问进行严格限制,并在此基础上开展文献资源的“受控数字借阅”,限制电子资源借阅副本数量,保证在不侵权的基础上合理利用资源[23],最后在主页提供版权问题的申诉渠道[26]。

CADAL版权管理贯穿文献从建设到利用的全过程,发挥技术效能和版权管理的主动性,明晰版权状态,避免复制等侵权行为,并在此基础上开展受控数字借阅,以确保推动版权内文献资源利用最大化。

2.2.3 CADAL公共域文献资源的利用方式

(1)一站式检索,主题资源展示

CADAL通过总数据库集成为用户提供了公共领域资源的直接访问渠道,并通过展示各种推荐书单[27]和主题特藏数据库[28]为用户获取公共域文献资源提供了多样化的方式。

CADAL门户网站提供一站式检索服务,用户除通过名称、作者、出版时间等进行全文检索外,还可通过选择出版时间、关键词筛选检索结果中版权保护期届满的作品。同时,CADAL设置有主题资源集合,按照载体类型对特藏资源进行专题展示,其中包括民国文献、数字化甲骨、地方志、满铁资料等大量已过版权保护期的文献,以及全球统计数据、政策库等不受版权保护文献的资源信息[28],用户可根据需要分库浏览。这是CADAL为用户提供版权保护期届满、不受版权保护作品的主要方式。

(2)推动资源分析利用,提供知识产品和服务

CADAL还利用公共域文献资源,通过以下两种方式为用户提供知识服务。一种是与中国工程科技知识中心合作,利用知领全球统计数据库(以下简称“知领”)为用户提供知领知识信息服务[29]。作为知识信息平台,知领汇聚了大量不受版权保护的信息资源,包括全球公开的各项统计数据、国家级和省级政策及可公开的全球科研项目信息等。在此基础上,知领为用户提供分析工具,推动资源的二次利用,如“知领全球科研项目库”可根据用户搜索结果从承担机构、承担机构所在国家、资助机构、项目主题、学科领域等不同方面对检索结果进行分析,并提供可选择时间、地域、xy轴信息的自定义分析工具。另外,知领主动对所收集的信息进行整合加工,通过领域服务平台按学科、领域等整合信息资源,为用户开展知识服务。如材料领域设置新材料体系分类、材料专业分类、应用分类等,林业领域则提供动植物资源调查、林业统计、林业机构,同时,在学科专题内设置专业动态、最新信息模块,持续对领域信息进行动态追踪展示。此外,“知领·智库观点”还汇集了全球机构公开的智库报告,可直接为用户提供某一领域的知识产品[29]。另一种则是通过其数字知识服务平台主动开展知识服务。目前,CADAL联合各学术图书馆倡议成立数字知识服务联盟,依托CADAL与合作方所藏的海量文献资源,联盟通过数字知识服务平台开展包括知识检索、知识揭示、知识关联、个性化服务在内的知识型服务[23]。资源不仅包括公共域文献资源,还扩大到版权保护期内的文献资源。通过挖掘其中的隐性知识,在保护版权的基础上共享海量数据。

综上,CADAL通过主动探索和构建合作渠道的方式对公共域资源展开了二次利用,依托知领及数字知识服务平台为用户提供分析工具、数据集和个性化知识服务。同时,CADAL同样积极探索版权保护内资源合理使用的途径,进而扩大公众所能接触的公共域文献资源范围,提高知识生产创新的可能性。

通过对HathiTrust与CADAL公共域文献资源存储与利用的比较分析,可以看到两个项目在版权管理、多方合作、文献二次利用等方面具有诸多共性,而细化到措施上,两大项目之间也存在差别(见表3)。

表3 HathiTrust与CADAL公共域文献资源存储与利用比较

3 公共域文献资源合作存储与开放利用策略

3.1 打破机构限制和地域壁垒,形成多机构资源共建联盟

公共域文献资源具有广泛性和社会性特点,在版权保护之外,仍存在着类型多样、形式复杂、具有独特价值的公共信息。因此,要全面搜集、储存和利用公共域文献资源,必须联合多方力量,形成共建联盟。在两个项目中,除作为主导的学术图书馆外,合作方包括政府机构、出版社、媒体、商业信息机构、情报机构、博物馆、档案馆等部门机构,公共域资源范围由此从图书、期刊等传统纸质类文献扩展到政府文件、统计数据、多媒体资料(视频、音乐、广播、影印资料等)、生活资料(地方志等),极大丰富扩展了其内容。

除跨行业机构合作外,各国因意识形态、政治制度、社会背景、版权保护规定上的差异,严重阻碍了公共域资源共享利用。解决这一问题需要加强国际知识共享协议和版权保护规定的共通性、权威性建设,并根据不同文化、不同国家现状因地制宜地支持公共域文献资源的全域化与全球化,正如HathiTrust在版权战略规划中提及的,要“根据目前版权建设经验,因地制宜进行海外资源的建设”。

3.2 掌握数字化主动权,规避商业机构垄断与限制

大多数公共域文献资源本身不存在财产权归属问题,但在数字化过程中,投入的资金和劳动力会使数字化后的复制品存在产权问题,如果所投入的资金来源于商业机构,就必然会有商业机构通过条款限制公众使用的情况发生[30]。在HathiTrust项目中也曾发现这种问题,根据Google公司的要求,通过OCR制作的公共域文献数字图像不得重新托管、重新分发或用于商业用途[31],其下“Google图书计划”也会因为Google代理地区的限制,产生部分地区无法访问的问题。

因此,为了保证公众公共域文献资源的访问和使用权利,公益性机构如学术图书馆,要从资金、技术上全面支持公共域文献资源数字化,采取设立数字化中心、争取政府专项资金等方式,掌握公共域文献资源数字化开放获取的主动权。

3.3 积极实行主动版权管理,明确资源版权信息

主动版权管理,即在资源建设过程中通过多种方式主动明晰版权状态,做好版权信息的标引工作。在Google图书与HathiTrust建设之初,均受到版权部门的质疑,Google还曾因版权问题与著作权拥有者产生纠纷,最终不得不重新调整版权策略,HathiTrust则有效避免了对版权拥有者利益的损害,并实现了公共域文献资源的合理使用。

可以看到,CADAL与HathiTrust皆在版权方面采取主动管理的形式,建立独立的版权管理信息系统,严格控制不同类型信息的访问,从而减少了版权纠纷,明确了资源的利用范围和利用方式。具体来说,在版权界定时,应明确资源版权状态,主动对资源的版权信息进行周期性更新检查,掌握公共领域资源获取的主动权,保证版权信息的准确性和公共域文献资源开放状态的稳定性;在资源利用时,应积极开发和利用新技术,根据用户信息进行精确管理,开拓如受控数字借阅等用户资源利用新形式,在保证版权不受侵犯的基础上尽可能开拓用户使用的边界。

数字时代,信息类型复杂化和生产传播渠道的变化对图书馆等信息机构版权管理方式提出了新的要求;不断变化的法律政策和更为复杂的资源版权状况也要求信息机构在版权管理时保证时效性和精确性。作为公共领域的捍卫者、消除版权过度保护的重要角色,学术图书馆应化被动为主动,迎战版权所带来的复杂问题,主动进行版权管理,抢占公共领域资源集成和利用的先机,捍卫好用户学习研究的权利。

3.4 积极探寻版权内资源合理化转化,拓展利用范围

公共域文献资源中最难界定的部分当属版权保护作品内思想方法、内容的合理使用,关于其合理使用的讨论迄今仍在持续。这部分信息对于社会而言具有极大的重要性,不仅扩大了公共域文献资源的范围、肯定了学术研究与非商业性研究的特殊性,而且为用户提供了接触版权内信息资源的机遇,增添了公共域文献资源的时效性和创造性价值。因此,在公共域文献资源存储和利用的实践中,应加强对版权信息、思想合理利用方面的探索。具体而言,一是通过与出版商合作,寻求解除对学术图书馆项目中版权内文献资源数字化副本的借阅、复制等行为的限制。二是对版权内信息通过整合重组,挖掘其中可被利用的隐性知识成分,与其他资源一起成为二次创造的知识产品,从而产生新的价值,更好地为研究学习服务。同时,扩展公共域文献资源的二次利用方式,有利于规避公共域文献资源本身具有的数量庞大、类型冗杂、篇幅内容与可用信息不成正比、时效性不强等带来的负面影响,降低用户使用成本,充分发挥公共域文献价值。因此,包括学术图书馆在内的信息机构除了提供公共域文献资源的直接访问方式外,还应充分对入库的公共域文献资源进行提炼和二次开发,通过提供信息分析工具、创新生成知识产品来增加公共域文献信息的价值。

4 结语

随着信息技术的快速发展,公共域文献资源合作存储和开放利用已成为发展的必然趋势,而学术图书馆处于最佳的主导位置。HathiTrust与CADAL项目为学术图书馆进一步开展公共域文献资源的合作存储与开放利用提供了很好的范例。二者都能从学术图书馆实际需求出发,始终坚持促进知识共有共享、创新研究的目标,最大程度契合了公共域文献资源存储和开放利用的价值。同时,为社会公益机构实现打破商业信息机构的知识垄断、维护公共域文献的开放获取、保障公众共有和共享知识权益提供了切实可行的方案。

当然,如何更广泛地打破商业机构壁垒、形成以公益性信息机构为主导、多领域共同参与的公共域文献资源建设体系;如何更加合理地制定版权管理制度;如何更好地推动公共域文献资源全方位、全球性合作存储和开放共享;如何更好地挖掘资源知识创新价值,为用户提供更便捷快速的公共服务等,都是学术图书馆仍需探讨的问题。就我国而言,学术图书馆如何从法律和制度层面不断探索符合国情的公共域文献资源合作存储和开放利用方式,更是值得深入思考的问题。

猜你喜欢
版权保护学术利用
利用min{a,b}的积分表示解决一类绝对值不等式
利用一半进行移多补少
图书出版版权保护的困境与出路思考
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
利用数的分解来思考
Roommate is necessary when far away from home
当前传统媒体版权保护的难点及对策
互联网环境下的音乐版权保护
传统媒体版权保护面临八大难关