我国政府网页归档的问题与策略*

2021-08-04 02:41谢玉雪郑晓丹
山西档案 2021年2期
关键词:网页档案馆资源

谢玉雪 郑晓丹

(中国人民大学信息资源管理学院 北京 100872)

1 引言

自1999年“政府上网工程”启动以来,经过二十多年的发展,我国电子政务已取得突出成就。随着数字政府制度化水平的不断提升,政府官方网站成为便利的信息发布和事务处理平台,民众愈来愈倾向于选择从政府官网了解信息、参与决策,因而,政府网站资源也成为具有丰富档案价值的信息记录。但互联网时代网络信息的便捷性伴随着诸多风险,其更新快、易消逝的特点给政府网站资源的长期保存和开发利用带来挑战。档案部门承担着保存时代记忆、维护历史真实面貌的使命,有责任、有义务参与到政府网页信息资源的存档实践中来。

关于“政府网页存档”,国内外已有一定研究成果。国外方面,克里斯汀·马丁(Kristin E.Martin)和凯莉·尤班克(Kelly Eubank)以北卡罗莱纳州政府网站档案为例,探讨了开发网页档案的过程,包括从网页上收集信息的方法、网页档案中材料的选择过程以及网页存档的技术等;[1]托里·玛奇(Tori Maches)和玛莱娜·克里斯坦森(Marlayna Christensen)概述了网络档案收集工具的创建过程,包括建立机构需求和重视、更广泛地评估网络存档政策和规范,并思考如何可持续利用现有资源。[2]国内方面,权丽桃对政府网络信息资源归档责任主体与适用的采集策略进行深入探讨,并对如何实现网络信息资源增值效益提供了建议;[3]何玉颜以英国政府网页档案馆的实践为例,阐述了其建设概况、技术选择以及提供利用等方面的经验,并提出我国可以借鉴这些经验,结合我国实际情况,推动我国网页归档工作的发展;[4]尹哲指出了当前档案部门开展网页归档存在的问题,并对网页归档工作提出一系列建议,诸如以网页栏目作为确定归档范围和保管期限的依据、根据不同的内容需求选择归档技术、不断争取法律保障等。[5]但是,从现有研究成果可看出,当前我国学者倾向于对国外先进的政府网络归档项目的情况介绍与经验教训的总结、借鉴,对国内相关项目及其建设现状与未来发展进行初步展望,尚没有对政府网页归档的组织机制、建设要素等进行整体规划和细致探析。因此,本文在分析当前我国政府网页归档实践现存问题的基础上,从宏观和微观两个层面提出政府网页归档发展策略建议。

2 我国政府网页归档的现状

自2002年起,我国先后进行了开发政府网页归档实践项目、颁布相关政策标准等实践,这些项目的开展和政策标准的发布,在一定程度上能够反映我国政府网页归档的现状。

2.1 国内网页归档典型项目

第一个项目是“中国Web信息博物馆”(Web Info-Mall),该项目由北京大学于2002年开发建设,是我国最早开展的网页存档实践项目,目前维护的中文网页已达30亿,且其采集速度仍在不断扩大规模[6]。除全面持续地收集网页之外,它还对获得的海量网页进行组织储存,形成历史网页存储系统和回放系统,允许用户通过输入URL浏览历史网页、回放专题网页。[7]

第二个是由国家图书馆牵头启动的“网络信息资源保存”试验项目(Web Information Collection and Preservation,WICP),该项目于2003年开始进行网页资源收集,并于2007年加入国际互联网保存联盟[8]。WICP主要收集静态网页,并根据网站和网页的特点提供镜像存档和专题存档两类功能,镜像存档针对政府网站、电子报刊等资源;专题存档则是以中国重大事件为专题来采集内容,如北京奥运会、非典专题等。该项目在试验过程中,发现网络信息从采集、整合到保存、利用的全过程都面临着技术手段、经济支持、责任体系、法律规范等挑战,针对发现的不足研发相应解决策略。事实上,网络信息存档是一项对人、财、物等资源要求很高的工作,单靠某一机构的力量难以取得理想成果,因此积极与图书馆、档案馆等机构进行合作是较为理想的选择。[9]

但是目前来看,以上两个项目并不成功,并没有实现可持续发展,收割的资源无法提供利用,更没有进行再开发以产生新价值[10]。

2.2 国内政府网页归档政策与标准

随着电子政务的发展,国家愈加重视政府网页存档问题,自2016年以来颁布了一系列相关政策和标准指导政府网页归档工作开展。如表1所示。

表1 我国政府网页归档相关政策与标准

在政策方面,国家层面和档案部门都颁布了相关文件,要求重视政府网页归档。2016年11月中共中央办公厅、国务院办公厅印发的《国家电子文件管理“十三五规划”》要求“推进政府网页及电子邮件、音视频等电子文件归档”。2017年5月国务院办公厅印发的《政府网站发展指引》指出:“网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明‘已归档’和归档时间。”[11]

国家档案局在《全国档案事业发展“十三五”规划纲要》中指出,要研究制定重要网页资源的采集和社交媒体文件的归档管理办法。2018年,宁波市档案局根据国家档案局的决定,与北京市档案局等三家单位一道成为网站网页资源归档试点单位。[12]随后,为做好试点工作,宁波市人民政府办公厅于2018年10月29日印发实施《宁波市政府网站网页归档管理暂行办法》,该办法首次明确规定了政府网站网页归档管理的职责分工,规范了网页资源收集、保管、利用等各环节工作,不仅为实现政府网页资源保管和利用创造有力保障,更促进了政府网站规范建设并进一步拓宽了电子文件管理研究领域。[13]

在标准方面,2017年7月,我国发布了国家标准《信息和文献WARC文件格式》(GB/T33994-2017),主要用于规范以WARC格式保存的网页归档文件。[14]2019年12月16日,国家档案局正式颁布行业标准《政府网站网页归档指南》(DA/T80-2019)[15]。该标准共分为9章,明确了网页资源的归档范围和保管期限,规定了各业务环节的具体要求以及网页归档功能模块设计等。2020年12月14日,由宁波市档案局牵头制定的推荐性国家标准《OFD在政府网站网页归档中的应用指南》(GB/T 39677-2020)正式发布,计划于2021年7月1日起正式实施。该标准对政府网站网页元素、OFD文件转化范围及规则进行了明确规定,为政府网站主管部门开展网页归档提供了科学指南,并为政府网站网页归档工作建立了新的规范。[16]

以上这些政策与标准的出台在一定程度上推动了我国政府网页归档工作的发展。

3 我国政府网页归档面临的问题

尽管上述两个网页存档项目为我国政府网页存档提供了一些实践经验,而且在国家档案局等部门的推动下政府网页存档项目也开始在部分地区进行试点,但我国政府网页存档实践仍面临很多问题。

3.1 宏观层面

3.1.1 缺乏统一的领导主体

目前我国政府网页归档仍处在起步阶段,多数归档项目规模较小,且多由档案行政部门对本机构的网页信息进行抓取后进行自我管理,缺乏统一的领导机构。《政府网站网页归档指南》(DA/T80-2019)要求网站主办单位对网页信息从生成、发布到归档的全过程进行管理,实现完整归档并确保信息可靠,而档案部门在政府网页归档工作中承担监督指导的责任,应制定相关的规章制度以规范工作开展,明确网页归档功能模块需求以指导系统设计,还需及时接收网页档案并保障其安全。反观国外,政府网页存档项目主要由图书馆与档案馆主导。如英国国家档案馆(The National Archives,TNA)、美国的加利福尼亚图书馆、加拿大图书档案馆(Library and Archives Canada,LAC)等开展的政府网页存档项目,不仅保证了项目推进效率,而且作为第三方机构捕获政府机构的网络信息资源也充分发挥了社会记忆保存机构的优势,承担了公共文化服务部门应尽的职责。

3.1.2 缺乏完善的法规体系

网页归档工作的开展,需要严格遵守法律法规,尊重及维护网页涉及的知识产权和其他合法权益,我国目前此方面的法律法规尚处于空白状态。英美加等国均通过《图书馆与档案馆法案》《出版物合法处置规范》等法律,获得采集政务网页资源的授权,使政府网页归档项目有法可依,我国《档案法》《著作权法》中对此没有明确的规定,使档案馆等归档主体缺乏动力。另外,具体到归档操作指南,尽管我国目前出台的政策性文件对政府网页归档的责任主体、归档范围、保管期限以及收集、整理移交的过程进行了梳理和规范,但对归档方式、采集策略、归档技术、工具等具体问题并未给出详细建议,还应进一步完善。

3.1.3 缺乏灵活的合作机制

缺乏灵活的合作机制导致归档行为影响范围较小、规范性较差。组织层面,目前我国政府网页存档项目仍在试点阶段,规模较小,仅局限于某一个机构,无法实现各政府部门间的信息整合,不利于信息共享,降低了网页信息存档的价值。另外,目前我国政府网页存档项目关注点仍在“收”的阶段,对网络资源的整理与开发利用方面仍涉及较少或层次较浅,未能够结合公众的利用需求进行政府网页的收集、整理和开发利用。技术层面,目前已有项目并未与相关信息部门、技术部门等建立广泛的、密切的合作,选择的归档方式和技术往往存在较大的随意性,如虽然采标《信息与文档-warc格式》(ISO28500:2009)发布的《信息和文献 WARC文件格式》(GB/T 33994-2017)引入了网页归档WARC格式,为网页归档提供了一定参考,但我国在网络存档、长期保存方面缺乏对WARC格式成规模的研究和实践[17],未能解决该格式在我国网络资源环境下存在的局限性问题,不利于政府网页的便捷利用与长久保存,需加以调整和完善。

3.2 微观层面

3.2.1 归档范围和保管期限不明确

中国Web博物馆项目和WICP等项目对资源的采集并未根据一定的研究需求进行筛选,而是对网页进行全面收集,且目前各级档案部门对应纳入归档范围的网页没有明确规定,对保管期限更是未做清晰界定。事实上,部分政务网站网页并不具备长期保存价值。因此网页资源归档范围和保管期限应视其内容的价值水平而定,倘若一味保存则可能造成网页数据的冗余,导致大量低价值甚至是无价值的网页数据占据存储空间。

3.2.2 归档技术和标准不完备

网页信息采集主要针对静态或动态网页及其中文件,随后提取网页内的全部信息。静态网页与动态网页的抓取难度也不相同,静态网页的抓取从技术上较易实现,只需按时间频率定期进行即可;而动态网页的捕获则无法单纯依靠抓取软件实现,且以目前的技术条件无法实现安全存储。此外,随着网页技术不断发展,网页文件类型和格式不断更新。除了传统的HTML格式文件以外,Java文件、Ac-tiveX文件、Jpg图片文件等新型格式的网页文件也层出不穷,但目前尚未有明确标准规范来指导这些文件归档。[18]

3.2.3 归档所需成本与效益不对称

政府网页归档工作是一项对资金投入要求高、开展周期长的工程,需要雄厚且稳定的财力支持才能取得成果。国外的网页归档项目能够成功开展的重要原因之一就是拥有可靠且多元的资金支持,如美国“LCWA项目的资金来自于政府的‘国家数字信息基础设施及保存计划’,哥伦比亚大学图书馆的网络信息采集项目则是在安德鲁·W·梅隆基金会(Andrew W.Mellon Foundation)的资助下进行的”[19]。而我国WICP项目的经费来源仅是国家图书馆馆内预算,在图书馆本身的财政压力就比较大的情况下,网页信息存档项目难以获得强而有力的资金支持。[20]

此外,政府网页信息存档工作投入大但回报周期较长,存在成本与效益的矛盾,因而商业机构往往不愿意资助,此类项目资金主要依赖政府财政。

4 我国政府网页归档策略

针对目前我国政府网页存档面临的主要问题,本文根据谁来做、怎样做、怎样做好的思路,宏观上从确定档案馆的领导主体地位、完善相关法律、细化操作指南、加强对外合作交流等方面,微观上从根据网页特点确定归档范围及其保管期限、采取适当的归档技术以及降低成本等方面提出具体的应对策略。

4.1 宏观层面

4.1.1 确定档案馆的主导地位

档案馆在政府网页归档工作中的主导地位是由网页文件的档案属性以及档案馆职责两方面决定的。

网页具有档案属性,具体而言具有原始性和历史性,这就决定了网页的保存应划入数字档案馆归档范围。一方面,从原始性来看,随着越来越多的机构通过网页来发布信息、开展工作和提供服务,网页文件是机构职能履行过程原始记录;另一方面,从历史性来看,网页记载的信息与其他类型的信息一道构成完整的社会记忆,网页以图文结合、音视频结合等丰富形式呈现今天人们的生活方式和状态,为后人提供了了解历史的全新入口。同时,网页中包含了丰富的人类文化成果,由各类政府机构发布的信息报告,由成千上万的网民创作的博客文章、网络文学、网络音乐等等,能够全面、多维、立体地呈现今天的社会文化图景。[21]

档案馆是国家档案资源的集中保管场所、档案事业的专门管理机构以及科学文化机构,具有保存档案、传承历史的职责。第一,档案馆是集中统一保管档案的中心,政府网页经过采集和归档之后即成为网页档案,理应交由档案馆集中统一保管。第二,档案馆作为管理档案并提供利用的专门机构,从实践角度,已然积累了大量开展档案业务工作的经验和方法;从理论角度,档案工作自身完备的理论体系和研究经验也能为网页归档项目的发展所借鉴。第三,档案馆的重要职责之一就是“为党管档”,长期以来与党和政府保持着良好的交流与协助关系,因而由档案馆主导政府网页归档工作能够较为方便地取得政府机构的信任和支持,保证项目高效推进。[22]

此外,国外由档案馆主导的政府网页归档项目的成功,也为档案馆确立在这项工作中的主导地位提供了实践支持。英国政府网站档案馆(UKGWA)与加拿大网页档案馆(GCWA)是较为成熟的、有代表性的政府网页归档项目。UKGWA项目由TNA于2003年9月创建,尽管由于数据量的不断增加,该项目的网页收集与开发模式由2016年之前的TNA自主管理模式转变为合作共建模式,但TNA始终在该项目中发挥着主导作用。[23]2004年4月22加拿大国家图书档案馆法案颁布,该法案授予LAC采集网页资源的权利。基于法律的保障,LAC的电子资源采集项目成为加拿大的电子资源呈缴项目。[24]

值得注意的是,当前,大数据已成为国家基础性战略资源,全国各地先后成立了数据管理部门专门开展大数据收集和研究。因此,需明确长期以来承担政务信息管理职责的传统档案部门与这些新兴的数据管理部门各自的职能定位及两者之间的职能关系,并积极创造机会加强协作,集二者之长,以求实现效益最大化。为此,应建立适宜的沟通协商机制,不断提高档案部门与大数据管理部门的交流和沟通效率,从而加强职责分工和工作协同。[25]

4.1.2 完善法规制度、细化标准指南

法律层面,政府网页归档工作开展需要面临出版和知识产权等相关法律问题。一方面,政务网站主管部门、档案部门、法律部门应合作并为政府网络信息资源归档保存争取相关的法律法规支持,此外,也应积极探索标准文件、格式兼容以及资源共享等方面的沟通与协作,寻求全方位的法律支撑和规范保障。另一方面,档案部门在开展网页归档工作中还会面临信息侵权等法律问题,因此需要档案部门主动与网站主管部门沟通,双方就网站、网页归档授权达成明确合作协议,尽可能规避法律风险,保障双方权益。

在法规制度与标准指南层面,应加强对政府网页归档的引导,目前已有国家图书馆制定的《国家图书馆数字资源保存管理暂行条例》《长期保存数字资源保存工作流程》等规范,国家档案局也颁布了《政府网站网页归档指南》(DA/T 80-2019),为推动政府网页归档有序发展,应在此基础上对政府网页采集、归档、整理、利用的全过程做出详细的指导。如采集方式可依照依据形成者、内容主题、用户需求等原则确定;保管期限根据内容重要程度区分为归档级、服务级、镜像级和链接级[26]。为了实现方便公众利用的目的,网页归档项目应注重网站建设,以直观、简明的方式向用户展示项目资源、引导用户进行检索。

4.1.3 促进交流、加强合作

政府网页归档是一个系统工程,涉及采集、整理、开发利用、提供服务等多个环节和法律、政策、技术等多方面因素,具有复杂性高、投入大、建设周期长的特点。因此需要建立灵活的合作机制,促进档案部门与图书馆、研究机构等政府网页归档参与主体之间的合作,积极推进第三方组织、志愿者的参与。

此外,还应积极参与国际会议、加强与国外网页归档较为成熟的责任主体之间的合作交流,借鉴其成功经验。如在保存系统与存档技术层面,澳大利亚早先开发了面向主题的 PANDAS信息采集系统,该系统通过识别和选择项目采集指南中明确规定的主题分类来完成信息采集;在网络信息采集的工具选择方面,现广泛使用的网页爬虫软件Heritrix,是 IA 项目与北欧五国国家图书馆(冰岛、芬兰、瑞典、挪威、丹麦)联合开发的产物[27];对于网络信息使用者和生产者的收集工作亦可借鉴英国国家档案馆经验采用基于云的信息上传归档功能。

4.2 微观层面

4.2.1 根据网页栏目特点明确归档范围和保管期限

作为政府工作的重要辅助平台,我国政府网站通常设计不同栏目承担不同工作,不同栏目形成的信息重要性并不相同,因此,可以根据政府网站栏目类别明确归档范围和保管期限。政府网站栏目大致可分为政府信息公开类、在线办事类、公众参与类三类:首先,政府信息公开类栏目主要是向公众发布信息,一部分是政府工作年报或规划、法规文件等,另一部分则是动态信息和通知公告等,前者内容重要且相对稳定,后者更新速度快、时效性较强。第二,在线办事类栏目中提供的虚拟服务大厅,具有一定的时效性,而网上审批、网上办事等业务则会涉及单位和个人信息。第三,公众参与类栏目即就相关热点事件或工作安排征询公众意见,具有一定的时效性。上述栏目信息稳定性较强的、涉及公民信息安全的,应长期保存,而时效性较强的则只需保存一段时间即可。[28]政府网站栏目类别及其内容特点与归档保管期限如表2所示:

表2 政府网站栏目类别及其内容特点与归档保管期限

4.2.2 采取适当的网页归档技术

目前主流的网页归档技术包括推送和拉取两种模式,两种模式的采集主体不同,适用不同的网页收集情况和要求。推送模式由政府或者第三方机构主动将网站信息主动呈缴或捐赠到保存机构,这种主动的方式有助于深层网页和数据库资源等采集难度较大的资源也能够安全、便捷地转移到保存机构。拉取模式则是由保存机构使用特定软件工具,将网站信息资源采集、下载并保存在本地服务器中。采集方法又可进一步划分为四类:一是广泛式采集,即采用收割软件自动采集国家域名范围内或整个因特网的网页及其他在线资源,能够实现大范围、全面、快速采集,但采集质量和时间难以把控;二是选择性采集,即根据资源主题、内容、价值等要素有选择地采集部分网络空间或特定资源,经过选择收集的资源内容质量相对较高,但目前以人工甄选为主,工作量较大且判断会受个人主观因素影响;三是专题性采集,一般针对具体的专题或事件进行采集;四是复合式采集,[29]即综合利用以上多种采集方法,实现优势互补,能够在一定程度上同时满足广度与深度的要求。因此,上述采集方式适用于不同的主体及其各异的资源收集需求,对资源广度要求较高的采集活动可以选择广泛式采集;有特定工作开展或研究需求的主体通常需要在某一领域深度挖掘信息,因此可以在实施选择性采集或专题采集;复合式采集则适用于掌握一定经济实力、技术基础较好的大型组织机构,实施广度采集的同时,选择重点领域或重要事件进行深度采集,实现资源采集全面性与深入性相结合。[30]四种采集方法的特点及适用情况如表3所示:

表3 主要网页资源采集方法

4.2.3 降低成本、提高效率

针对政府网页归档工作所面临的成本高昂、收益迟缓等问题,可以从以下两方面入手,降低成本、提高效率。一是对政府网站信息存档的组织、领导体制机制进行科学设计,并不断探索和完善,以科学规划指导体制建设,各主体之间分工协作,以明确的责任强化各项工作实施,并注重沟通及时、畅通,避免重复存档,节约人力、物力、财力等。[31]如2003年7月成立的国际互联网保存联盟(International Internet Preservation Consortium, IIPC)通过软件共享的方式为各项目提供技术支持,IIPC网站提供网页归档工具、开源软件的免费下载,各国可以根据实情修改软件源代码适用本国需求。IIPC也资助成员国进行软件开发,成员共享,有效节省人力、物力。[32]二是积极吸收广大公众的力量,推动政府网页归档工作更加开放、更具活力。虽然档案馆在政府网页归档工作中有着天然的优势,但由于我国各级综合档案馆人力、物力、资金、技术等条件的限制,难以应对政府网页归档工作所需的复杂技术、专业标准、严格规范等要求。因此,一些地方可探索政府网站信息存档工作公众参与途径,政府网页归档外包服务就是良好的方式,可以根据地方情况由浅入深,不断提高水平和质量。首先,在项目规划设计阶段,应广泛收集各方意见,明确采集内容和范围、采集技术、用户需求等信息;其次,项目正式运行阶段,可在网站开辟用户参与板块,发布项目运行相关信息以供用户掌握,并允许用户在技术改进、内容选择等方面发表建议;最后,待项目发展取得一定经验后,鼓励第三方组织、个人等成为归档主体,以独立或者合作形式自主开展存档实践,不断提高归档水平、优化服务,满足社会多元化信息需求。[33]

5 结语

在互联网技术的进一步发展,政府透明度不断扩大以及公民对政府信息的知情和参与意识不断提升的背景下,政府通过互联网发布信息、办理业务或是与公民互动的程度也将不断提高,必将产生大量档案信息。因此,有必要通过借鉴国外相关成功案例以及国内已有的实践,不断提高我国政府网页归档实践的规范发展,推动政府网页归档走向成熟。

猜你喜欢
网页档案馆资源
关于智慧档案馆与数字档案馆的关系探讨
我给资源分分类
资源回收
做好绿色资源保护和开发
基于HTML5静态网页设计
搜索引擎怎样对网页排序
激活村庄内部治理资源
when与while档案馆
北京市第三届“档案馆日”活动预告
科隆档案馆突然坍塌