我国政府网页归档进展研究

2020-08-06 08:29郑鹿鸣
兰台世界 2020年7期
关键词:进展中国政府

郑鹿鸣

摘 要 我国政府网页归档在法规政策、标准规范、实践项目、归档策略、归档技术等方面都取得了一定进展。其中归档策略主要包括归档模式、归档范围、归档时间和元数据方案。归档技术主要涉及分类整理、归档系统和存储格式。未来我国政府网页归档的发展需要确立政府网页归档的馆藏思想,加速政府网页归档的法规支持,出台政府网页归档的指导策略,打造政府网页归档的生态系统,探索政府网页归档的关键技术,推进归档政府网页的开发利用。

关键词 政府 网页归档 进展 中国

Abstract Government web page archiving in China has made some progress in laws and policies, standards and specifications, practical projects, archiving strategies, and archiving technologies. The archiving strategies mainly include archiving mode, archiving scope, archiving time and metadata scheme. Archiving technologies mainly involve sorting, archiving systems and storage formats. In the future, the development of government web page archiving in our country needs to establish the collection ideas, accelerate the regulation support, introduce guiding strategies, build an ecosystem, explore key technologies, and promote development and utilization of government web page archiving.

Keyword government; web page archiving; progress; China

一、我國政府网页归档的实践进展

1.法规政策进展。随着政府上网、电子政务以及政务信息化的推进,政府网页归档问题日益受到重视。在我国法规体系中,已经开始有法规政策涉及政府网页归档问题。在法律层面,2012年修订的《中华人民共和国刑事诉讼法》和《中华人民共和国民事诉讼法》都将“电子数据”单独列为一种证据形式。在行政法规层面,最高人民法院关于适用《中华人民共和国民事诉讼法》的解释中,指出电子数据包括通过博客、微博客、域名等形成或存储在电子介质中的信息,意即电子数据包括社交媒体和网页信息。最高人民法院关于适用《中华人民共和国刑事诉讼法》的解释也罗列了博客、微博客、域名等为电子数据。在规范性文件层面,2016年4月,国家档案局印发《全国档案事业发展“十三五”规划纲要》(档发〔2016〕4号)将“研究制定重要网页资源的采集和社交媒体文件的归档管理办法”作为提升电子档案管理水平的任务之一。2016年11月,中共中央办公厅、国务院办公厅印发《国家电子文件管理“十三五”规划》(厅字〔2016〕37号),要求“推进政府网页及电子邮件、音视频等电子文件归档”。2017年5月,国务院办公厅印发《政府网站发展指引》(国办发〔2017〕47号)明确了政府网站网页归档的含义、时机和要求。文件指出:“网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明‘已归档和归档时间。”

2.标准规范进展。2017年7月,国家标准GB/T 33994-2017《信息和文献WARC文件格式》发布。该标准是对ISO 28500:2009的等同采标,主要用于规范WARC文件格式,而WARC格式是网页归档的主要保存格式之一。2019年,国家档案局发布档案行业标准DA/T 80-2019《政府网站网页归档指南》。该标准规定了政府网站网页归档的总则,网页的归档范围和网页档案的保管期限,网页归档的收集、整理、移交接收和网页归档功能模块建设的一般方法。它适用于各级人民政府及其部门、派出机构和承担公共服务职能的事业单位在互联网上开办的政府网站的网页归档,用于指导国家机关及其档案部门规范开展网页归档工作,促进实现网页信息的有序归档和长期保存。

3.实践项目进展。我国网页归档项目的开展始于21世纪初。2002年1月,北京大学网络实验室在国家973和985项目支持下,建设了名为“中国Web信息博物馆”的中国网页历史信息存储与展示系统。2003年初,国家图书馆启动“网络信息资源采集与保存试验项目”(Web Information Collection and Preservation,简称WICP),探索网页保存的解决方案。这两个项目保存的网页并不限于政府网页,而是各类中文网页。项目成效被认为“并不成功,并没有实现可持续发展,收割的资源无法提供利用,资源也没有再开发产生新价值”[1],所存网络信息难以具备档案的凭证价值。

在上述两个项目之后,关于网页归档的实践探索主要集中在档案领域。2014年11月,时任国家档案局局长杨冬权表示,将尽快启动为各级国家政府网站网页存档工作。将中央、省、市、县各级国家政府网站,以及各国有企业、中央企业等网站网页保存好、记录好[2]。2015年,河南省郑州市档案局(馆)主动对政府网页归档工作进行试点。在确定网站归档范围和存档网页保存格式、研究网站归档保存方案和保存技术等方面进行了有益的探索[3]。

进入“十三五”后,在《全国档案事业发展“十三五”规划纲要》的指导下,国家档案局开始组织开展网页归档的研究和试点工作。2018年,国家档案局发布《国家档案局办公室关于确定网站网页资源归档试点单位的通知》(档办函〔2018〕45号),确定北京市档案局、宁波市档案局、自然资源部信息中心、国家电网江苏电力公司四家单位开展网站网页归档试点。

北京市档案局主要是研究推进北京市档案信息网的网页归档。该试点确定了归档模式,设计了归档流程,明确了归档范围,开发了归档系统,根据预先设定的策略将北京市档案信息网的网页归档到北京数字档案室管理系统中进行集中统一管理。

宁波市档案局出台了《宁波市政府网站网页归档管理暂行办法》,制定了宁波市网站网页归档工作方案,研发了归档管理系统,在宁波市范围内具体实践了网页归档工作。2018年12月9日,宁波市档案局的“网站网页归档试点”通过国家档案局的验收。

2020年初,浙江省档案馆采集抗“疫”网页档案是网页归档项目的最新实践。在新冠肺炎疫情防控工作中,浙江省档案馆认为“各级政府门户网站上产生的疫情网页信息形成速度快、种类多、价值高”,因而開展了抗“疫”网页专题档案的采集工作。该馆制定了《浙江省档案馆2020年新冠肺炎疫情防控专题网页档案收集与归档工作方案》,对指定网站自2020年1月新冠肺炎疫情发生之后发布的有关各地疫情防控工作开展的通知、公告、通报、新闻报道等内容进行采集。截至2月19日,采集视频文件总时长3316分钟,图片文件2826张,静态网页11528页,数据量达51GB[4]。

上述实践项目已经在我国档案界燃起了网页归档的星星之火,必将带动各级各类档案馆政府网页归档工作的快速发展。

4.归档策略进展。

(1)归档模式。站在档案机构角度看,政府网页归档模式有主动收集和被动收集两种。主动收集是指档案机构远程启动爬虫程序收集政府网页,前文英、美、加国家档案馆政府网页归档都采用此种模式。该模式集约统一,但技术受限,有些网页信息无法收集。被动收集是指档案机构等待网页形成机构移交网页档案。该模式收集信息齐全,对网页形成机构要求较高。

北京市档案信息网的网页归档结合了两种模式。对存量网页主动收集,对增量网页被动收集。主动收集是依托北京数字档案室管理系统的归档功能模块,下达网页采集任务,通过爬虫程序将指定的网页下载到本地,并根据关键字提取元数据信息,对网页文件的内容创建全文索引。被动收集是依托北京市档案信息网网管理后台开发的归档功能模块将网页推送给北京数字档案室管理系统[5]。

(2)归档范围与归档时间。归档范围与归档时间是归档策略的核心问题。郑州市档案局(馆)的政府网页归档范围是以gov.cn结尾的郑州市所有政府部门、机关单位的网站。网站更新缓慢的每六个月收集一次,更新较快的每周收集一次。网站升级改版的时候必须收集。还应公众要求,根据重大事件灵活收集[6]。

北京市档案信息网的网页及网页中的图片、文档文件必须归档。有附件的网页,附件与网页作为一件同时归档。归档时间为每周一次定期归档[7]。

宁波市政府网页归档采取办理完毕或更新后实时归档和定期归档相结合的方式,定期归档时间一般不晚于次年6月底[8]。

(3)元数据方案。在电子文件归档过程中,需要元数据全面描述电子文件,保障电子文件真实、完整,提高电子文件的可理解性以助于其长期可读[9]。网页归档也是如此,元数据具有重要作用。北京市档案信息网的网页归档依据其元数据方案实施。方案中必选项包括标题、网站名称、网站域名、来源、发布时间、采集时间、采集人,可选项包括年度、主题词、作者、归档日期、关键词、摘要、网址、类别、保管期限、档号、全宗号、件号[10]。宁波市政府网页归档要求将网页的元数据同时归档。

5.归档技术进展

(1)分类整理。无论何种信息归档,都需要进行分类整理,政府网页归档亦是如此。北京市档案信息网的网页归档按照“年度—保管期限—类别”进行分类,分类后的档号由“全宗号—年度—保管期限代码—类别代码—件号”组成。网页档案以件为单位组件保存,件的计算机命名规则为“档号+D+两位顺序号”[11]。

(2)归档系统。政府网页归档工作需要一个软件系统作为平台来实现,归档系统是必不可少的基础条件。北京市档案信息网的网页归档系统依托北京市档案信息网和北京数字档案室管理系统开发。北京市档案信息网的网站端具有归档功能模块,北京数字档案室管理系统端具有网页归档接口、归档任务管理、代码管理、档案类别管理、元数据管理、归档网页检索、浏览、管理等功能模块[12]。

(3)存储格式。郑州市档案局(馆)的政府网页归档的存储格式是WARC格式,但一般会压缩成gz文件,分卷压缩[13]。北京市档案信息网的网页归档的存储格式是PDF格式,并对网页档案采用设置层级文件夹的形式进行存储[14]。宁波市政府网页归档的存储格式是WARC、OFD等通用格式,并满足可长期保存的要求[15]。

二、我国政府网页归档的未来发展

1.确立政府网页归档的馆藏思想。近些年来,政府加大了网络办事的力度,政府网站的数量、质量和重要性在飞速提升。2014年《国务院办公厅关于促进电子政务协调发展的指导意见》(国办发〔2014〕66号)、2015年《国务院关于积极推进“互联网+”行动的指导意见》(国办发〔2015〕40号)、2016年《国家信息化发展战略纲要》《国务院关于印发政务信息资源共享管理暂行办法的通知》(国发〔2016〕51号)、《关于加快推进“互联网+政务服务”工作的指导意见》(国发〔2016〕55号)、《国务院关于印发“十三五”国家信息化规划的通知》(国发〔2016〕73号)、2017年《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》(国办发〔2017〕39号)、《国务院办公厅关于印发政府网站发展指引的通知》(国办发〔2017〕47号)、2018年《国务院办公厅关于印发进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案的通知》(国办发〔2018〕45号)等一系列指导性文件发布,政务信息网络化趋势不可阻挡。在这种大背景下,无论是档案机构还是社会公众,都要认识到网络信息的价值。必须尽早确立“让网络信息变成档案永久流传后世”[16]的新型馆藏思想。那些网络上的政府信息与办事信息,是网络时代政府公务活动与社会活动的记录,是社会记忆的重要组成部分,具有重要凭证价值。因而,政府网页需要归档,归档后的网页档案是新时代档案形式的一种,是新时代的档案馆藏。

2.加速政府网页归档的法规支持。今后的法规标准中有四个重点内容需要明确:一是档案部门的主体责任。明确政府网页归档应当与政府公文归档一样,由档案机构执行主体责任,有权利和义务对政府网页进行收集、整理、保存并提供利用。例如,《宁波市政府网站网页归档管理暂行办法》中明确:“市档案行政管理部门负责市政府网站网页归档工作的监督指导,制定相关管理标准、流程等规范,开展培训和检查评估;市档案馆负责建设市政府网站网页归档管理统一平台,按规定接收政府网站网页档案并依法提供利用。”二是网页形成机关的职责。与传统的形成单位移交一样,在网页归档中,网页形成机关也需要履行相应的职责。《宁波市政府网站网页归档管理暂行办法》要求市级行政机关“在建立和完善政府网站时同步开发和完善网页归档功能”,“对本单位政府网站网页进行归档移交和集中管理,按照标准规范做好分类、整理、存储、封装、鉴定、检测等工作”,就是对形成机关的职责进行明确的界定。前两项内容在全国层面也有类似规定。三是归档网页的凭证地位。明确档案机构在合法范围内通过既定程序收集的政府网页具有档案的凭证地位。四是对政府网页归档的监督管理。《宁波市政府网站网页归档管理暂行办法》将网页归档管理工作纳入政府网站常态化监管内容,定期检查,情况列入政府网站监管年度报表。此类规定内容具有推广价值。

3.出台政府网页归档的指导策略。政府网页归档工作还需要出台更为详细的指导策略,用以明确归档模式、归档原则、归档流程、归档范围、归档时间、元数据方案等。从我国当前进展看,许多策略并不统一。在全国范围内是集中统一还是各自为政地开展,在顶层层面需要有设计。

从已经发布的档案行业标准DA/T 80-2019《政府网站网页归档指南》看,我国政府网页归档遵循“谁形成办理,谁归档”的原则,采用“网站管理部门收集整理归档——档案部门集中管理和保存”的两段式归档流程[17]。北京市档案信息网的网页归档对该标准的指导策略进行了验证。但是,该标准是推荐性标准,是否适用全国情况还有待检验及进一步的策略出台。

当前,在国家层面即将出台《政府网站网页归档管理办法》,“对政府网站网页归档的职责分工、归档范围、归档流程、归档要求以及归档网页如何保管利用等提出纲领性的要求”[18],相信该办法会成为政府网页归档的指导性策略。

4.打造政府网页归档的生态系统。与传统档案管理不同,政府网页归档是一个大规模系统工程。要组织好这项工程,必须突破传统档案工作“黄土地、高围墙”式封闭的范围与模式,打造一个良好的生态系统,“把人员、技术、资源、管理有机地结合在一起”[19]。

该生态系统包括政府的指导、协调、组织与监督,出台相关法规政策,成为生态系统的宏观社会环境;档案机构的策略制定、模式选择,成为生态系统的主体;档案馆(室)、政府信息公开中心、电子文件管理中心、数字档案馆的功能定位、统筹管理及具体保管,成为生态系统的实体;信息技术部门的联合与合作,发挥技术优势,实现科学管理与有效的技术手段,成为生态系统的中观运行机制环境;网络基础设施是生态系统的微观环境;图书馆、高校、研究所、企业、社会志原者等相关方的广泛参与,拓展生态系统的主体。例如,阿里巴巴集团曾表示愿为国家档案局打造一个专属的“档案云”,从而提升电子档案的长期保存、快速加工及档案资源利用的管理水平[20]。政府网页归档可以利用“档案云”实现云端存储。再如,国家图书馆、北京大学网络实验室有网页归档的长期实践,应该共同参与政府网页归档。国家图书馆是IIPC(International Internet Preservation Consortium,國际网络信息保存联盟)的固定成员,利用该平台能实现与世界范围内相关技术与相关组织的广泛合作。

只有成功打造良好的生态系统,建立广泛的合作,构建整体的组织体系,形成网页归档群落,政府网页归档才具有生命力和可持续发展的动力。

5.探索政府网页归档的关键技术。在政府网页归档过程中,技术占据重要地位。技术的选用对于归档的成功率及归档后利用服务的效率具有决定性的影响。为此,必须探索政府网页归档的关键技术。关键技术包括但不限于网页归档的总体技术设计,作为平台的归档系统的研发建设,网站文件的分类整理,爬虫程序的选用,归档网页的存储管理,网页长期保存的文件格式标准,云端存储的支持技术,保证真实、完整、安全与可用的相关技术,实现访问与应用服务的技术等。

6.推进归档政府网页的开发利用。政府网页存档工程浩大,其作用不仅在于保存历史,还在于获得效益。为此,不仅要对归档政府网页进行安全保管,还必须以开放为原则,提升其开发利用水平,借助其数字形式,通过多种平台和方式,方便、快捷地推进其共享利用,以期获得一定的经济效益和最佳的社会效益。

参考文献

[1]黄新荣,曾萨.网页归档推进策略研究——基于网页归档生态系统视角[J].图书馆学研究,2018(16):68.

[2][20]杨太阳.国家档案局局长杨冬权表示将尽快启动为各级国家政府网站网页存档工作[N].中国档案报,2014-12-01(1).

[3][6][13]石华.档案馆保存政府网站策略研究——以郑州市档案局馆为例[J].档案管理,2016(1):48-49.

[4]浙江省档案馆. 省档案馆:及时采集抗“疫”网页档案[EB/OL].(2020-02-24)[2020-03-16]. https://www.nbdaj.gov.cn/yw/bddt/201812/t20181211_20121.shtml.

[5][7][10][11][12][14]袁焕磊,杨中营,林晓京.网站网页资源归档研究——以北京市档案信息网为例[G]//中国档案学会. 2019年全国青年档案学术论坛论文集.北京:中国文史出版社,2019.

[8][15]陈霄.宁波市出台《办法》规范政府网站网页归档管理[EB/OL].(2018-11-22)[2020-03-16]. https://www.zgdazxw.com.cn/news/2018-11/22/content_255545.htm.

[9]赵屹.电子文件管理元数据漫谈[J].北京档案,2015(1):20.

[16]杨冬权.新时代档案工作的新思维(下)[N].中国档案报,2018-01-18 (3).

[17][18]黄丽华. “一网通办”背景下网页归档工作问题研究[J].中国档案,2019(1):74.

[19]赵屹.档案信息网络化建设[M].北京:北京图书馆出版社,2003:23.

猜你喜欢
进展中国政府
非新生儿破伤风的治疗进展
1990年以来我国八段锦研究的进展、热点与前沿
2020
省级政府金融权力榜
肯尼·格雷特,爵士的“中国”调子
完形填空三则
April Fool’Day愚人节