专项历史地图元数据设计及采集关键问题分析

2017-10-16 03:30宋鸿运
地理信息世界 2017年5期
关键词:数据项档案资料资料

宋鸿运

(国家基础地理信息中心,北京 100048)

0 引 言

历史地图(Historical Map),是反映人类历史时期自然和政治、经济、军事、文化状况及其变化的地图,是显示有史以来一切与人类活动有关的具有空间分布和地域差异现象的地图。历史地图档案资料(Historical Map Archive References),一般是指在历史上形成的反映各个时期社会经济地理状况的地图,在一个关键的时间节点上某一张地图可能会成为见证一件重大事件的历史凭证,地图上的每一个地名、每一条界线都会反映出当时一个地区的归属和制图人所代表的观点。

“中国东海、南海及周边国家历史地图资料整编”是国家科技基础性需求工作项目,项目的主要任务是通过搜集、整理,分析保管在国家测绘档案资料系统及相关部门的大量古今中外有关东海、南海领域及周边国家的历史地图资料、现代地图资料及不同国家的历史地图资料,为今后的政治外交及军事活动、科学研究提供有查考价值的参考资料与测绘技术保障。

项目设计了四个课题,其中课题一《中国东海、南海及周边国家地图资料的搜集、整理》和课题四《中国东海、南海及周边历史地图数据库建设》都涉及地图档案资料元数据的分析、利用和再设计等工作。课题一是要利用历史地图资料的元数据,来搜集和整理符合要求的各类地图资料,而课题四是要求将收集来的各类地图资料按照新的要求制定元数据规则,进行相关信息的录入和管理。

那么如何能做到收集到的是有用的,管理起来最科学,使用起来最有效?从分析各类地图档案资料的元数据入手,找到快速搜索相关地图资料的元数据项,在分析已有的各种地图档案资料的元数据和相关标准的基础上,再进行新的针对本项目的元数据设计工作,或者进行符合专题需求的元数据的设计,建立起针对专题历史地图资料的元数据,为后续的数据建库管理和提供服务奠定基础。这些都是本文解决的问题。

1 不同来源地图档案资料元数据情况分析及处理方法

本项目选择历史地图资料的来源主要分为:

1.1 已有资料分析

主要包括国家测绘档案资料馆、中国地图出版社、海军出版社等国家级地图档案资料收集、管理机构多年积累形成的地图资源,主要包括:各种比例尺的地形图、海图、教学用图、用于编制地图作品的比较经典的各种国内外地图集等,这些地图资源的优点在于,地图资料比较成系列,地图资料的编制单位都正规,地图资料的品质比较有保证。更重要的一点是,不同单位对地图档案资料都有一定的管理模式,平时为了利于管理和提供服务,已经记录了一些地图资料的相关的元数据信息,对这些元数据的定义和充分的分析,提高选取符合要求地图资料的效率,而且其中一些元数据信息经过一定的选取处理是可以直接应用的。下面以中国地图出版社和国家测绘档案资料馆馆藏地图资料的管理元数据分析为例进行说明。

地图出版社的相关工作人员基于一定的项目工作内容,对自己馆藏的地图资源进行了逐一的记录核查。其元数据信息是比较详尽的。其著录的信息主要分为3大类,24小项的数据信息描述。

出版物信息,包括:出版物名称、出版国、出版者、出版日期、版次印次、收藏机构、书号、封底扫描、版权信息扫描;

地图基本信息,包括:地图名称、地图类型、文种、原图尺寸(横宽×纵高,单位:cm)、比例尺、成图日期、编绘者、资料类型、地图扫描;

涉南海表示信息,包括:所涉区域范围、断续线情况、岛礁名情况、岛礁归属情况、有利情况、备注描述。

由上述信息可以看出地图出版社所著录的历史地图资料的元数据信息偏重于地图资料的描述信息的记录,比较方便于资料的使用。

国家测绘档案资料馆管理着大量的测绘地理信息档案资料,不同类型档案资料的元数据信息采集的模式是不同的,其中地形图类元数据有分为国内和国外两种模式,其中国内出版地形图类资料的元数据项共有39项数据内容,其中涉及档案管理的有12项,占元数据项的30%,而与地图档案资料地图属性相关的有27项,占元数据项条目的70%,而其中真正与选取地图资料相关的数据项只有4项,那就是地形图档案资料的左边经度、右边经度、上边纬度、下边纬度,仅占元数据项的10%。

国外出版的地形图资料的元数据共有37项内容,其在快速搜索的元数据项的使用率也和上述情况相似。

可以看出,国家测绘档案资料馆藏资料的元数据信息偏重于档案资料管理的内容,更注重于管理内容的录入。而项目的目的是要在馆藏30多万条元数据记录信息中快速地找到与项目相关的地图资料信息,最快捷的办法就是利用元数据中位置信息的记录内容,确定地形图资料所表达的范围,从而确定所需资料的范围。

根据地形图类档案资料记录的元数据项的左边经度、右边经度、上边纬度、下边纬度的信息,项目组利用目前空间数据转换方面比较领先的FME(Feature Manipulate Engine)软件,实现了将原来记录的每幅图所记录的坐标元数据项,转换成空间地理信息数据,在ArcMap中对坐标进行空间定位,大大提高了选取符合条件的地图档案资料的速度和准确度。利用生成地形图类档案资料的空间地理信息数据,再借助地理信息软件平台,可以比较方便地选出与专题研究相关区域的馆藏的国内出版和国外出版的符合区域条件的地图档案资料,绘出资料分布区域的图形,再根据资料具体覆盖区域的范围和其他相关地形图档案资料元数据的内容进行精选。

而对于馆藏的专题类和地图集类的资料,也可以通过元数据项所属地区挑选出相关的档案资料进行详细的判读,以国外地图集为例,目前已有的元数据有29项内容,根据选取资料的要求,进行资料与项目研究内容相关性的判定,如根据项目课题一,资料搜集指标之一的国外较著名的出版商出版的世界地图册或相关国家出版的地图册等指标,可以选出国家测绘档案资料馆目前馆藏的国外地图集的档号和相关数据项信息,具体见表1。

表1 国家测绘档案资料馆所藏国外图集的部分元数据Tab.1 The selected metadata from foreign atlas in National Surveying and Mapping Archive of China

在挑出了这些地图集后再对项目相关区域的图幅进行仔细的判读甄别,选取其中适合的图幅。

以上这些方法说明通过已有的历史地图资料的元数据信息来选取符合条件的地图资料是比较高效的办法。

但是通过这种方法选择的地图档案资料还不能满足专题的需求,如在时间跨度、出版国的广度等方面都不能满足项目的需求,资料的搜集范围必须要进行扩展,因此需要进行目标收集。

1.2 目标收集

目标收集中又分为采购和网络获取等两种方式。采购,一般是从地图资料供应商处有目标地购买项目所需的特定资料,如某国在某个时期所出版的海域地形图。采购获取的地图资料一般在品质方面比较有保证,但在元数据获取方面,通过人工采集,需要录入的信息比较多,既需要核实的元数据信息比较多。对于网络获取方式,一般是使用网络爬虫软件进行数据抓取,需要针对不同的网址设置主题管理、下载时间、文件类型等限制条件,尽可能缩小筛选的范围,通过关键字在相关网站上获取,这种获取方式获得的地图资料的相关性不一定能够得到保证,但有些网站提供的地图资料的质量比较好,如世界数字图书馆,美国国会图书馆等。这些大型图书馆所提供的地图资料,甚至还能提供一些元数据信息,但是如何将这些元数据信息顺利地获取到,也不是简单的事。有些地图图片元数据信息可以通过一些图片解码器将元数据信息读取出来,但又存在信息不全的问题,需要逐一补充。有些图书馆还提供相关的软件,来帮助用户在下载地图图片的同时,进行元数据的封装下载。但是通过这种方式获取的元数据都需要通过特别编程来读出其元数据信息,然后与设计好的特定的元数据项进行匹配,其中的试验过程也许会反复多次。许多与项目相关的元数据信息需要逐一地核实录入,工作效率不一定高。

2 历史地图档案资料元数据设计原则

无论哪种方式获得的历史地图资料对项目的支持没有区别,所以在历史地图元数据的设计方面需要考虑的原则是统一的,即需要核实的元数据信息比较多。对于网络获取方式,一般是使用网络爬虫软件进行数据抓取,需要针对不同的网址设置主题管理、下载时间、文件类型等限制条件,尽可能缩小筛选的范围,通过关键字在相关网站上获取,这种获取方式获得的地图资料的相关性不一定能够得到保证,但有些网站提供的地图资料的质量比较好,比如:世界数字图书馆,美国国会图书馆等。这些大型图书馆所提供的地图资料,甚至还能提供一些元数据信息,但是如何将这些元数据信息顺利的获取到,却也不是简单的事。有些地图图片元数据信息可以通过一些图片解码器将元数据信息读取出来,但又存在信息不全的问题,需要逐一补充。有些图书馆还提供相关的软件,来帮助用户在下载地图图片的同时,进行元数据的封装下载。但是通过这种方式的获取的元数据都需要通过特别编程来读出其元数据信息,然后与设计好的特定的元数据项进行匹配,其中的试验过程也许会反复多次。许多与项目相关的元数据信息需要逐一的核实录入,工作效率不一定高。

2.1 用户需求适用性原则

目前的国内外标准化组织制定的空间元数据标准和其他个人或组织制定的空间元数据标准的主要目标是数据共享,而要达到共享的目的,就要求在设计时,尽量满足主要用户的需求。在本项目设计立项时,项目成果的用户被确定主要为对东海、南海海域相关问题感兴趣的专家学者,需尽量全面地提供各类信息资源,以满足用户的需求。在本项目中除了地图资料,还涉及了影像照片、文章、专著、视频等类型的资料,并设计了相应的元数据信息。专家们对历史地图资料所表示的内容,以及历史地图资料所反映的时间、地图资料的数学基础、制作单位、地图资料的语种、资料的受控程度等都应该是比较关心的内容,所以这些数据项的设定是必须的。

2.2 标准化原则

通过符合元数据标准而达到“空间元数据互操作”是效率最高、最易实施的互操作,因此遵循现有标准对于实现互操作至关重要。在本项目中对于能够采用相关标准的数据项都应用了相关的标准,如地图关注热点区域坐标信息的格式确定和提供单位坐标的数据格式都是采用目前通用的地图坐标数据格式,有利于在天地图等网络地图上进行标注或获取相应的坐标点位信息。而对于时间数据项,都要求统一到公元纪年。

2.3 简单化原则

检索资源往往侧重于适用性,而门户应用则多强调简单性。目前主要的国内外标准化组织制定的空间元数据标准所包含的元数据项都非常详细,比较复杂。而本项目制定元数据既能达到门户应用的简单性,又能满足检索资源的适用性。如地图资料对于项目主题相关性描述数据项和关键词数据项的设置,就是为了方便利用关键词,在本项目中关于中国南海、东海、钓鱼岛等关键词的设置,就是为了让用户能够快速了解地图资料的相关信息,并快速检索到相关区域的地图资料。

2.4 通用性与专指性原则

元数据制定方案的通用性原则要求考察是否有更一般的概念能够满足描述要求,而专指性原则是指满足特殊领域资源描述所提出的特殊要求。目前主要的国内外标准化组织制定的空间元数据标准一般来讲,满足用户一般的数据共享需求,通用性较明显,而在本项目的设计中更多地考虑了项目专题对历史地图资料的满足空间检索和时间序列以及资料出版方和提供方等信息获取的要求,所以专指性更为明显。另外在历史地图命名方面也做了具体的要求,原来各单位管理的历史地图数据,有的用档号来命名,有的用图名来命名,有的直接是用简单胡序列号来用名,为了便于管理,针对项目需求,制定了地图文件的命名规则是国别+时间+图名的方式。

3 历史地图档案资料元数据项的设计

对于本项目的资料收集,除了常规的利用馆藏、有目的的购买、交换等方式,通过互联网在网上搜集也是一个比较大的搜集来源,必须确定相关资料所在的位置和它所能表述的信息,反映的立场。所以不能沿用传统的资料档案目录管理的模式来进行元数据项和数据内容的设计,要更多地考虑描述信息,通过元数据更多地反映历史地图资料的内容特质。另外还要考虑历史地图资料知识产权的有关问题,应该反映出资料所属个人和机构的名称。由于资料表达立场的敏感性问题,还要考虑资料的受控度问题,在参考了世界数字图书馆数字藏品描述元数据技术标准(http://project.wdl.org/standards/metadata.html,WDL Descriptive Metadata Element Set)、文书类电子文件元数据方案DA/T 46—2009中华人民共和国档案行业标准、测绘地理信息成果目录服务系统元数据规定、美国国会图书馆网站(http://www.loc.gov)、美国威斯康星大学图书馆网站(http://www.library.wisc.edu,University of Wisconsin Digital Collections)等一些元数据的设计模型之后,确定了项目的历史地图(含地图集)资料元数据的数据项,具体见表2。

为更好地录入和管理历史地图数据的元数据,开发了历史地图数据元数据的录入系统,其界面如图1所示,可以进行数据批量导入,逐个检查核实修改,以保证数据的质量。对于必填项都有特殊的提示标识,数据的图形也有缩略图,可直接检查历史地图数据胡图面情况是否正常。

图1 历史地图元数据录入界面图Fig.1 The historic map metadata entry interface

表2 项目历史地图元数据表Tab.2 The project historic map metadata

4 结束语

专项历史地图数据库的元数据不同于一般数据库的元数据,因为其数据源元数据的情况相对复杂。为了更好地提高历史地图资料的使用效率,设计历史地图描述信息数据项可以让资料的使用者快速了解地图的背景信息,不需要其从分散的数据项信息中提取和综合。为了历史地图资料查询和使用方便,设计了历史地图空间定位的元数据项,这样大大提高了历史地图的使用效率,并将拓宽历史地图资料应用领域。

猜你喜欢
数据项档案资料资料
公路工程档案资料管理的信息化创新
Party Time
PAIRS & TWOS
JUST A THOUGHT
一种多功能抽签选择器软件系统设计与实现
非完整数据库Skyline-join查询*
地质档案资料的保密工作探析
基于Python的Asterix Cat 021数据格式解析分析与实现
简述基建工程档案资料的科学化管理策略
建筑工程档案资料有效管理措施的应用研究