面向服务的分级地理空间数据中心框架的构建

2014-08-25 01:19刘小春华一新侯一凡
测绘工程 2014年1期
关键词:空间数据入库数据中心

刘小春,华一新,郑 刚,侯一凡

(1.信息工程大学,河南 郑州 450052;2.河南艺术职业学院,河南 郑州 450002)

面向服务的分级地理空间数据中心框架的构建

刘小春1,华一新1,郑 刚2,侯一凡1

(1.信息工程大学,河南 郑州 450052;2.河南艺术职业学院,河南 郑州 450002)

分级地理空间数据中心是全国范围地理空间数据中心建设与发展的核心工程,文中探讨建设面向服务的分级数据中心软硬件环境、关键技术以及数据分布存储模式。此方案实现了数据中心分布存储管理数据,有效利用对象关系数据库的ACID特性,为多源异构海量空间数据的集成共享提供了一个思路。

地理空间数据中心;服务框架;数据交换;数据质量管理

随着地理信息技术的广泛应用,已经从传统的土地利用、城市规划、测绘、减灾、环保、电信、电力等领域渗透到矿产资源调查、海洋资源管理、电子商务等各个方面,带来了巨大的经济效益和社会效益。地理空间数据又为其他行业提供了大量基础数据,地理空间数据的有效管理极为重要。

由于地理空间数据存在数据源异构性、空间分布性、结构复杂性、信息载体多样性、数据量巨大、操作运算量大、数据共享难度大等许多特点,随着地理空间数据越来越广泛地得到应用,越来越需要通过数据中心集中管理地理空间数据,实现地理空间数据有序流动,以使数据产生更大的社会效益。

因此,研究如何利用地理空间数据中心对异构地理空间数据进行管理,在各级数据中心间实现数据共享和交换,并提供地理空间服务,为各类业务和服务系统提供数据支撑具有重要的意义[1]。

数据中心的建设应该基于模块化、松耦合的方式,采用分层建设、模块建设、用户透明的方式进行。数据中心要考虑面向不同用户的服务,通过订阅/分发服务,使各类用户了解数据、使用数据。

本文着重从服务的角度,研究分级地理空间数据中心框架结构。

1 分级地理空间数据中心架构设计思路

地理空间数据中心是以各类地理空间数据为核心,依托现成熟的对象关系数据库技术、GIS技术、网络技术、存储技术等,按照全局的统一标准,建立数据管理、查询、统计、交换、备份、分析及服务的一体化数据管理体系。它可为各级服务系统、业务系统提供数据支持,提供共享、交换、安全机制。

1)通过建设分级地理空间数据中心,实现地理空间数据的按级集中管理[2]。各级数据中心应提供统一的数据服务,有利于为用户提供易用、丰富的数据服务。地理空间数据的分级管理,有利于根据隶属关系和业务关系来建立,但是分级要具备科学性和有序性。各级地理空间数据中心的基本架构如图1所示,各级数据中心之间可以有网络连接,也可以没有网络连接。

图1 数据中心建设软硬件环境

各级数据中心应在基本设施建设的基础上,建立软件环境,为地理空间元数据库、基础数据库、地理空间数据库等多个数据库服务器提供数据存储,通过基础服务提供构件服务平台,为地理空间应用提供支撑。数据中心的数据管理系统是以大型空间数据库作为后台的数据库管理平台,将通过各种方式获取的数据整理入库、存储,完成各类矢量数据、影像数据、多媒体数据以及DEM数据的入库工作,可通过数据管理系统实现对数据的维护管理,如数据查询、数据转换、数据分发、数据卸载、数据备份、数据恢复、用户管理等功能。

2)数据标准是数据中心实现数据服务的前提和关键[3]。空间数据具有天然的多源异构性,在直接使用模式、转换后使用、元数据模式等多种解决方法中,在数据中心主要采用数据转换、基于元数据的解决方案和基于SOA构架屏蔽数据的多源性,解决多源异构的问题也是解决数据集中分布存储管理的最根本问题。

在数据库领域,元数据被描述为数据及其环境的数据;在地理信息领域,地理空间元数据是在地理信息中描述地理数据集的内容、管理方式、质量、空间参考、表示方式以及其它特征的数据。它能够帮助数据生产者完整地描述数据集,让用户能够了解数据的内容、假设和限制。通过元数据对地理空间数据的内容、条件、质量和其他特征进行描述与说明,可让用户有效地定位、比较、评价、使用地理相关数据,并评估数据对特定应用目的的可用性,元数据库访问模式是异构地理数据共享与应用的重要方法和手段[4]。

但是由于各数据源使用的数据库管理系统和元数据的标准各不相同,地理空间数据会在描述方法和语义上存在冲突,相互兼容性很差。因此在数据中心的数据标准建设中,需要研究一个公共元数据标准对各数据源的元数据进行统一的描述,便于使多源异构数据能在数据中心统一的框架下进行管理使用,还需要考虑公共元数据标准的自动更新技术。

2 分级地理空间数据中心关键技术

按照公共元数据标准规范,对系统内地理空间数据进行集中统一、安全可靠的存储与管理,构建统一的数据资源环境,达到数据共享的目的;通过搭建SOA面向服务体系架构,实现系统的“松耦合”结构,实现分级地理空间数据中心基于标准、统一、开放和具备良好可生长性的应用支撑体系。

2.1 海量数据分布存储技术

海量的地理空间数据需要功能强大的服务器对数据进行组织和存储,单一的数据库服务器因效能瓶颈、存储瓶颈、冗灾瓶颈等问题难以解决海量数据的存储问题。Google公司采用分布式文件系统存储海量的网络数据,GFS用于底层数据存储的分布式文件系统,Bigtable是运行在GFS上实现对海量数据的结构化管理,这种方法实现了普通微机组成集群管理PB级的数据。还有Hbase和Hypertable系统都参考了Bigtable数据模型[5]。

但数据库系统要求的ACID特性在Bigtable等数据模型中不易于实现,在数据分布存储时可能导致部分操作性能低下,如连接查询操作[6]。为了既能使用对象关系型数据库存储数据的优点,又能利用云计算类Bigtable数据模型在扩展性等方面的好处。数据中心在数据分布存储时,可采用基于地域分布、基于版本分布、基于查询关联分布、基于磁盘容量分布等多种策略,实现数据存储分布均衡,提高系统总体性能,数据中心基本存储模式如图2所示。

图2 数据分布存储模式

数据分布存储主要包含6层,分别是客户层、主控层、应用服务层、数据层、系统层和硬件层。主控服务器的设计参考Bigtable中对主服务器Master的功能设计,来减弱成为瓶颈的可能,主控服务器主要是进行用户权限管理、数据存储管理以及向客户端提供数据层数据分布的情况,并且动态调整数据分布,以改善系统访问性能和分布数据库服务器数据存储的分布均衡性,客户端从主控服务器获取需要存取的数据分布情况及元数据服务器位置后,就可以直接访问Oracle数据库服务器。客户端也可以通过主控服务器访问应用服务器查询系统提供的服务和使用服务,地图服务器通过应用服务器或者通过服务提供地图数据服务、查询服务、分析服务和专题服务等,注册服务器提供服务注册,注册的服务通过应用服务器提供给用户访问。

通过主控服务器来访问数据库服务器和使用成熟的对象关系数据库管理数据的方式,实现对数据的分布存储的有效管理,实现了数据的动态分布存储,也很好地利用了数据库的ACID特性;通过这种数据和服务管理模式,既给客户端提供了统一的服务接口,实现了统一的SOA体系架构。服务器端根据负载情况可以动态调整数据分布,数据的分布情况对客户端的访问是透明的,实现了数据粗粒度、松耦合的分布存储方式。

2.2 数据交换技术

数据交换技术主要是实现数据中心共享平台与各类用户以及数据中心间的数据共享和交换。用户在一定权限内可以下载服务器上的相关数据,也可以上传数据到服务器的指定位置,由管理员进行管理。数据交换支持数据入库、数据转换、数据分发等功能,这是数据库管理子系统的主要功能,系统要实现符合元数据标准的交换数据格式、系统内部格式以及可转换格式数据的入库和数据分发功能。

数据交换时,如在数据入库过程中,不仅要能将数据入库,还要能保持数据中心目标库的正确性、一致性,入库数据的正确性和一致性可以通过对拟入库的数据通过两类检查、两次入库的方式进行入库来保证,两类检查指结构检查和语义检查,两次入库指入临时库和入目标库,交换格式入库的实现流程如图3所示。

图3 数据入库流程

2.3 数据质量管理技术

数据质量检查是数据中心提供数据服务的必要环节,数据质量检查也是一个复杂的工程。目前数据中心数据规模在扩大,更新数据也在加快,造成空间数据质量问题的原因是多方面的,主要有不同的GIS平台、不同的空间数据组织和表示形式、不同的采集精度等。数据质量的好坏是地理信息数据中心建设成败的关键,它直接影响着应用分析结果的可靠程度和应用目标的真正实现。数据中心要能通过目标库抽样检查、入库检查、打分模型等手段对数据的几何精度、空间关系检查、数据完整性、数据一致性、数据项类型与格式等方面进行检查,确保数据的正确性和一致性。检查结果可以分类形成检查报告,如图4是基于元数据对入库数据结构检查的检查报告。

图4 基于元数据的入库质量检查报告

2.4 数据查询模式

数据中心应在数据基础上建立针对不同用户、不同业务的查询服务模式,有利于提高数据的安全性和可访问性,这也可以对用户屏蔽数据中心数据的多源性。通过开发一整套可视化服务,实现直观显示空间数据,用户可以很方便地以交互方式管理和使用数据。

数据管理系统通过实现对各子库及整个地理空间数据库的查询检索功能,提供按照地点、名称、单位等进行精确和模糊查询,按照空间范围进行查询,按照组合条件进行查询,基于元数据的数据检索以及对文档资料数据的全文检索。通过建立多种立体数据观察模式,提供层次报表的数据观察方式,可以将属性表数据按照属性数据本身的层次归类关系,按照层次的形式展现出来,提供直观的数据报表显示格式,并通过时空数据、多版本数据进行立体显示,提供显示模式存储功能,将常用显示模式存储下来,使常用的显示模式作为服务可以永久保存,方便使用。

2.5 数据安全审计技术

数据中心的数据安全十分重要,一是通过建立安全的数据软硬件环境,主要有网络安全、人员安全、操作系统安全、用户认证和授权,更为重要的是要能通过安全审计,审计用户行为。如审计用户访问时间及访问数据范围,审计用户多次尝试访问的非法授权空间,审计数据库更新记录等。对于地理空间数据中心,要能在原有关系数据库的表和字段授权机制的基础上,建立多比例尺下、多版本下、分布数据下基于空间描述和语义描述的授权机制,更加有利于设置对空间数据的访问控制。比如限制某个用户仅能访问1∶25万和1∶50万比例尺某时间段的河南地区的公路层和河流层的空间数据,还可以建立用户浏览数据显示模式的限制等。如图5是按照时间段和操作种类审计用户SQL操作行为。

图5 数据SQL操作审计

3 结束语

分级建立地理空间数据中心,有利于推进地理空间数据工程建设,提高数据使用的效益,有利于建立数据共享服务环境,但是在如何发挥虚拟化、云计算以及对象关系数据库优势,实现“虚拟化、自动化、安全可靠、绿色节能和规模化”的新一代数据中心[7]还需要进行深入的研究和不断探索。建设地理空间数据中心是一个系统长期的工程,数据中心的建设在很大程度上解决了数据集成和数据共享的问题,实现地理空间数据与服务一体化,最大程度利用数据并共享数据。

[1]徐世武,谢忠,黄志超.分布式异构多级空间数据中心的研究与设计[J].地球科学-中国地质大学学报,2006,31(5):624-629.

[2]甘郝新,陈晓武,舒强.水利数据中心框架设计初探[J].人民珠江,2011,32(6):61-63.

[3]朱明东,郭芝.基于数据中心的数据共享服务体系研究[J].指挥信息系统与技术,2010,1(3):18-22.

[4]黄鼎成,郭增艳.科学数据共享管理研究[M].北京:中国科学技术出版社,2002.

[5]郑付联.Hypertable:BigTable的高性能实现[J].程序员,2011(11):98-101.

[6]文明波,丁治明.适用于云计算的面向查询数据库数据分布策略[J].计算机科学,2010,37(9):168-172.

[7]韦海亮,周浩杰.基于云计算的新一代数据中心[J].高性能计算技术,2011(1):15-20.

[责任编辑:张德福]

Serviceorientedhierarchicalgeographicspatialdatacenterframe

LIU Xiao-chun1,HUA Yi-xin1,ZHENG Gang2,HOU Yi-fan1

(1.Information Engineering University,Zhengzhou 450052,China;2.He’nan Art Occupation College,Zhengzhou 450002,China)

Hierarchical geographic spatial data center is the core project of national geographic spatial data center construction and development. The software and hardware environment of service oriented hierarchical data center construction,the key technologies and distributed data storage mode are presented, for which can realize the distributed storage management on data. The use of object relational database ACID features will be effective, and the multi-source heterogeneous massive spatial data integration sharing will be provided with a train of thought.

geographic spatial data center;service frame;data switching;data quality manage ment

2012-10-15

国家自然科学基金资助项目(41001313)

刘小春(1974-),男,讲师.

P208;TP311

:B

:1006-7949(2014)01-0057-04

猜你喜欢
空间数据入库数据中心
酒泉云计算大数据中心
重磅!广东省“三旧”改造标图入库标准正式发布!
浅析数据中心空调节能发展趋势
中国食品品牌库入库企业信息公示②
中国食品品牌库入库企业信息公示①
GIS空间数据与地图制图融合技术
关于建立“格萨尔文献数据中心”的初步构想
元数据驱动的多中心空间数据同步方法研究
身临其境探究竟 主动思考完任务——《仓储与配送实务》入库作业之“入库订单处理”教学案例
基于云计算的交通运输数据中心实现与应用