面向水利业务应用的数据集成及其服务模式

2011-11-20 08:18李建勋解建仓张永进
水利信息化 2011年4期
关键词:中间件数据源异构

李建勋,解建仓,张永进

(西安理工大学,陕西 西安 710048)

0 引言

水利信息化在发展过程中积累了大量数据,并为存储和管理这些数据不断投资。然而,由于实施数据管理系统的阶段性、技术性,以及其它经济和人为因素的影响,以至即使在1个单独水利部门,采用的数据管理系统也大不相同,从而造成了数据源的异构性。当前,随着水利信息化的发展,现有数据管理系统已经能够满足数据存储和管理要求,且对于某个单独应用系统,独立的数据管理能够在开发和维护方面带来很大的方便,但是在许多情况下,为完成1项工作,水信息应用可能需要访问分布在网络不同位置上的多个数据管理系统中的数据。显然,原有的数据管理系统并不能提供这种支持,水利业务软件需要1个能够集成存在于分布数据源中数据的强大系统。为此本文从水利业务应用视角出发,提出数据集中和映射相互结合的数据集成模式,在信息的不断丰富过程中,提高信息的集成度,深度挖掘涵盖在数据中的信息量,提高水利应用服务的质量,同时借鉴组件的思想将数据访问通过标准化的组件设计来实现,提高应用服务灵活性、主动性、时效性,从而进一步避免应用程序开发技术标准混乱,难以继承、难以重用、效率低、水平低等问题。

1 数据集成方法

以往数据集成主要采用传统的数据集中方法,随着水利业务应用的发展,传统的信息管理系统已经不能满足信息服务需求,需要开发一些更高层次决策能力的智能化服务系统。多年来的信息化实践表明,这类系统的实施常常需要高复杂度和信息量的水利数据作为基础,如果单独采用数据集中模式进行,则各级单位的数据需要逐级向上集结,势必导致数据中心的成果数据库过于庞大、冗余。而数据集中和映射相互结合的数据集成模式,通过数据集中将重点核心数据(如重点断面、测站)直接同步复制到数据中心的成果数据库中;对于利用度不高的数据则采用数据映射方法,在数据中心的成果数据库中仅建立原始信息的“像”,从而提高成果数据库的可用性。

1.1 基于中间件技术的数据集中

对利用度高的重点核心数据采用以中间件技术[1]为基础的数据集中方法,通过数据转换中间件在数据库之间进行模式拷贝,将1个数据库中的数据复制、转换为另1个数据库中的数据,从而将多个数据库中的数据集中到单一的数据库中,形成1个在逻辑定义上和物理存储上都统一的总体数据库,从而把不同来源、格式、特点 、性质的数据在逻辑或物理上有机地集中,为水利行业提供全面的数据共享,进而解决多个核心数据库的集成问题。数据集中过程主要以中间件方式实现,中间件位于异构数据源系统(数据层)和应用程序(应用层)之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和访问的通用接口。通过在中间层提供1个统一的数据逻辑视图 LV (Logic View)来隐藏底层的数据细节,使得用户可以把集成数据源看为1个统一的整体。并通过构造 LV 使得不同数据源之间能映射到这个中间层,优化访问和处理功能服务接口,以全局数据模型访问异构的数据库、遗留系统、Web 资源等,带来强大的处理功能和访问效率方面的优势,以适应智能性和高精度的水利复杂应用服务的展开。

数据集中在实现上,首先根据水文观测、整编、水利工程、空间[2]和水资源数据等各数据点的异构性,建立面向各数据分散点数据源的数据通道,通过数据通道及时实现数据点之间的交互访问;其次建立读写规则,设定数据的观察范围和数据的写入方案,以视图方式实现基本的数据转化描述,对于复杂的数据转化描述,则通过数据插件来完成;再次设定数据的一致性复制间隔,以及数据操纵时间点,定时定点地对数据进行提取和集中;最后通过并发线程池自动对设定的数据集中任务进行执行,将数据按照预定方案进行分析,并存储到目标数据库。目标数据库将各部委、市、县内流域的水利数据予以集成,按照国家水利数据标准,将数据整合为一个数据资源整体,并提供统一的服务接口,为业务应用服务。

1.2 基于联邦数据库技术的数据映射

水利数据具有异构性、分布性、动态性等特点,虽然通过数据集中可以将异构的重点核心数据的数据资源向同种类数据信息转化及存储。但是该方法不能适应于大批量低访问率数据的集成,主要原因如下:1)低访问量数据集中起来必然会导致数据中心成果数据库规模剧增,加之空间影像数据的存放,常常超过几千个 T,且在现有数据库技术条件下对超大数据量的搜索效率普遍过低;2)如果将市、县级数据全面集中到部委,则数据集中过程中的网络资源频度过高,水利专网内部将充斥大量的数据传送报文,影响正常的水利业务服务工作。为此,对数据元组通过重要程度标识加以区分,参照国家规范对水利领域数据的管理模式建立统一的规范和标准,采用联邦数据库技术将大批量低访问率数据通过数据映射的方式实现,从而满足跨区域、学科的资料共享和协作的需求。

联邦数据库技术构建在 DataJoiner 技术之上[3],是具有透明、异构、底层自治、开放和可优化特性的数据集成方案。其通过 Garlic 核心构件对可扩展性和处理性能进行增强,并结合虚拟数据库概念的引入,可为来自多个数据源的集成工作提供功能强大的映射工具,使得用户可以通过虚拟数据库随意查询存储在联邦系统中任意位置的数据,而不必担心数据的位置、实际数据源系统的 SQL 语言种类或者存储的能力。联邦数据库技术的应用框架如图1所示,将其应用到水利数据映射服务中主要采用紧耦合、同步性的虚拟数据库方法,在自身不保存数据的情况下,为多种数据源提供1个统一的中间层访问接口,通过 SQL API 来处理数据访问请求,使得数据访问请求间接传递到数据的真实存储位置进行处理。在实现时,首先建立虚拟数据库和分布式中间件平台,以及1组映射规则和工具,将各数据源中的数据进行抽象,面向底层异构数据源聚合成为1个完整的数据平台,屏蔽数据源之间的访问和模式差异,为水利应用提供标准的访问接口和完整的数据逻辑,使得所有水利应用能够象访问同一数据资源内的数据一样,对所有分散异构数据源[4]进行访问。这样原有水利相关数据资源均可以通过访问虚拟数据库或者直接访问企业数据集成框架获得,而任意1个应用系统只需对 SQL API 稍做修改,就可以对不同类型、存储位置的数据源进行访问。并且当有新的数据源加入到系统中时,只需在数据集成平台中对其进行映射,系统便可以在上层应用不知道底层数据存储细节的情况下实现数据访问。

2 基于组件的数据服务模式

图1 联邦数据库技术的应用框架

当前,水利业务应用服务程序通常与数据捆绑在一起,数据、信息、知识区分不够清晰,缺乏多元信息之间的融合,从而导致信息利用价值不高,应用模式单一的服务格局。为了进一步提高水利信息的可用度及数据资源使的灵活度,需要共享力、整合力、计算力、研究力、服务力等5方面研究的共同开展:通过数据集成构建数据中心平台成果数据资源的共享力;针对业务应用,通过组件服务形成信息的整合力;通过计算机硬件资源共享提高计算力;在计算资源调度和管理的模式下,将计算力转化为实验分析、仿真模拟和分析设计的研究力;进而通过综合集成的决策支持构建一体化的服务力。

整合力是本文探讨的内容,通过将水利业务应用组件化、标准化,形成水利信息和业务应用标准组件,通过 Web 服务的方式对外发布组件,采用组件搭建的方式构建应用。通过组件可实现水利业务应用标准化和数据及信息的集成。通过组件搭建和知识图可实现应用集成[5]。通过平台的信息综合集成应用模式采用知识图、组件来组织和搭建应用,构建以下业务应用系统:1)按照主题提供信息服务,按照需要提供计算服务,按照个性化组织应用提供决策服务;2)采用平台提供数据、信息、知识的综合集成,采用中间件、网格、综合集成研讨厅等技术构建应用支撑平台;3)采用知识图关联信息,组织应用过程中的信息,描述事件和应用主题,开展工作流程管理和服务组合;4)提高多元信息的利用率,特别是信息融合和遥感信息的存贮、分析、处理、应用,按照用户的个性化需求灵活搭建多元信息应用服务。

图2 西安市水情信息数据集中任务

3 应用实例

为了检验本文方法的正确性及实用性,综合采用组件、中间件技术使用 J2EE 进行了系统实现,构建了1个具有数据集成、映射2项服务的数据中心平台,在平台上构造了成果和虚拟2个数据库,按照国家水利数据标准建立了插件和映射规则,实现了对历史、实测、预测等3大类数据的有效存储和管理。以下是该系统在西安市水务局对实测降雨、河道、水库数据,以及气象局的气温、降雨数据等进行集成的应用实例。

西安市水务局在水情测报服务中,以 sl_new作为本地成果数据库,业务重点数据有气象局CAWS600B 和蓝特 StadardDB(存放重要测站及断面实测数据)2种数据,非重点数据源为西安市下辖的区县级数据源。按本文数据中心成果数据建设思路,对气象局 CAWS600B、蓝特 StadardDB 数据源采用数据集中方式,而对西安市下辖的区县级数据源采用数据映射方式。共建立数据集中任务7个,具体任务如图2所示,分别为气象局日雨量、气温、风情,蓝特时段、日雨量、河道实测、水库实测;数据映射任务13个,分别以虚拟数据库方式提供新城、碑林、莲湖、雁塔、灞桥、未央、阎良、临潼、长安9个区,高陵、蓝田、周至、户县4个县的实测数据。通过本数据服务的建立,有效提高了水情测报信息的存储、访问效率,为水务局开展预警预测、智能分析等系统的建设提供了良好的辅助作用。

4 结语

水利数据所固有的分布性和异构性,为信息资源的跨流域、部门的整合与访问带来了一定的局限性,影响了统一、开放、标准化的数据资源共享服务,极大降低了水利行业的工作效率。本文通过基于中间件技术的数据集中,基于联邦数据库技术的数据映射,将各种异构的数据资源转化为同种类型的数据信息加以存储和访问,为水利业务应用服务的开展提供了一个可靠、高效的成果数据源。

[1] 李琪林,刘 强,周明天.论中间件技术及其分类[J].四川师范大学学报(自然科学版),2001,24(6): 657-659.

[2] 陈楠.多源空间数据集成的技术难点分析和解决策略[J].计算机应用研究,2005(10): 206-208.

[3] Laura Haas,Eileen Lin.IBM 联邦数据库技术[DB/OL].[2010-10-20].http://www.ibm.com/developerworks/cn/data/library/techarticles/0203haas/0203haas.html.

[4] 周竞涛.企业异构数据源集成[N/OL].计算机世界,2002-08-12.http://www.ccw.com.cn/htm/center/tech/02_8_30_2.asp.

[5] 张晓林,李宇.描述知识组织体系的元数据[J].图书情报工作,2002,(2): 64-69.

猜你喜欢
中间件数据源异构
试论同课异构之“同”与“异”
RFID中间件技术及其应用研究
Web 大数据系统数据源选择*
基于Android 平台的OSGi 架构中间件的研究与应用
基于不同网络数据源的期刊评价研究
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
基于真值发现的冲突数据源质量评价算法
中间件在高速公路领域的应用