城轨线网指挥中心的大数据组织

2020-08-22 06:48章澜岚娄永梅
铁路通信信号工程技术 2020年8期
关键词:线网数据仓库粒度

徐 炜,张 宁,王 健,章澜岚,娄永梅

(1.东南大学自动化学院,南京 210018;2.东南大学智能运输系统研究中心轨道交通研究所,南京 210018;3.南京地铁建设有限责任公司,南京 210024;4.南京熊猫信息产业有限公司,南京 210008,5.北京全路通信信号研究设计院集团有限公司,北京 100070)

1 概述

随着城市进程不断推进,线网规模的不断扩大,机器学习、人工智能数据驱动型新兴技术蓬勃发展,各地城市轨道交通逐步进入网络化、智能化运营时代。当前城市轨道交通拥有多个相互孤立的且极为复杂的业务系统,虽然通过数据治理,形成了行业范围统一的数据标准和数据质量管理体系,初步解决了“信息孤岛”问题[1],但是未经合理规划组织的数据难以保证数据分析和挖掘的效率,也很难保证以后运营应用需求的拓展。

线网指挥中心(Network Control Center,NCC)作为城市轨道交通运营调度体系的最高指挥机构,主要面向常态监管和应急调度,负责对下属各区域控制中心(Operating Control Center,OCC)及相关单位进行集中监控和调度管理,为各级各专业运营维护人员和乘客提供更为优质的运营决策支撑和信息服务。线网指挥中心集中了来自于内部业务系统、协同部门、外部系统的海量多源异构数据[2-4],需要通过分布式环境下合理的大数据组织,保证决策支持的可靠性和时效性,提高查询效率,建成扩展性强、抗源变化的大数据平台。

近年来,国内外城市轨道交通线网指挥中心建设研究主要针对自动售检票系统、综合监控系统、智能维护系统等特定系统或应用的业务功能需求和相关数据组织管理[5-9],缺少全行业的、综合的大数据组织方面的研究。目前,北京、上海、广州、南京等城市线网指挥中心已建成并应用,为大数据组织相关标准的形成积累了设计和实施的经验。

本文以南京地铁线网指挥中心建设为例,从需求分析、主题域确定、数据维度设计、数据粒度设计等方面详细分析和讨论了城市轨道交通线网指挥中心的大数据组织要求。旨在从数据仓库底层打破“烟囱式”平台系统架构,统筹数据协调组织。

2 轨道交通业务梳理

为避免系统重复建设、提高平台建设效率、符合运营管理人员使用习惯,在进行数据组织之前,需要对城市轨道交通业务流程和需求、技术条件、企业文化等充分调研,并从功能需求和数据需求两个方面进行梳理。

2.1 轨道交通业务需求

在网络化运营时期,城市轨道交通精细化管理正面临着规划建设,线网运能匹配、客流引导、资源配置、维护维修、紧急事件协调处理等运营组织,地铁运营服务信息个性化等一系列亟待解决的问题。在正常情况下,线网指挥中心负责对各线路系统设备和运营状态以及监控位置,对跨线资源进行集中调度和管理;在故障、事故等紧急状态下,负责线网的运力调配和应急指挥工作。实现提高线网运营管理精细化水平和乘客服务水平的目标。

线网指挥中心业务功能包含了:1)监督职能:监督线网各种运维状态;2)应急职能:突发事件协调指挥调度跟踪;3)协调职能:统筹协调内外部部门合作;4)信息管理:信息的收集、核实、传递、上报和发布等;5)指标管理:运营生产指标数据的计算、统计、分析和评估等;6)资源调配:跨线资源的协调调配等,涵盖数据信息服务、决策支撑、统计分析3个方面功能。

2.2 轨道交通数据需求

通过对轨道交通业务需求的梳理,线网指挥平台不仅需要采集线网基础信息、客流、行车、供电、视频图像、设备设施、突发事件等内部数据,还需要接入气象、地质、社会安全事件、大型活动、公共交通等外部数据。源数据的完备程度、可获得性、规范性、完整性、时效性、颗粒度是数据需求分析的重点,判断数据的支撑程度和业务需求实现的可能性。这些海量多源异构数据只有经过数据转换、数据拆分、数据整合等数据治理环节形成规范化的标准数据之后才能进行有效的大数据组织。

3 大数据主题设计

在业务探索和数据探索的基础上,即可划分主题域,构建数据的逻辑架构和物理架构。除了底层面向整个企业的数据仓库采用第三范式建模以外,面向特定部门的数据集市通常采用维度建模。根据业务梳理的结果,将南京城市轨道交通线网指挥中心的系统划分为十一个主题域。其中具体内容如表1 所示。

表1 主题域具体内容Tab.1 Specific contents of subject domain

主题域和主题域之间存在的关系描述如图1所示。主题域中的事实表的内容主要是城市轨道交通运营生产相关的指标。

4 大数据维度设计

数据的维度设计面向特定主题,主要包括确定维度的存储编号和描述信息两方面内容。由于数据仓库维度建模的灵活性较差,当业务发生变化时,需要重新进行维度的定义,因而数据维度的层级结构设计和物理存储设计需要格外细致。

4.1 数据维度的层次结构设计

多维数据模型在数据仓库中广为应用,典型数据模型包括星型模式、雪花模式和星座模式。其中,星型模式以事实表为中心,所有维度表直接连接在事实表上。该模式因经过数据预处理,组织直观,执行效率高;雪花模式是对星型模式的扩展,每个维度表可以向外连接到多个详细类别表,对有关维度进行详细描述,达到缩小事实表,提高查询效率的目的,该模型更为规范,但维护成本较高,性能会有所降低;星座模式基于多张事实表,且共享一致性维度信息,避免了冗余和数据复用。南京地铁线网指挥中心选择在一致性和性能之间取得平衡的星座模式设计数据维度,围绕当前主题下的指标数据,共享时间、空间、票卡类型等通用维度表,实现规范、高效的数据分析和管理。

图1 主题域关系示意图Fig.1 Schematic diagram for the relationship of subject domain

4.2 数据维度的存储设计

依据存储数据维度信息的大小和变化频率,需要采用相匹配的数据物理存储结构,具体包含以下几种类型。

缓慢变化维(Slow Changing Dimension):维度中大部分属性不变化或者很少变化,仅需要定时更新或者按需更新。线网基础信息中线路维度、车站维度、断面维度,时间维度、票卡类型维度等均属于缓慢变化维度。为了应对城市轨道交通未来错综复杂、易变且精细化决策需求,可通过在记录中添加有效时间起止日期、有效标志位等冗余字段应对维度中的数据变化。既能简单过滤出维度的当前值,提高查询效率,又方便关联历史任一时刻下的事实数据进行对比分析和挖掘。

快速变化维(Rapidly Changing Dimension):维度中的属性数据频繁变化。设备设施维度是城市轨道交通中比较常见的快速变化维,需要将这些快速变化的属性分裂成一个或多个单独的属性,并在事实表中使用多个关键字关联。

大维(Huge Dimension)和迷你维(Mini Dimension):这两类维度依据数据量的多少进行区分。在采用分布式架构的数据仓库中,大维表数据通过选择合理的分区键,保证数据跨所有分区平均分布和连接匹配的数据位于同一分区,避免发生跨分区的数据迁移和重定向,优化连接处理和并行查询的效率。迷你维表数据较少,连接时将表中数据发送到所有需要的数据分区中。

退化维(Degenerate Dimension):维度的内容一般是编号数据,仅需要保持在事实表中,而不需要建立对应的维度表。轨道交通的票卡编号维度、交易编号维度、日期维度等均属于退化维。

5 数据粒度设计

数据粒度是对数据维度的进一步细化,反映了事实表的明细程度[10-11]。在数据仓库粒度设计的过程中应优先遵循保留不可细分的原子粒度的业务数据的原则,满足未来不确定的业务需求。小粒度数据不利于存储、查询和分析,可以进一步将实时粒度数据整合、汇总成为概要性数据并进行存储。而大粒度数据不利于决策,不能成为底层细节数据的替代品。同时,单一粒度数据难以满足多种业务场景的应用需要,因而,有必要基于业务分析模型,确定数据粒度表,对城市轨道交通线网指挥中心数据仓库中的海量数据进行多重粒度设计,分别应用于企业级数据仓库和部门级数据集市中。

5.1 多重粒度

数据粒度决定了数据仓库中的数据容量和线网指挥平台运营决策支撑的能力。但具体决策应用对数据粒度级别的要求并不一致。如:短时客流预测、线网客流仿真和列车运行图评估等功能采用低粒度级别的明细客流数据进行分析和运算,而线网规划决策等功能则采用高粒度级别的汇总客流数据进行评估和分析。这就需要在数据仓库中采用多重粒度针对不同级别的决策需求提供相应粒度级别的数据,一方面满足数据存储空间的要求,另一方面满足数据查询、分析、挖掘性能和效果的要求。一般而言,在企业级的数据仓库中存储较低粒度级别的数据,在部门级的数据集市中存储高粒度级别的数据。具体对照如表2所示。

表2 数据仓库中的多重粒度Tab.2 Multiple granularity in data warehouse

5.2 粒度表设计

采用多重粒度的数据仓库需要通过数据表的形式管理数据粒度,可以改善数据仓库的存储结构,减少数据存储、更新过程的工作量,提高存储、查询和分析的效率。确定数据粒度表,首先需要依据现有系统现状和未来可预见的需求确定可接受的最小粒度级别、可存储的数据量和数据粒度划分策略,进而定义数据粒度表的维度、索引、粒度级别、映射关系等粒度表的关键元素。

以南京地铁线网指挥中心数据仓库中的时间粒度为例,时间维度的粒度表包含了索引、粒度级别、统计开始时间、统计结束时间、描述、各粒度级别之间索引的相互映射关系等字段。具体内容如表3所示。

6 结语

大数据组织是应对快速增长的数据规模和未来运营业务功能拓展、衔接数据仓库数据治理和数据挖掘应用之间的必要环节,可以有效降低系统维护的复杂性,改善数据仓库的存储结构,提高查询、分析、运算的效率,支持未来可变的决策需求。本文从需求分析、主题域设计、数据维度设计、数据粒度设计四个方面,以南京地铁线网指挥中心为例,对数据仓库的大数据组织进行了详细分析和讨论,研究成果成功应用的同时,由于业务需求和应用技术的发展会对数据组织不断产生新的要求,也为未来可预见的应用系统留有充分的裕量。

表3 城市轨道交通时间维度粒度表Tab.3 Table for time dimension granularity of urban rail transit

猜你喜欢
线网数据仓库粒度
粉末粒度对纯Re坯显微组织与力学性能的影响
基于数据仓库的数据倾斜解决方案研究
动态更新属性值变化时的最优粒度
浅析珠海市现代有轨电车线网的规划和研究
组合多粒度粗糙集及其在教学评价中的应用
地铁广州南站七号线开通时客流组织
武汉轨道交通线路环网变化前后线网客流压力分析
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
通信认知教学中多粒度可重用模型建模研究