对地观测用户需求智能融合处理技术

2019-06-25 09:54
无线电工程 2019年7期
关键词:幅宽分辨率光谱

陈 勇

(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)

0 引言

随着卫星遥感技术的快速发展,各行各业对遥感影像数据的需求也越来越多,虽然应用目的不同,各用户的遥感数据需求存在多样性,但不同用户之间也会存在相似或相同需求,特别是在发生热点事件和自然灾害事件时,各个参与单位会同时申请热点地区和受灾区域的遥感影像数据,这些数据往往会有相同或者相似的需求,如何融合来自不同用户的需求,实现最大效率地利用卫星观测资源、地面接收资源、地面数据传输资源、降低卫星对地观测系统的任务负荷,需要开展需求融合归并技术研究,将相同或者相似的用户需求进行归并处理。为了解决上述问题,基于自然语言处理的信息抽取技术提出了一种需求融合方法。

信息抽取是指从原始文本中抽取用户感兴趣的事件、实体和关系[1],并以结构化形式存储的技术[2]。近年来,信息抽取已经在经济、医药和军事等许多领域得到了成功应用。沈元一等[3]提出互联网药品信息抽取和监测的整体解决方案,对联网商品信息进行全面、准确、实时、自动的抽取,有效地保障了互联网药品交易的质量和服务;孙师尧等[4]提出了适合军事标图系统应用的信息抽取策略,可大幅缩短军事标图耗费的时间,实现军事标图系统自动化;梁帅等[5]设计并实现了一种病理文本数据的结构化处理系统,支持病理报告中标本及其指标值的自动提取,对同类病症的治疗和分析提供有力的数据支持。在海事领域,信息抽取技术也取得较好的应用。吴建华[6]利用信息抽取技术建立了基于AIS的船舶交通流自动统计软件,实现了船舶交通流的自动统计功能;原欢[7]采用基于规则的信息抽取技术,提出了基于GATE的货物动态邮件信息抽取方法。

第一个实现规则的机器学习方法的是Cristal信息抽取系统[8]。这个系统先从训练样本中生成规则集合,抽取方法是每一个实例提取出一个原始规则。然后循环从规则集合中选择2个相似度最高的规则进行合并,最后得到最小规则集。Crystal系统目前只能够支持单槽的信息抽取,其缺陷是无法确定目标字段的界限。WHISK[9]抽取系统通过将规则的约束条件不断增加来得到最终的结果。此系统首先确定能够能覆盖所有样例的规则,然后通过训练样本对规则增加特征和限制进行拓展,满足一定的错误率要求后停止训练,得到最终的集合。AutoSlog是基于模板词典的规则构造器,能够自动构造指定领域的词典,这样的模板也叫做概念节点。一个概念节点包含概念位元、语言规则以及触发条件[10]。其中位元包含了一系列用于触发的词组,触发条件对生成的语言规则在语法上进行一些约束。RAPIER[11]是基于逻辑的一种信息抽取系统,从训练语料上归纳出所需要的抽取规则。RAPIER采用的是自底向上的学习算法,从具体某一个样本的规则归纳为覆盖全集的范式。RAPIER系统在执行规则生成的过程中运用了语义和句法的信息。SRV[12]是一种基于关联的信息抽取系统,采用自顶向下的归纳式算法进行信息抽取。该系统应用分类算法完成抽取任务,具有相同大小的文本数据被选取为候选项,这些候选项在信息抽取领域。传统正则学习方法大多着眼于在相对小的字符表上进行正则表达式的学习[13]。常见情况是在词性标注[14]、形态分析[15]和词典匹配[16]等文本处理过程之后产生的标注词上进行正则表达式的学习,字符表的大小就由以上分析步骤产生的标注结果所决定。另外,几乎所有之前的工作都将问题限制在一个特定的正则类型中[17],禁用或限制了某些正则符号和操作的使用。

本文将自然语言处理中的关键信息抽取方法应用于对地观测用户需求的智能融合处理,通过对需求文本的语义分析获取观测需求关键参数的方法,研究将观测需求进行融合的方法。

1 基于自然语言处理的需求融合方法

基于自然语言处理的需求融合基本原理如图1所示,包括关键信息抽取、需求转义和融合归并处理环节,涉及信息抽取知识库、需求转义知识库和融合知识库。

图1 基于自然语言处理的需求融合

2 关键信息抽取

2.1 关键信息抽取分类

用户需求关键信息抽取步骤解决从用户文本中抽取遥感影像关键信息元素的问题,抽取的信息包括时间范围、地域范围、任务和影像参数(空间分辨率、传感器类型和波段)。实际上,关键信息抽取实现的是用户需求的浅层语义分析,主要利用抽取规则实现关键信息的识别和抽取[1]。

关键信息抽取技术可分为3类:基于自然语言处理(NLP)的方法[18]、基于规则的方法和基于统计学习的方法[19]。基于NLP的方法是早期的信息抽取方法,一般效率较低,现已较少使用。基于规则的信息抽取方法依赖于信息抽取规则,信息抽取规则代表构成目标信息的上下文约束环境,指明此规则的触发词、激活条件、上下文约束条件和目标信息的位置特征。其中,触发词用于指示目标信息上下文中必须含有的关键词,激活条件指定必须满足的语言模式,约束条件指定信息的合法性,信息的位置指定信息在句子或者段落中出现的位置特征。基于统计的信息抽取需要有大量的训练数据,以获取概率分布模型,但往往很难获取足够的训练数据。

用户的观测需求描述通常遵循某种习惯模式,且具有一定规律性,这种模式和规律性使得采用基于规则的方法进行关键信息抽取成为可能,因此,在本文采用基于规则的方法进行关键信息抽取,主要是针对不同关键信息文本片段内部组成的特征规律建立抽取规则,实现关键信息的识别和抽取。

2.2 正则表达式

在计算机科学中,正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。一个正则表达式通常被称为一个模式(pattern),用来描述或者匹配一系列符合某个句法规则的字符串[20]。例如:Handel,Händel,Haendel这3个字符串,都可以由“H(a|ä|ae)ndel”这个模式来描述。大部分正则表达式的结构形式如下[21]:

(1) 时间:时间关键信息文本片段内部会出现“年、月、日、时、分、秒”等单位,通过对遥感影像用户需求的分析,常见的表现方式是:年份数字+“年”+月份数字+“月”。

(2) 地理名称:代表国家地区的地理名称以及地物名称,例如用户需求“肯尼迪航天中心5 m全色影像”中的“肯尼迪航天中心”,“海南岛10 m多光谱影像”中的“海南岛”。另外,用户需求描述中还会出现一些地理名称和目标名称的缩写形式,例如,“日北海道3 m全色影像”中的“日”,它的常见表现形式是:国家地区名称或者目标名称。

(3) 经纬度:经纬度关键信息文本片段内部格式主要有2种,一种是如“东经120°,北纬23°”,另一种如“120E23N”。

(4) 任务类型:任务类型通常是一些业务术语,例如,“水下地形探测”“农作物估产”“水污染监测”“水资源调查”“冬小麦估产”等。其常见表现形式是:“2016年7月中上旬华北冬小麦估产”中的“冬小麦估产”,出现业务术语词汇的上下文中通常没有任务类型这样的引导词。

(5) 影像参数:遥感影像需求中的影像参数包括分辨率、传感器类型和幅宽,通过对遥感影像用户需求的分析,上述参数常见的表现方式如下:

① 分辨率

方式1:“分辨率:”+ 数字+“~”+数字+“m”,例如,“分辨率:1~10 m”;

方式2:“分辨率:”+ 数字+“~”+数字+“米”,例如,“分辨率:1~10米”;

方式3:“分辨率:”+ 数字+ “m”,例如,“分辨率:10 m”;

方式4:“分辨率:”+ 数字+ “米”,例如,“分辨率:10米”。

② 传感器类型

方式1:“传感器类型:”+ 传感器类型名称,例如,“传感器类型:多光谱”;

方式2:传感器类型名称,例如,“海南岛10 m多光谱影像”中的“多光谱”。

③ 波段

方式1:“波段包含” + 波段名称 + “(”+ 数字“~”+ 数字+“)nm”,例如,“波段包含近红外(700~1 000 nm)”;

方式2:“波段包含”+ 波段名称 + “和”+波段名称,例如,“波段包含近红外和短波红外”;

方式3:“波段:”+ 波段名称+“、”+ 波段名称,例如,“波段:近红外、短波红外”;

方式4:“波段含有” + 数字 + “~”+ 数字 + “nm”,例如,波段含有2 000~3 500 nm。

④ 幅宽

方式1:“幅宽不低于”+ 数字 +“km”,例如,幅宽不低于200 km;

方式2:“幅宽不低于”+ 数字 +“公里”,例如,幅宽不小于200公里;

方式3:“幅宽”+“十里级/百里级/千里级”+“的影像”,例如,“幅宽百里级的影像”;

方式4:“十里级/百里级/千里级”的幅宽,例如,“百里级的幅宽”;

方式5:例如,“幅宽200公里以上”。

为了使抽取规则可被计算机理解和执行,需要对信息抽取规则前提条件中的特征谓词逻辑(特征词信息和命名实体信息)进行格式化表达,为此采用正则表达式技术实现规则前提条件的格式化表达[4-6]。

以时间关键信息为例,相关的抽取规则示例如下:

① 时间信息实体抽取规则1

正则表达式:(\d){4}(-)(\d){2}(-)(\d){2}

示例:抽取形如“2013-10-29”的时间信息实体。

② 时间信息实体抽取规则2

正则表达式:(\d){4}(.)(\d){2}(.)(\d){2}(-)(\d){1,2}(:)(\d){1,2}

示例:抽取形如“2013.10.29-20:50”的时间信息实体。

③ 时间信息实体抽取规则3

正则表达式:(\d){4}(-)(\d){2}(-)(\d){2}(\d){1,2}(:)(\d){1,2}(:)(\d){1,2}

示例:抽取形如“2013-10-29 20:50:12”的时间信息实体。

④ 时间信息实体抽取规则4

正则表达式:(\d){4}(年)(\d){2}(月)(\d){2}(日)(\d){1,2}(时)(\d){1,2}(分)(\d){1,2}(秒)

示例:抽取形如“2013年10月29 日20时50分12秒”的时间信息实体。

⑤ 时间信息实体抽取规则5

正则表达式:

(\d){1,2}(时)(\d){1,2}(分)(\d){1,2}(秒)

示例:抽取形如“20时50分12秒”的时间实体。

从上述分析可以看出,用户对于观测需求中各种关键信息描述方式是多种多样的,所对应的抽取规则业务是多种多样的,为了有效组织和管理关键信息的抽取规则,采用知识本体的方法,形成了信息抽取知识库。

通过对用户需求文本的分析,识别出各种关键信息的触发词、上下文约束条件、区位特征、句子特征和句内特征,基于这些知识构建由特征词汇构成的用户需求解析规则,给定一个用户观测需求文本,利用特征词汇形成的模式结构,结合前述4种要素的抽取模式,对需求文本进行解析,确定分别包含时间、地域、任务和传感器参数的文本子串,以及各个文本子串中包含的具体的时间信息、地域信息、任务信息和影像参数信息。

例如,用户需求“2016年4月下旬安徽省小麦纹枯病监测,采用高光谱影像,空间分辨率优于5 m”,可利用下面的模式进行解析:

【时间】+“对”【地域】+“进行”+【任务】+“采用”+【影响类型】+【空间分辨率】

解析出的时间信息、地域信息、任务信息和影像参数信息如表1所示。

表1 关键信息抽取示例

关键信息项关键信息值时间2016年4月下旬地域安徽省任务小麦纹枯病监测影像参数(空间分辨率)空间分辨率优于5 m影像参数(传感器类型)高光谱影像

3 需求转义

需求转义是在用户需求关键信息抽取的基础上对抽取结果进行规范,使其满足标准化和精确化的要求,实际上需求转义实现的是用户需求的深层语义分析。

① 时间信息的转义:将识别出来的各种格式的时间转变为标准格式。

② 地域信息的转义:将识别出来的地域范围转变为由一系列经纬度值定义的多边形。

③ 任务信息的转义:将任务描述转变为具体的影像参数,任务名称的转义基于需求转义知识库,知识库中包含着任务与影像参数之间的映射关系,反映的是完成某种任务用户所需的影像参数,适用于各军种的需求转义知识库,示例如表2所示。

表2 需求转义知识库示例

军种任 务传感器类型农业农业病虫害监测近红外波段农作物估产多光谱影像、全色农作物长势多光谱影像、全色农作物的叶面指数中分辨率成像光谱仪春小麦面积监测近红外,短波红外,可见光海洋海洋测深、水透明度、海流、油膜(泄漏)、海底类型、大气能见度、潮汐、生物体发光、海滩特征、水下危险事件、大气水汽总量、浅海水下地形高光谱海表面温度红外海平面平均高度、大地水准面、有效波高、海面风速、表层流、海面风场、海面温度、海面风速。微波高度计交通区域交通压力评价全色、SAR能源油气田勘探高光谱环境大气污染微波扫描辐射计

4 融合归并

需求融合归并是在统一、标准化的时间、地域、影像参数格式的基础上进行的,根据时间、地域、传感器类型、光谱分辨率、空间分辨率和幅宽等方面对用户需求之间的相似度进行分析计算,根据计算结果进行需求融合归并。需求的融合归并问题实际是用户需求的聚类过程,经过聚类运算将一批用户需求聚为若干个簇,簇内的用户需求在时间、地域、传感器类型、光谱分辨率、空间分辨率和幅宽等方面相同或者相似。

为了计算需求之间的相似度,需求确定时间、地域、传感器类型、光谱分辨率、空间分辨率和幅宽等方面相似度的量化标准。

为了计算需求之间的相似度,需要对需求在时间(T)、地域(A)、传感器类型(S)、光谱分辨率(V)、空间分辨率(P)、幅宽(W)等指标上的相似度进行量化处理,实现在统一量纲下的相似度评估,相似度的计算公式为:

Similarity=T×λ1+A×λ2+S×λ3+V×

λ4+P×λ5+W×λ6,

式中,λ1,λ2,λ3,λ4,λ5,λ6是权重系数,λ1+λ2+λ3+λ4+λ5+λ6=1。

5 仿真与分析

构建了遥感数据用户需求融合处理原型系统,原型系统的组成如图2所示。

关键信息抽取模块负责抽取用户需求文本中的时间、地理范围、任务和传感器参数等关键信息,需求转义模块负责将抽取出的关键信息转变为标准化和精确化的指标要求,融合归并模块负责将相同或者相似的用户需求合并,知识库管理模块负责维护管理信息抽取知识库、需求转义知识库和需求融合知识库。

图2 原型系统组成

利用农业生产、国土资源和防灾减灾领域各100份用户需求共计300份需求进行了需求融合试验,试验结果表明,融合归并的正确率大于90.2%。部分用户需求关键信息抽取、需求转义及最终融合归并结果示例如表3所示。

表3 用户需求关键信息抽取需求转义及最终融合归并结果示例

序号需求样例浅层解析结果深层解析结果融合后需求12008年天津春小麦面积监测时间:2008年,地点:天津,对象事件:春小麦面积监测时间:2008-1-1 0:00:00—2008-12-31 23:59:59,地点:中国天津市,west:116.657 888,east:118.026 289,north:40.194 066,south:38.548 975,对象事件:春小麦面积监测,分辨率:10~20 m,观测时间:6月1日—6月30日,光谱段:近红外,短波红外,可见光22008年北京春小麦面积监测时间:2008年,地点:北京,对象事件:春小麦面积监测时间:2008-1-1 0:00:00—2008-12-31 23:59:59,地点:中国北京市,west:115.404 177,east:117.464 825,north:41.057 009,south:39.417 053,对象事件:春小麦面积监测,分辨率:10~20 m,观测时间:6月1日—6月30日,光谱段:近红外,短波红外,可见光32008年河北春小麦面积监测时间:2008年,地点:河北,对象事件:春小麦面积监测时间:2008-1-1 0:00:00—2008-12-31 23:59:59,地点:中国河北省,west:113.439 867,east:119.802 968,north:42.562 44,south:36.038 584,对象事件:春小麦面积监测,分辨率:10~20 m,观测时间:6月1日—6月30日,光谱段:近红外,短波红外,可见光时间:2008-1-1 0:00:00—2008-12-31 23:59:59,地点:中国河北省,west:113.439 867,east:119.802 968,north:42.562 44,south:36.038 584,对象事件:春小麦面积监测,分辨率:10~20 m,观测时间:6月1日—6月30日,光谱段:近红外,短波红外,可见光

6 结束语

本文提出了一种利用自然语言处理技术实现对地观测需求融合归并的方法,利用文本信息抽取方法抽取观测需求文本中的关键参数,利用浅层和深层语义分析实现用户需求的转义,再利用聚类算法分别从时间、地域、传感器类型、光谱分辨率、空间分辨率和幅宽等方面对用户需求之间的相似度进行分析计算,将相同或者相似的用户需求聚在一起,实验结果表明,该方法能够有效对自然语言形式的用户需求进行融合归并处理,正确率大于90.2%。

在未来工作中,将尝试利用深度学习与自然语言处理相结合的方法进一步提高关键参数提取的准确率,进一步提升对地观测用户需求融合处理的效果。

猜你喜欢
幅宽分辨率光谱
全钢子午线轮胎压延钢丝帘布幅宽收缩对帘布的影响及相关对策
基于三维Saab变换的高光谱图像压缩方法
基于生成对抗网络的无监督图像超分辨率算法
基于3D-CNN的高光谱遥感图像分类算法
薄膜光伏组件在不同光谱分布下的测试差异
编织袋纬向出弧与机架高度的关系分析
ARM发布显示控制器新品重点强化对分辨率的支持
玉米株型和幅宽对套作大豆产量的影响
苦味酸与牛血清蛋白相互作用的光谱研究
从600dpi到9600dpi