基于Inception区域候选定位网络的太阳黑子群描述研究*

2020-06-02 00:19刘海燕杨云飞李小洁
计算机工程与科学 2020年5期
关键词:太阳黑子黑子集上

刘海燕,杨云飞,朱 健,李小洁

(1.昆明理工大学信息工程与自动化学院,云南 昆明 650504;2.云南省计算机技术应用重点实验室,云南 昆明 650504)

1 引言

太阳黑子是太阳内部向太空继而向地球表面辐射的强磁场的产物[1,2]。相关研究表明,不同形态的黑子群与太阳活动有着紧密的联系,因此准确地检测和描述太阳黑子群可以为监控和预测太阳活动提供相应的依据。世界各地的天文台一直在观测可见的太阳黑子群,并对其进行分析,提出了一些分类标准,以便及时掌握和描述太阳活动的动态。但是,在已有的几种分类标准中,由于太阳黑子群形态复杂多样,即使属于同一个分类,仍存在一些区别和自有的特征。若能以文字的方式对黑子群图像进行描述,就可以让天文学者直观快速地了解太阳黑子群的现状、特点和变化,可以为天文科普工作提供便捷的手段,便于人们对太阳周期[3,4]、空间气候及黑子群对地球气候系统影响的理解。

图像描述[5,6]是一个融合了计算机视觉和自然语言处理[7]的综合性技术。它的目的是生成基于图像的描述语句,这不仅需要识别图像中的物体,还需要识别其它的视觉元素,如物体的动作和属性,理解物体之间的相互关系,并生成人类可读的、符合自然语言习惯的描述句子。目前,图像描述技术一般应用于一些日常的图像场景中,例如,Mao等[8]提出的多模态循环神经网络m-RNN(multimodal Recurrent Neural Network)模型开创性地将深度学习[9]方法用于解决图像描述生成问题;Lu等[10]提出的自适应注意力机制可以让模型在生成每个单词时,自适应地决定是否要利用图像信息;Jia等[11]将语义信息作为长短期记忆人工神经网络LSTM(Long Short-Term Memory)的额外输入,进一步指导模型生成与图像内容更加贴切的描述;You等[12]提出的模型同时利用了图像的全局特征向量和表示高层语义概念的属性向量,并结合注意力机制,进一步提升了图像描述的效果。相较于前人提出的方法,Johnson等[13]提出的全卷积定位网络FCLN(Fully Convolutional Localization Network)是一个区域描述模型,通过局部区域描述获得更加完整的图像信息。

本文针对太阳黑子群图像描述任务的特点,基于FCLN模型,对其中的区域候选网络RPN(Region Proposal Network)[14]进行了改进,建立了一个端到端的太阳黑子群图像描述模型。本文主要有以下贡献:

(1)通过综合探索视觉和语义信息,本文设计了一种Inception区域候选定位网络IRLN(Inception-RPN Localization Network)的图像描述模型。该模型在FCLN网络的基础上,将原网络中的RPN替换成Inception区域候选网络(Inception-RPN)[15],首次将Inception-RPN网络应用到图像描述中;并针对太阳黑子群大小差异较大这一特征改进了Inception模块的结构,在最后一层特征图上使用该Inception模块滑动窗来生成候选区域,从而进一步提高太阳黑子群检测的准确度。

(2)制作太阳黑子群数据集,并在FCLN和IRLN 2个模型上训练该数据集,结果显示本文IRLN模型相较于FCLN模型在平均精度均值mAP(mean Average Precision)上提高了16%。

本文余下内容的组织方式为:第2节介绍相关工作,第3节详细阐述本文设计的IRLN模型,第4节是实验结果的分析比较,第5节对全文进行总结。

2 相关工作

现有的图像描述方法主要分为以下三大类:

(1)基于模板式的方法[16 - 19]:首先检测图像中的物体类别、动作和属性,并理解物体之间的相互关系,然后将这些信息对应的单词填入固定模板中,最终生成1个描述语句。该类方法生成的句子在语法上较为精确,但描述形式较为单一,主要是其过于依赖固定模板,限制了描述语句的多样性,因而不适用于所有图像。此外,图像中物体种类丰富,物体之间存在多样性的关系,导致标注任务复杂繁重。

(2)基于相似检索式的方法[20 - 23]:首先检索与待描述图像最接近的图像,然后将检索到的图像对应的描述语句迁移到待描述图像上,最终生成基于待描述图像的语句。该类方法生成的描述语句形式多样、灵活,且语法也更贴近人类日常表达方式,但其严重依赖检索库,当待描述图像在检索库中检索不到相似的图像时,生成的描述语句就会与待描述图像有较大出入。此外,这类检索方法需要收集大量人工生成的语句,训练集也需要多样化,因而在一定程度上生成的描述语句缺乏新颖性。

(3)基于编码器-解码器[24]的方法:首先通过编码器将输入序列转化成1个固定长度的向量,然后再通过解码器将之前生成的固定向量转化成输出序列,整个过程是1个端到端的训练过程。基于编码器-解码器的图像描述方法一般分为2个部分:基于卷积神经网络CNN(Convolutional Neural Networks)的图像编码器进行有效的特征提取与编码;基于循环神经网络RNN(Recurrent Neural Network)或其变体(如LSTM[25],联想记忆单元GRU(Gated Recurrent Unit)[26]等)的句子解码器生成描述语句。FCLN属于编码器-解码器的模型,它首先通过CNN提取特征,然后在定位层上定位物体,最后在RNN语言模型上对定位的物体进行描述。

在前人工作的基础上,本文设计了一种IRLN太阳黑子群描述模型,制作了1个太阳黑子群图像和描述文本的数据集,重点是根据黑子群的特征改进了FCLN模型中的RPN网络,通过不同大小的感受野获得特征图来定位不同尺度的目标,提高网络对多尺度黑子群的检测能力。

3 IRLN网络模型

3.1 模型框架介绍

本文设计的太阳黑子群描述流程图如图1所示,通过单轮优化实现端到端的训练。选取黑子群数据集作为训练样本,将宽为W、高为H的原始图像输入CNN网络,生成维度为C、宽为W′、高为H′的特征图;将输出的特征图输入定位层,通过Inception-RPN生成候选区域,采用非极大值抑制[27,28]方法选取B个候选区域,再通过双线性插值将大小为W′×H′的卷积特征图进行划分,得到X×Y个小网格图,最终得到B个C×X×Y固定大小的区域特征;这些区域特征经过识别网络后,被处理成B个D维的可供LSTM处理的向量,在B个候选区域中,每一个候选区域都会生成1个长度为D的一维向量,最终生成描述语句。

3.2 CNN

本文采用VGG-16[29,30]网络作为特征提取网络。该网络由13个3×3卷积层和4个2×2最大池化层[31]组成,但去掉了原VGG-16网络中的全连接层[32]和最后一个池化层。输入图像大小为224×224时,具体的网络参数如表1所示。

本文将VGG-16网络中输出大小相同的卷积层归为一组,如表1中第1列所示,整个网络分为5组卷积层,每一组分别包含x层,如Conv1_x/2表示第1组共包含2层卷积。由表1可见,整个网络卷积核大小均为3×3,通过反复堆叠小尺寸的卷积核来提升CNN对特征的学习能力。表1中第2~4列分别表示卷积核数量、卷积核大小/步长、每一层对应的特征图输出大小。

Figure 1 Flow chart of sunspot groups caption图1 太阳黑子群描述流程图

Table 1 VGG-16 network structure parameter

3.3 Inception-RPN定位层

IRLN的主要目的是物体定位。对于输入大小为C×W′×H′的特征图,先通过Inception-RPN提取候选区域,并使用边界回归对候选区域进行微调,再根据候选区域的置信分数选择B个感兴趣区域ROI(Region Of Interest),最后通过双线性插值将B个候选区域提取成B×C×X×Y固定大小的特征表示向量。Inception-RPN定位层结构图如图2所示。

3.3.1 Inception-RPN

Figure 2 Diagram of Inception-RPN localization layer 图2 Inception-RPN定位层结构图

FCLN中的RPN网络采用VGG-16卷积层的最后一层特征图生成候选区域,经过3×3滑窗后每一个像素点的感受野是固定的,也就是仅由一种感受野生成候选区域,这样的方式会造成部分信息的丢失。但是,如果不同尺度的目标采用不同大小的感受野,就可以获得更好的候选区域。Zhong等[15]提出了Inception-RPN结构,用来提取候选单词区域,取得了较好的结果。因此,本文基于FCLN网络,将原网络中的RPN替换成Inception-RPN网络,并针对太阳黑子群大小差异较大这一特征改进了Inception模块的结构,在最后一层特征图上使用该Inception模块滑动窗来生成候选区域,应用在黑子群描述上。改进后的Inception-RPN网络结构如图3所示。

Figure 3 Structure of improved inception-RPN图3 改进后的Inception-RPN网络结构

本文改进后的Inception-RPN网络由1×1卷积、3×3卷积、5×5卷积和3×3最大池化层组成,将Conv5_3特征图输入网络中,采用多尺度滑动窗实现局部特征提取。此外,在3×3最大池化层的顶部使用1×1卷积进行降维。图3中的k为锚盒的个数,对这些锚进行回归得到候选区域的信息,即锚点对应的置信分数和位置信息。改进的Inception-RPN具有以下优点:(1)添加1×1卷积后,形成的多尺度Inception滑动窗可以更好地检测黑子群,降低漏识别率。(2)太阳黑子群大小差异较大,通过使用感受野不同的特征图来定位不同尺度的黑子群目标,从而进一步提高太阳黑子群检测的准确度。

3.3.2 边界回归

边界回归[33]的主要原因是候选区域往往与真实区域的匹配度不够,经过Inception-RPN网络得到的候选区域的位置信息需要通过边界回归对候选区域边框进行微调。一个锚盒中心坐标为(xa,ya),宽为wa,高为ha,利用线性回归得到关于边框的4个位移参数(tx,ty,tw,th),然后通过式(1)对候选区域的中心点(x,y)和尺寸(w,h)进行更新。

x=xa+txwa,

y=ya+tyha,

w=waexp(tw),

h=haexp(hw)

(1)

3.3.3 双线性插值

根据Inception-RPN网络得到候选区域的置信分数,采用非极大抑制选取B=300个置信分数最高的候选区域,这些候选区域是具有不同大小和宽高比的矩形框。为了与全连接层和LSTM语言模型建立连接,需要将候选区域转换成固定大小的特征向量。最终,对B个候选区域进行双线性插值[33]后,一个尺寸为B×C×X×Y的向量就是定位层的最终输出。

具体来说,就是对于任意的特征图U(C×W′×H′)和候选区域,要将其放缩成大小为(C×X×Y)的特征图V,放缩过程按照如下步骤进行:

(2)

式(2)中,xi,j和yi,j的值均为浮点数,然而图像的像素坐标在计算机中必须为整数,所以坐标(xi,j,yi,j)对应的像素点是虚拟像素点,并不是U中实际存在的点。

(3)

其中,k(d)=max(0,1-|d|)。

(3)利用上面的方法,计算V中所有像素点的坐标值,得到C×X×Y的特征图。

3.4 识别网络

识别网络是一个全连接神经网络,它的输入来自定位层的候选区域的特征矩阵。将每个候选区域的特征转换成一个一维列向量,令其经过2层全连接层,每次都使用线性整流ReLU(Rectified Linear Unit)激活函数和随机失活(Dropout)优化原则。最终,对于每一个候选区域,生成一个长度D为4 096的一维向量。存储所有的正样本,形成一个B×D的矩阵,将该矩阵输入到LSTM语言模型中。

通过识别网络对候选区域的置信分数和位置信息进行二次精修,从而生成每个候选区域最终的置信分数和位置信息。这次的精修与之前的边界回归基本是一样的,只是对长度为D的向量又进行了一次边界回归。

3.5 LSTM语言模型

将特征图输入到LSTM语言模型当中,从而获得基于图像内容的自然语言序列。其方法是将识别网络的输出结果进行编码(每一个候选区域对应一个编码),记为x-1=CNN(I)(I为特征图,CNN为编码函数,x-1为D维图像特征向量),然后将该区域对应的真实描述向量s1,s2,…,st(t表示句子的长度)也进行编码,记为x1,…,xt,这里xi就是对应的si的向量编码。从而得到了长度为t+2的单词向量序列x-1,x0,x1,…,xt,其中x-1代表候选区域的图像信息,x0是特殊的开始标志,x1,…,xt代表每一个单词的向量编码,将这个长度为t+2的向量序列输入到LSTM中。

x-1=CNN(I)

xt=WeSt,t∈{0,1,…,N-1}

pt+1=LSTM(xt),t∈{0,1,…,N-1}

(4)

其中,x-1代表CNN生成的D维图像特征向量,它将作为整个LSTM语言模型的初始输入,St为对应的真实描述,We为一个变换矩阵,xt表示经过矩阵变换后的D维向量,N-1表示句子的长度,S0和SN是特殊的开始标记和结束标记,pt+1代表第t+1个单词在整个单词表中的分布率,它是p(St+1|I,S0,…,St)的简写形式。之后,选取pt最大的元素作为句子中第t个单词的输出,如果概率最大的元素对应的是END标识符,则句子生成结束,迭代终止。

4 实验

4.1 数据集

4.1.1 VG(Visual Genome)数据集

本文实验所用到的是VG(Visual Genome)[34]区域描述数据集,其中包含了94 313幅图像和4 100 413个描述片段(平均每幅图像43.5个描述片段)。图像取自MSCOCO和YFCC100M,对每幅图像中区域的注释是在Amazon Mechanical Turk人工完成的。对于注释的内容,去掉了类似于“there is…”和“this seems to be a…”这样的用一句话描述整幅图的短语和模糊描述短语。为了提高效率去除了大于10个单词的注释,还去掉了注释个数小于20或者大于50的图像。最终留下87 398幅图像。其中,77 398幅图像作为训练集,验证集和测试集各使用5 000幅图像。

4.1.2 太阳黑子群数据集

太阳黑子群数据集是由美国的太阳动力学天文台SDO(Solar Dynamics Observatory)的日震和磁成像仪HMI(Helioseismic and Magnetic Imager)提供的连续光谱全日面图像。本文选取了从2011年1月到2017年4月3 500幅HMI图作为图像数据集。数据集的制作步骤如下所示:

(1)对太阳黑子群进行分类。

太阳黑子群的分类标准有多种,本文选择苏黎世分类法[35]对其进行描述,根据黑子群诞生以后的发展形态,将黑子群按大小和复杂程度分为以下9类:

①无半影的小黑子,或未显示双极结构的小黑子群;

②无半影的双极群;

③双极群,其中1个黑子有半影;

④双极群,2个主要黑子都有半影,至少有1个黑子为简单结构,日面经度延伸小于10°;

⑤大双极群,结构复杂,2个主要黑子均有半影,它们之间还有些小黑子,日面经度延伸大于10°~15°;

⑥非常大而复杂的双极群,日面经度延伸大于15°;

⑦大双极群,只有几个大黑子,无小黑子,日面经度延伸大于10°;

⑧有半影的单极群,直径大于2.5°;

⑨有半影的单极群,直径小于2.5°。

(2)对分类后的黑子群添加描述。

一幅全日面图像中包含多个黑子群,根据上述步骤分类后,手动加入黑子群的详细特征,如所属类、最大黑子的描述和黑子群的大小描述。

最终,该数据集包含了3 500幅图像和15 314个描述片段,其中,3 260幅作为训练图像,120幅作为验证图像,120幅作为测试图像。

2个数据集的信息如表2所示。

Table 2 Details for the two datasets used in experiment

4.2 实验环境

实验程序用lua语言编写,并使用torch7框架实现图像描述算法。计算机配置如下:操作系统为Ubuntu 16.04,8 GB内存的Intel i3-4150 CPU,8 GB显存的NVIDIA GTX-1070Ti GPU。

Figure 4 Test result of FCLN model on VG dataset图4 VG数据集上FCLN模型测试结果

Figure 5 Test result of IRLN model on VG dataset图5 VG数据集上IRLN模型测试结果

4.3 评价指标

在图像描述任务中,模型接收单幅图像并生成一组区域,每个区域都带有置信度和描述。为了评估模型的性能,用与FCLN相同的评价指标mAP,该值联合测量定位和描述精度。本文在不同的重叠度IOU(Intersection Over Union)定位阈值和不同的Meteor[36]语言相似性阈值下计算mAP。对于定位,IOU的阈值分别取0.3,0.4,0.5,0.6,0.7;对于语言相似性,Meteor的阈值分别取0,0.05,0.1,0.15,0.2,0.25。

4.4 实验结果

为了验证本文设计模型的有效性,本文在VG数据集和太阳黑子群数据集上进行了2组对比实验。

图4和图5是在VG数据集上的实验结果。图4展示了在FCLN模型上测试一幅图像的描述结果,可以看出其描述的图像信息较少,造成部分信息缺失。图5为改进后IRLN的模型测试结果,其描述的信息更为详细,且描述的内容与图像的真实内容也比较贴切。

图6和图7所示为在太阳黑子群数据集上的实验结果。图6展示了FCLN模型的测试结果,可以看出该模型漏掉了1个较小的黑子群。图7所示为本文改进后的IRLN模型测试结果,该模型不仅可以识别较大的物体,在识别小物体的能力上也有所提高,从而降低了漏识率。

Figure 6 Test result of FCLN model on sunspot groups dataset图6 太阳黑子群数据集上FCLN模型测试结果

Figure 7 Test result of IRLN model on sunspot groups dataset图7 太阳黑子群数据集上IRLN模型测试结果

Full image RNN[5]和Region RNN[5]是使用MSCOCO图像数据集训练的,不同的是Full image RNN模型在基于整幅图的描述上训练,Region RNN模型在区域描述上训练。VG数据集图像取自MSCOCO和YFCC100M,且它包含的是日常场景的图像,所以用VG数据集图像测试这3个模型有一定的可比性。本文分别将IRLN模型与Full image RNN、Region RNN和FCLN模型在VG数据集上进行对比,再将IRLN模型与FCLN模型在太阳黑子群数据集上进行对比,具体结果如表3所示。

由表3可以看出,在VG数据集上得到的mAP值都较小,主要原因是该数据集的目标种类较多,达到33 877种,而MSCOCO数据集的目标种类只有380种;且该数据集的图像尺寸都在800×

Table 3 Performance comparison of models

800以下,特征提取时较小的特征容易被忽略,所以对于改进部分提高的性能并不是很突出。在VG数据集上,用5 000幅图像进行测试,FCLN比Full image RNN在mAP上提高了1.12%,比Region RNN在mAP上提高了1.13%;IRLN比Full image RNN在mAP上提高了1.82%,比Region RNN在mAP上提高了1.83%,比FCLN在mAP上提高了0.7%。在Meteor指标上,FCLN比Full image RNN提高了7.6%,比Region RNN提高了2.9%;IRLN在Meteor上比Full image RNN提高了12.2%,比Region RNN提高了7.5%,比FCLN提高了4.6%。

在太阳黑子群数据集上得到的mAP值相较VG数据集上的较大,主要原因是黑子群的种类较少,且所有图像尺寸都是4096×4096,较小的特征也能被提取,通过改进后的多尺寸感受野的方法获得更加精确的候选区域,从而提高了整个网络的描述质量。在太阳黑子群数据集上,用120幅图像进行测试,FCLN的mAP为58.22%,IRLN的mAP为74.47%,IRLN比FCLN在mAP上提高了16%。在Meteor指标上,FCLN的值为33.4%,IRLN的值为47.6%,IRLN比FCLN提高了14.2%。

5 结束语

本文设计了一种IRLN的太阳黑子群图像描述模型,该模型能够将全日面图像中的多个黑子群标注出来,并对每一个目标进行详细的描述。根据黑子群大小差异较大这一特征,将FCLN中的RPN替换成Inception-RPN,并进一步改进了Inception模块的结构,通过添加1×1卷积组成多尺度滑动窗,在最后一层特征图上使用该Inception模块滑动窗来生成候选区域。改进的Inception-RPN使用感受野不同的特征图来定位不同尺度的目标,这使得本文模型的结果在VG和太阳黑子数据集上均有所提高。在VG数据集上,IRLN的mAP为6.09%,比FCLN提高了0.7%;IRLN的Meteor为31.9%,比FCLN提高了4.6%。在太阳黑子群数据集上,IRLN的mAP为74.47%,比FCLN提高了16%;IRLN的Meteor为47.6%,比FCLN提高了14.2%。实验结果表明,本文设计的模型可以较好地描述太阳黑子群。

在未来的工作中,将进一步扩充数据集,包括天文领域的其它图像,并且继续改进语言模型,进一步提高描述的准确度。

猜你喜欢
太阳黑子黑子集上
太阳黑子
太阳又长黑子啦
Cookie-Cutter集上的Gibbs测度
太阳黑子自动识别与特征参量自动提取
链完备偏序集上广义向量均衡问题解映射的保序性
黑子的赛跑
R语言在统计学教学中的运用
为什么太阳会长斑?
白云与太阳黑子的故事
黑子的头发