基于改进的BoVW模型的图像检索方法研究

2015-04-22 05:25陈瑞文

重庆科技学院学报（自然科学版） 2015年5期

关键词：尺度空间查准率直方图

陈瑞文

(黎明职业大学信息与电子工程学院，福建泉州 362000)

基于改进的BoVW模型的图像检索方法研究

陈瑞文

(黎明职业大学信息与电子工程学院，福建泉州 362000)

针对传统的BoVW模型对图像尺度变化较为敏感的缺点，提出一种改进的BoVW模型。该方法使用图像的多尺度信息，将图像表示为不同尺度特征，采用多核学习方法优化各尺度特征的相应权重，并用图像检索实验验证该方法的有效性。

BoVW模型; 尺度特征；图像检索; 多尺度空间

随着各种数字媒体的出现，相关的数字媒体技术也飞速发展，如媒体的索引、排序、检索等。多媒体数据库中媒体数量的急增，对各种技术也提出了更高的要求，要求其具有更快的响应速度，更精确的检索精度，这就需要对各种算法进行改进。

基于内容的图像检索有别于传统的基于图像标题的检索，是由用户提供检索关键字或样图，然后根据图像的内容，进行相似度匹配，根据匹配程度进行检索的一种方式。

BoVW(bag of visual word)模型[1]称为视觉词袋模型，最早应用在文本的检索中，近年来，越来越多的被应用于多媒体领域中。BoVW模型首先在视频检索的研究中被系统地阐述与应用[1]，随后又被应用到基于内容的图像检索中。使用BoVW模型构造图像的表现形式，需要3步：首先提取图像的特征，然后构造视觉词典，最后进行特征量化。特征提取常用的方法有SIFT和MSER[2]。视觉词典的构造一般采用聚类函数，常用的聚类函数有K-Means(KM)、Hierarchical-K-Means(HKM)[3]。特征的量化将局部特征描述子量化为与之最接近的视觉词汇，然后使用视觉词汇的直方图来表示图像。

BoVW模型的不足之处是对于图像的尺度变化十分敏感，为改善这一问题，本次研究提出了一种改进的基于多尺度空间的多核学习的BoVW模型，并进行检索实验，证明其先进性。

1 多尺度空间

在不同的尺度空间中，对于一副图像的认识可能会有所不同，为解决这一问题，在图像的建模过程中引入多尺度空间进行图像表示，从而得到一个比较全面的图像表示。尺度空间变换所使用的函数式高斯卷积函数，用I(x,y)描述图像像素的坐标，则其尺度空间表示为L(x,y,σ):

L(x,y,σ)=G(x,y,σ)·I(x,y)

(1)

其中：

(2)

式中：σ— 尺度参数。

2 改进的BoVW模型

2.1 传统的BoVW模型

传统的BoVW模型首先按照某种算法比如检测关键点或对图像进行分块等方法提取图像的特征，然后使用某种聚类函数构造视觉词典，最后进行特征量化，并使用特征向量的直方图进行表示。视觉词汇的权重相加对应特征向量直方图的一个维度。

2.2 基于多尺度的BoVW模型

针对BoVW模型对图像的尺度变化十分敏感的问题，本次研究提出了一种改进的基于多尺度空间的BoVW模型，为不同的尺度空间创建不同的视觉词汇库，图像根据不同的尺度被表示为不同的特征直方图。为确定不同尺度的特征直方图的权重，采用多核学习方法，并根据不同尺度的特征直方图的贡献分配相应的权重。

2.3 多核学习方法

在改进的BoVW模型中，产生了不同尺度的特征直方图，但是由于无法事先知道这些直方图的重要性，因此采用多核学习方法为这些直方图分配权重。多核学习模型是单核学习模型的改进，具有较优的性能。通过多核学习模型，将得到一个判定函数用于分类。

s.t.i=1,2,…,nyi∈{±1}

(3)

其中，xi表示第i个图像的特征向量；

K(xi,x)表示核函数组合：

(4)

其中，Kk表示核函数组合中的第k个核函数，每个Kk()对应一个特征子集。

接下来，定义一个正定的多尺度核矩阵：

(5)

式中：i,j— 核矩阵坐标；

xi— 第i个图像；

Kl— 核函数在第l个尺度空间的表示；

在改进的BoVW模型中，为优化各个基本核的权重，将对核矩阵进行规范化处理[4]。根据式(3)，确定权重bl,其求解如下：

(6)

其中：〈,〉表示L2希尔伯特空间的内积；ξi表示松弛变量；C是松驰变量的惩罚因子。

通过以上公式求解优化确定各个基本核的权重b。

2.4 相似度度量

为进一步计算图像相似度，本次研究采用余玄相似度算法计算2幅图像的相似度。余玄相似度是资讯检索中的常用方法，可以用来计算词频之间的相似度。其计算公式如下：

(7)

其中X,Y表示2幅图像，Xi，Yi分别表示X,Y的特征向量中的一个维度。

余弦值越接近1，就表明夹角越接近0°，即2个向量越相似，反之当余弦值越接近0，则表示2幅图的相似度越低。

3 实验结果与分析

实验采用的图像为corel1000图库，该图库包括了10类图像，每类各100副，包括人、建筑、恐龙、花、公共汽车等10类。

本次研究采用高斯函数进行多尺度变换，变换所得的多尺度图像组成了相应的训练集。尺度参数的初始值设为0.5，下一次变换的尺度为上一次变换的2倍。对于尺度空间变换的次数，取值为n=1～10。实验结果表明，当尺度空间变换的次数设为5时，该模型表现出的性能最好。因此在接下来的实验中，变换次数设为5。

将图像分割成等尺寸的16×16的区块，然后使用128维的SIFT特征向量进行描述，获得局部视觉特征。使用聚类算法KNN进行聚类，生成多尺度视觉词汇表。词汇表的大小设为1 000，对于出现频率最高的词汇，认定为背景噪声，归入废词表。采用Tf-IDF[1]作为视觉单词的权重计算方案。

实验采用余玄相似度算法计算2幅图像的相似度，进行检索实验，利用每类图像检索结果的平均查准率Precision，对本次提出的方法进行评价，Precision越高说明其性能越好。平均查准率的定义如下:

(8)

式中i为检索图像。

每次检索返回前20幅图像，分别进行基于传统的BoVW方法、基于多尺度的BoVW方法、基于多尺度多核学习方法的实验。实验结果表明基于传统的BoVM方法的查准率为0.53，基于多尺度的BoVM方法的查准率为0.58，基于多尺度多核学习方法的查准率为0.63。本次研究提出的多尺度多核学习方法的查准率比其他2种方法均有所提高，具有较好的检索性能。

图1是其中一幅检索结果图，其中第一幅图为检索图像。

图1 采用基于多尺度多核学习方法的检索结果

4 结语

本次研究采用了在文本检索中广泛应用的BoVW视觉词袋模型进行图像检索，并引入多尺度空间，使图像的表示更加全面，从而得到不同尺度的特征直方图，然后使用多核学习方法为这些直方图分配权重，最后采用余玄相似度算法计算2幅图像的相似度。检索实验结果表明本方法是有效的。

[1] Sivic J, Zisserman A. Video Google: A Text Retrieval Approach to Object Matching in Videos[C]IEEE. Proc. of the International Conf. on Computer Vision. Nice, France: IEEE Press, 2003:1470-1477.

[2] Mikolajczyk K, Schmid C. Scale & Affine Invariant Interest Point Detector[J]. International Journal of Computer Vision, 2004, 60(1):63-86.

[3] Goldberger J，Oweiss R，Hinton G，et al．Neighbourhood Components Analysis[C]MPS. Procecalings of 2004 Neurul Information Processing Systems Conference.[s.l.]:MIT Press, 2004:13-18.

[4] Chum O，Matas J．Unsupervised Discovery of Co-occurrence in Sparse High Dimensional Data[C]IEEE. Computer Society Conference on Computer Vision and Pattern Recognition.[s.l.]:IEEE Press, 2010: 3416-3423.

A Method of Image Retrieval Based on Improved BoVW Model

CHENRuiwen

(Department of Computer Science, Liming Vacational Universicy, Quanzhou Fujian 362000, China )

This paper proposes a method based on improved BoVW model, aiming at overcoming the traditional Bag of Visual Word(BoVW) model′s sensitivity to image scale′s variation. Images are represented as feature histograms with different scale based on multiple spaces information. It also incorporates with multiple kernel learning to optimize the histograms weights of different scale. Experimental results of image retrieval prove the validity of the method in this paper.

Bag of Visual Word(BoVW) model; scale feature; content-based image retrieval；multiple scale space

2014-12-24

福建省教育厅2012年度B类课题“关于计算机图形图像的研究与探讨”(JB12495S); 黎明职业大学校级课题“基于内容的图像检索的研究与探讨”(LZ2015107)

陈瑞文(1981 — )，女，福建泉州人，硕士，讲师，研究方向为图像处理、多媒体、图像检索等。

TP391.41

1673-1980(2015)05-0077-03

基于改进的BoVW模型的图像检索方法研究

1 多尺度空间

2 改进的BoVW模型

3 实验结果与分析

4 结 语

4 结语