一种基于SIFT的照片档案自动标注技术研究*

2021-09-03 10:42周文欢

山西档案 2021年4期

周文欢

（天津大学档案馆天津 300072）

随着数码相机，手机等成像设备的普及和互联网络技术的飞速发展，现有的档案信息量越来越大，信息的种类和形式也越来越丰富，尤其数字化（无纸）办公产生大量电子文件，档案中的照片档案的数量成爆炸式的增长，同时大数据技术的产生也给照片档案处理带来了新的挑战和机遇。目前每年档案馆归档入库的照片档案占相当比例，再加上馆中库存存档的照片，其中绝大部分照片都不包含任何的标签类别信息，如何对这些海量的照片进行检索利用是一个很大的挑战。如何自动的对大量的照片档案进行类别标记以解决这一困难，进而提高照片检索的准确率和效率，一直是研究人员所关注的热点问题[1]。

本文的研究内容是针对图像检索的关键技术研究所遇到的问题展开的，研究的切入点是档案中照片自动标注，在对图像检索中图像自动标注算法进行了全面[2]，深入的研究前提下，依据现有的理论基础，对现有的特征和算法进行分析和总结，并提出了改进的特征和算法。

1 照片档案标注技术的发展趋势

照片档案利用的核心在于照片检索，检索的任务是高效的管理和组织照片数据，以帮助用户快速、准确、全面的从中找到感兴趣的内容，其核心在于研究如何有效的利用档案照片数据的文字、内容、语义信息学习训练得到分类模型，再建立高效的索引，让用户在合理的时间内以较好的准确度找到所需要的照片，目前主要的照片标注方式有基于照片关键词标注方式等

1.1 基于照片关键词标注方式

照片关键词标注是基于文本的照片档案检索的基础，沿用传统的文本检索技术，通常用提供关键词形式来查询照片，或者是以类别等级目录的方式呈现，用户通过浏览查找特定类别下的照[3][4]。

1.1.1 具体实现方式

具体的实现过程中，首先分析照片所属的主题、照片的文件名称、环绕图像的文字内容、照片的链接地址等，分析出这些文本的结果，推断出照片的关键字，然后以照片相关的关键字建立文本索引[5]。

1.1.2 局限性

但随着照片档案的激增，采用照片关键词标注这种基于文本的检索方式已经不能满足图像检索的要求，局限性越来越显著，原因如下：由人工对图像进行标注，不仅工作性质乏味枯燥，而且耗费大量人力物力，因此人工标注的速度已经不能适应快速增长的档案照片数量[6]；同时人们对于图像含义的理解有着一定程度的主观性，简单几个词汇远不能描述图像所蕴含的丰富含义，同一个人在不同时间对相同图像的认识的也不尽相同，所以人工标注具有相当的主观性和不完整性[7]。

1.2 基于照片内容标注方式

为了解决基于文本的照片检索所遇到的种种问题，上世纪90年代以来，基于内容的照片检索成为了研究热点，与基于文本的照片检索不同，基于内容的照片检索不再以文本信息为照片特征，而是以照片的视觉信息为特征来描述照片，所使用的特征包括颜色，纹理，形状等特征。系统自动的从图像库中提取这些视觉特征，保存到数据库中。当用户提交一幅查询照片时，系统首先提取查询照片的特征，将这个特征拿到图像特征数据库中进行比对，找出与其特征相似的照片，并以相似度排序的方式返回。

基于内容的图像检索立足于图像低层视觉特征：颜色、形状、纹理、gabor、SIFT等特征，通过低层视觉的高维特征来表达一幅图像，接着采用相似度算法计算查询图像与数据库图像的相似度。最后进行相似度排序返回给用户，匹配过程常利用特征向量之间的距离函数来进行相似性度量，模仿人类的认知过程，得到数据库的相似度排序。常用的距离度量公式有：Minkowsky距离、Manhattan距离、Euclidean距离、加权Euclidean距离、Chebyshev距离、Mahalanobis距离等距离范数，基于内容的图像检索系统一般包括图像处理模块、查询模块、对象库、特征库和知识库。

这些基于内容对照片进行标注的方式，可以通过计算机自动化处理快速地处理大量照片，减少人工消耗，提升照片标注速度，适应快速增长的档案照片数量，但这种方式在照片检索利用时有很大的局限性，适用于以图寻图的模式，难以适用于以主题词或关键词进行照片查找，同时对于很多颜色相近的照片标注的准确性和稳定性也不高。

2 多示例多标签照片档案自动标注

虽然基于照片内容标注方式解决了人们在搜索图像时过于依赖关键字标签但不确定目标图像类别和含义的问题，然而很多时候人们并不十分清楚的理解数字化的照片的低层视觉特征到高层的语义之间的映射关系。也就是 “语义鸿沟”（Semantic gap）问题。为了使照片检索系统更加接近人对图像的理解，事实上，人们判断图像的相似性并非仅仅建立在视觉特征的相似性上。更多的状况下，用户主要根据返回图像的含义而不是颜色、纹理、形状等物理特征来判别图像满足自己需要的程度。这些图像的含义就是图像的高层语义特征，它包含了人对图像内容的理解，这种理解不是直接从图像的视觉特征获得的，需要融入人的经验和知识。本文所研究的即是基于照片目标对象层次和区域的图像高层语义特征的提取方法，从一幅图像中通过图像分割和目标识别的方法提取出高层语义特征，即图像自动标注，使得计算机理解图像的能力接近甚至达到人对图像的理解水平。

照片因包含不同的目标物体而被标记为不同的类别标签，但标签与照片中目标物体之间的对应关系不明确，每幅照片所包含的目标物体的数量不尽相同，因此照片自动标注的是一种信息不对称的多分类问题。多示例多标签学习是一种有效解决这种信息不对称分类问题的框架。图像自动标注中多标签多示例学习的目标是：通过机器学习算法从给定的数据集：(X1,Y1),...,(Xm,Ym)中得到一个函数映射fMIML使得：2X→2Υ，其中Xi为第i幅训练图像的示例Ii是第i幅图像的示例数目。Yi为第i幅训练图像的标签集合，Li是第i幅图像的标签数目，m为训练样本数目，对于待标记图像XMNL，函数fMNL(Xtest)的值就是自动标注标签。

2.1 特征的选取

多示例多标签学习图像自动标注方法中特征的选取是非常关键的步骤，图像多示例的特点使得图像全局特征不适合作为多示例多标签学习的特征，通常选取图像的局部特征作为示例特征。多示例多标签照片档案自动标注中图像多示例特征的生成通常采用SBN的方法[12]。SBN方法提取的图像特征计算速度快，维数较低等。同时它反映了图像颜色局部变化特征，但由于降采样导致的信息丢失，这种特征表示方式过于粗糙，而且SBN特征的效果并不是特别好，而且每一幅图去固定示例的数目并不科学，很有可能一幅图像里面只包含2个主要区域，同时SBN特征计算量大，训练模型的时间长，并不是一种很好的多示例特征。为了解决模型训练时间长的问题，结合多示例多学习自动标注问题所要求的特征的特点和图像特征相关知识，提出了将归一化分割的SIFT特征替代原有的SBN特征应用到照片标注中的新方法。

2.1.1 照片归一化分割

首先简单的介绍归一化分割（Normalized Cuts）[13]图像分割的方法，图像分割是一种针对图像的聚类技术，主要是按某种规则将图像分割成多个具有相同特征的区域，比如灰度级相同，颜色相同，纹理相同等等。常用的分割方法有K-means聚类，Mean shift，EM algorithm，图分割方法，各种方法所得到的效果不尽相同，归一化分割方法属于图分割方法的一种。分割效果如下图所示：

图1 MSRC数据库中一张图像的分割效果

可以看到Normalized Cuts图像分割的效果是令人满意的，这种方法是基于图的图像分割方法，其中图是由点以及点和点之间的边构成的的结构，将图结构运用于图像分割的步骤是，首先将图像像素点映射到特征空间，然后建立权重连接图，最后把相似的点归类为一个区域。

2.1.2 SIFT 特征提取

SIFT特征是图像的局部特征，描述的是图像关键区域的梯度直方图分布情况，SIFT算法的实质就是从图像中提取SIFT关键点的过程，算法[9]通过度空间的构建，尺度空间极值检测，特征点精确定位，特征点方向确定，SIFT描述子生成五个主要步骤，通过采取David Lower[10]建议的每个特征点使用4*4共16个种子点进行描述，每个种子点有8个方向的向量信息，这样最终形成128维的SIFT特征向量，如此高维度的特征向量进行MIMLBOOST&MIMLSVM等算法的实验，必定是耗费相当长的时间，本文通过找到嵌入高维空间中的保持高维数据结构关系的低维空间投影的降维方法，将特征维数降到至少与SBN特征的维数相同，并且保证这种降维后的特征仍然具有相同的区分度，最后降维后的特征作为图像的示例特征。

2.1.3 归一化分割的SIFT提取步骤

综上所述，归一化分割的SIFT提取步骤，有着清晰的操作步骤和理论支持，并且保证分类准确度不低于传统的SBN特征。其具体提取的SIFT特征步骤如下：

步骤1：统计数据集中的每一张图像的标签数目，并将此标签数目设定为Ncut图像分割的区域数目。

步骤2：运用Ncut算法对数据集中的图像进行分割，保存分割的区域标记和坐标信息到一个与图像长宽维数一致的矩阵中

步骤3：提取数据集中所有图像的SIFT特征，使用空间投影的方法将SIFT特征从128维降至10维。

步骤4：将SIFT特征点的坐标位置与step2所得到的区域坐标比较，将SIFT特征点按区域聚类，由于SIFT特征是以方向和scale从大到小排序的，也就是排在前面的，拥有更加稳定的特征，这里只取每个区域选择前三个SIFT特征，即一个标签对应三个SIFT多示例。

2.2 多示例多标签方法

图像分类学习算法中最为重要的两个过程是特征的提取和分类算法的选取，为了将前期提取的照片特征库学习训练成自动标注模型，在图像自动标注的多示例多标签学习任务中，问题的特点是一幅图像包含多个区域目标，在多示例多标签学习中称为示例，同时一幅图像又被标记为多个标签，当一幅图像被标记为一个标签时，那么图像必定包含一个以上与这个标签相关的示例，或称为此标签的正样本。相反当一幅图像不被标记为这个标签时，那么图像所包含的所有示例都不与此标签相关，或称为此标签的负样本。

2.2.1 自动标注模型

为了解决多标签和多示例的问题，采用Discriminative MIML Learning[11]方法迭代得到最终的最佳标签分配和分类模型，Discriminative MIML Learning（DMIML）是google纽约研究院的Oksana Yakhnenko等提出的一种可以扩展到大量图像数据的新方法，其提出的算法是线性模型，不需要去计算核矩阵。模型的最优参数可以通过随机梯度下降的方法解一个无约束最优化问题很快的得到，同时可以避免在内存里存储所有的数据，算法首先训练一组可鉴别的多示例分类器，一个分类器对应可能的标签词汇表里的一个标签，然后通过找到排序权重矩阵建立标签之间的关系模型。

2.2.2 图像自动标注框架

图像自动标注是SBIR和CBIR中非常具有挑战性，同时又非常重要的工作。它利用已标注的图像作为训练数据集，通过机器学习算法训练得到图像低层视觉特征与高层语义之间的关系模型，并使用此模型来标注新的未知图像的语义。

详细说明了基于该方法的图像自动标注的主要流程步骤，流程图如下图2所示：

图2 图像自动标注框架

训练模块：首先根据训练图像的标签数目，提取改进的SIFT示例特征，再通过DMIML多示例多标签方法训练自动标注的分类器模型。

标记模块：提取待标记图像的SIFT特征，利用训练的自动标注分类模型对图像的每个示例特征进行类别判断，最终将此类别标签作为图像的预测标签。

最后将预测的多标签对档案照片进行自动标注，以便检索利用。

2.2.3 实验验证

为了档案照片的安全性，本次实验采用的是文献[12]的采用这组图像数据集，该数据集包含2000张图像，共5种类别标签。图像标签预测结果和真实标签的比较如下表1所示：

表1展示了本文提出的自动标注算法在测试数据集上的标注效果，可以看出每幅图片中最主要的目标物体都被准确的标注出来，只有少数位置偏、在图片中较小的次要目标出现漏标（表1中第二行第一、三列、第三行第一、三列出现此类情况），目标不明确导致错误标记（表1中第一行第二列、第二行第三列出现此类情况）。上述的两类错误是主观判断，在可以接受的范围之内，整体计算准确率在95%以上，并且优于根据与文献[12]中采用的基于SBN特征的实验方法准确率，同时这种准确率随着训练的样本越多越来越高，通过上述实验证明本文提出的特征提取算法和多标签多示例算法都是行之有效的图像自动标注方法。

表1 图像标签预测结果和真实标签的比较

3 结论

本文主要介绍了照片档案标注的关键技术，包括基于文本的照片档案标注的相关技术，基于内容的照片档案标注的相关技术，重点研究了基于语义检索中图像自动标注的问题。一幅图像可能因为其中包含多个目标物体而被标记为多个标签，同时标签与目标物体的对应关系未知，根据图像自动标注问题的这种特点，使用多示例多标签学习方法来进行图像自动标注。本文的主要工作包含以下两个方面：

a）提出了一种档案照片的多示例多标签自动标注问题的示例特征，即首先将图像进行分割，提取其中的目标物体的区域特征，在分析了传统的SBN示例特征的优缺点的基础上，提出了一种SIFT特征描述方法，以解决示例特征提取中每幅图像示例数目固定，不能很好的描述真实的问题中每幅图像所包含的目标物体的数目不同的问题，这种基于归一化图像分割的特征方法很好的解决了图像目标分割特征表示的问题，该特征具有区分性强，数据量小等特点。

b）将图像自动标注问题转换成多示例多标签问题，通过引入多示例多标签学习，迭代得到最终的最佳标签分配和自动标注的分类器模型，提出了一个完整有效的图像自动标注流程和步骤，实验证明该方法是一种有效的图像自动标注方法。

本文提出的一种多示例多标签照片档案自动标注技术适用于大规模海里档案照片的快速自动标注，对档案照片的检索利用有重要的促进作用。