基于数理统计特征的人机交互图像手势识别

2024-03-23 05:25邹灵果张美花

黑龙江工业学院学报(综合版) 2024年1期

邹灵果,张美花

(1.厦门海洋职业技术学院,福建厦门 361009;2.厦门华天涉外职业技术学院,福建厦门 361100)

人机交互技术研究的是人与计算机以及二者之间的互相影响,是二者交换、传递信息的对话接口与媒介。自“人机紧密共栖”的观点提出以来,这种技术得到了长足的发展,由最初的依赖键盘、鼠标逐渐发展至依靠各种触摸屏、传感器等交互设备。然而以上手段仍然是需要依靠一些中间媒介的,并不是一种自然的人机交互方式。同时随着无线通讯技术的发展与网络的逐渐普及,图形界面交互方式已经无法满足人们的需求,用户也更希望在进行人机交互时,使用更加自然、快捷、非接触式的人机交互方式,使人机交互面临极大机遇和挑战。人机交互也是在这种背景下从最初的“人适应计算机”到后来的“计算机适应人”再到发展方向变为“以人为中心”,朝着更加自然的方向发展。此时,多通道交互技术诞生了。该技术主要是将表情、眼神、手势、语音等自然性的交互方式作为人机交互方式。当前该技术主要包括语音识别、手势识别等层面。如对交互式三维脸部表情动画合成设计是建立在特征分析和信息融合的基础上完成的,构建数字媒体交互式三维脸部表情动画图像采样模型,在三维信息特征提取的基础上建立信息融合模型[1]。其中手势作为人类与生俱来的一种动作姿态,是一种有特定意识的动作,以灵活多变、形象、自然的特点,使手势识别成为该技术中的一个研究热点。对于手势识别技术的研究,目前主要是以计算机视觉为基础,取得了相当丰富的研究成果。其中袁帅等[2]针对传统手势检测算法存在的问题,提出一种基于改进YOLOV3与贝叶斯分类器的手势识别方法,并验证了算法的有效性。该方法在YOLOV3网络中引入了空间变换网络来处理手势信息。对网络提取出的特征进行降维操作后,引入贝叶斯分类器来进行手势分类。王银等[3]提出了一种基于改进TinyYOLOv3算法的手势识别方法。该方法增加网络层数以提取更丰富的语义信息,并使用深度可分离卷积代替传统卷积,通过特征融合减小网络模型大小,并采用CIoU损失改进边界框坐标预测损失,融合通道注意力模块提高定位精度和识别准确率。同时利用数据增强方法避免过拟合,通过超参数优化和先验框聚类等方法加快网络收敛速度。以上方法在应用中存在室外手势识别准确率较低的问题。孙兰兰[4]研究了一种专门针对复杂场景中的多姿态人脸识别方法。该方法在采集图像数据的基础上,通过归一化处理输出层次特征,构建知识蒸馏损失函数。然后根据角间隔区间概率,使用三维地标检测方法实现了人脸关键点识别。杜梦丽等[5]提出一种基于多尺度可变曲率Gabor滤波器的指静脉图像滤波方法,可以从中获取指静脉图像特征。为了优化人机交互图像手势识别性能,设计一种基于数理统计特征的人机交互图像手势识别方法。

1 人机交互图像手势识别方法设计

1.1 人机交互图像预处理

对人机交互图像实施一系列预处理,包括图像灰度化处理、二值化处理、平滑处理以及边缘检测和轮廓提取处理。

由于彩色图像有着较大的信息容量,会带来处理难度大与处理速度慢的问题,因此对其实施灰度化转换。图像灰度化处理的转换如式(1)所示。

(1)

式(1)中,H指的是灰度人机交互图像的色相;ϑ是指彩色人机交互图像的阈值;G表示彩色人机交互图像的绿色通道;B表示其蓝色通道;S指的是灰度人机交互图像的饱和度;R表示彩色人机交互图像的红色通道;V代表灰度人机交互图像的色明度[6]。

指彩色人机交互图像的阈值ϑ的计算公式具体如式(2)所示。

(2)

使用中值滤波技术实施图像平滑处理,滤除图像中的椒盐等噪声,具体操作如式(3)所示。

(3)

式(3)中,hHSV(a,b)指的是灰度人机交互图像;(a,b)是指人机交互图像坐标;o代表中值滤波模板窗口中全部像素数的集合,所选用的中值滤波模板为9*9窗口大小的模板;pHSV(a,b)是指中值滤波后的结果图[7]。

在灰度化处理后,人机交互图像中共有256个灰度级,通过二值化处理使其仅保留0、255这2个灰度级,使人机交互图像呈现黑白的视觉效果[8]。

用代表二值化处理阈值,则二值化图像的表达式如式(4)所示。

(4)

式(4)中,r(a,b)代表pHSV(a,b)的像素群。

选取不同的二值化处理阈值会带来不同的图像处理结果,使用Otsu算法选取阈值。操作步骤如下。

(1)计算人机交互图像整体的灰度平均值,具体如式(5)所示。

H=Q0H0+Q1H1

(5)

式(5)中,Q0代表目标手势图像的平均灰度值;Q1是指背景手势图像的平均灰度值;H0指的是整体人机交互图像中目标图像所占的像素点比例;H1代表整体人机交互图像中背景图像所占的像素点比例[9]。

(2)遍历两部分图像间的分割阈值,用Z来表示,并计算两部分图像的方差如式(6)所示。

v=Q0(H0-H)2+Q1(H1-H)2

(6)

(3)当v取最大值时代表二者之间的差异最大,此时的Z即为k的理想值。

使用Sobel算子实施边缘检测处理,具体步骤如下。

(1)对像素点四个方向实施灰度加权处理;

(2)利用阈值对加权结果实施处理,获取边缘图像。

通过八邻域搜索法提取轮廓,提取步骤具体如下。

(1)在图像中寻找一个像素点,当其为白,不考虑该像素点;当其为黑,标签其相邻点同样是黑色时,判断该点是内部点;

(2)直接删除内部点;

(3)不断重复步骤(1)、(2),直到掏空全部内部点,获取图像轮廓线[10]。

1.2 数理统计特征提取

通过OpenCV提取二值化处理后的人机交互图的数理统计特征-Hu矩,其中包括七个矩,存在平移不变形、旋转不变形以及尺度不变形。其中含有图像对称性、重心、面积等数理统计特征,其中前四个矩主要描述手势的主轴方向角、旋转半径、图像椭圆以及面积,后三个矩主要描述的是手势的细节,即图像对称性、重心、中心距[11]。

在OpenCV中,主要使用两个函数求取Hu矩特征,包括HuMoment与Moment[12]。Hu矩的提取步骤具体如下。

(1)初始化定义变量;

(2)通过Moment求得图像的三阶中心矩与二阶中心矩;

(3)利用HuMoment求得Hu矩特征,具体如式(7)所示。

(7)

式(7)中,ξfg指的是f+g阶的中心矩归一化处理结果,如式(8)所示。

(8)

式(8)中,Ψfg指的是各阶中心矩;Ψ00是指零阶中心矩;v指的是平均阶数,计算结果如式(9)所示。

(9)

应用提取的Hu矩实现手势的识别。

1.3 手势识别

设计基于改进YOLO-V2网络的手势识别模型,实现人机交互图像手势识别,模型的输入为人机交互图、提取的Hu矩以及提取的手势轮廓。在YOLO-V2网络的改进中,主要调整其骨干网络,以提升定位目标物体的准确率,并改变输入图像大小,使手势识别模型检测精度获得提升。改进后的骨干网络模型如图1所示。

图1 改进后的骨干网络模型

具体改进步骤如下。

(1)数据预处理,首先对人机交互图进行预处理,包括图像灰度化处理、二值化处理、平滑处理以及边缘检测和轮廓提取处理等操作,以提高模型的训练效果和泛化能力。同时利用已经提取的Hu矩和手势轮廓信息,将其与图像进行结合,形成模型的输入。

(2)骨干网络调整,传统的YOLO-V2网络使用Darknet-19作为骨干网络。在改进过程中,采用Darknet-19更加先进的骨干网络进行调整,以提升定位目标物体的准确率和稳定性,以提升定位目标物体的准确率和稳定性。

(3)输出层调整,传统的YOLO-V2网络将输入图像分割成7×7的网格,并通过候选框的数量进行预测。而在改进中,将模型输出尺寸由7×7改为16×16,从而增加了预测anchor box的数量。具体来说,改进后的模型可以预测的anchor box数量为16×16×N个[13]。

基于Faster R-CNN模型构建手势识别模型的anchor机制,以生成anchor box。构建的anchor机制具体如下。骨干网络输出数据的大小为W×W,将输出数据划分为网格形式,在各网格中心点处生成多个anchor box。待检测图像的中心所落入的网格负责对该图像进行检测。生成的anchor box相当于标杆,能够将预测框出现的范围直接限定在附近,从而大幅减少模型的计算量[14]。

其中anchor box大小的设置是利用K-means聚类算法来实现的,利用K-means聚类算法学习训练样本,通过对距离函数进行更改,来自动寻找更加适合样本的anchor box[15]。

anchor box的生成总数则可以计算如式(10)所示。

υ=W×W×α

(10)

式(10)中,α指的是通过anchor机制生成的anchor box个数[16]。

(4)训练过程,使用改进后的YOLO-V2网络对手势识别任务进行训练。训练过程中,使用损失函数进行模型优化,本文将模型的损失函数设置为均方误差形式,具体如式(11)所示。

(11)

此外,考虑到手势识别需要对手部区域进行较为精细的检测和定位,因此本文在改进过程中,通过增加输入图像的分辨率,提高手势模型的检测精度。

手势识别模型的训练过程为,利用前向传播计算损失值[18];利用反向传播实施模型权重优化,使损失值逐渐收敛。

(5)模型评估与调优,训练完成后,使用测试集数据进行推理,并评估模型性能。根据评估结果,根据需要对模型进一步的调优。调优完毕后模型的运作流程具体如图2所示。

图2 训练完毕后模型的运作流程

通过以上流程即可实现人机交互图像的手势识别。

2 手势识别与人机交互实验

2.1 实验设置

通过设计的基于数理统计特征的人机交互图像手势识别方法实施手势识别实验,测试其手势识别精度。具体步骤如下。

(1)实验数据采集。将树莓派与USB摄像头连接起来作为实验数据集的采集设备,具体如图3所示。

图3 数据集采集设备

利用采集设备拍摄数字手势的视频序列,接着将其转换成连续图片形式,共收集了不同手型、不同角度、不同环境、不同光照下的3000张手势图片,将其分为5组,分别为数字1、2、3、4、5组,各组600张图片。

(2)对采集的手势数据集进行扩充。该步骤目的是提升设计方法应对不同光照、不同角度、不同环境下识别的鲁棒性。通过图片旋转、翻转等方式生成新的图片,完成手势数据集的扩充。最终的实验数据集中共有15000张手势图片,均为RGB类型,分为5组,分别为数字1、2、3、4、5组,各组3000张图片。

(3)对最终实验数据集实施一系列预处理,并标注各图像的手势信息。

(4)提取各图像的Hu矩。

(5)基于改进YOLO-V2网络的手势识别模型实施手势识别。具体识别过程为:利用改进的YOLO-V2网络对手势图像库进行训练,通过反向传播算法不断优化网络参数,提高网络的准确率和泛化能力。将训练好的模型应用于手势识别任务中,输入手势图像并输出相应的手势类别和位置信息。

在利用模型识别图像手势时,首先对构建的模型实施训练,训练后的损失值如图4所示。

图4 训练后的损失值

由图4可知,此时损失值已经开始收敛,利用训练完毕后的模型实施最终实验数据集的手势识别。测试过程中,将基于改进贝叶斯分类器和YOLOV3与基于改进TinyYOLOv3算法的手势识别方法作为对比方法,共同进行手势识别准确率的测试,并分别用方法①、方法②表示这两种方法。两种对比方法的测试过程与本文方法类似,仅为步骤5中的识别和训练过程不同。

2.2 手势识别测试

设计方法与方法①、方法②对于五组实验数据的室内与室外手势识别准确率测试结果如表1所示。

表1 室内与室外手势识别准确率测试结果

根据表1测试结果,设计方法在室内和室外的手势识别准确率均高于两种对比方法,说明其手势识别性能较好。同时可以看出其室内手势识别准确率高于室外手势识别准确率,这是由于室外环境比较复杂,会降低手势识别的准确率。

设计方法与方法①、方法②对于五组实验数据的室内与室外手势识别时间结果,如图5所示。

(a)室内环境

由图5可知,整体来看室外环境的识别时间高于室内环境中的手势识别时间,其主要原因可能是室外光照等干扰造成的负面影响。无论是哪种环境,设计方法获取的室内和室外手势识别时间均低于两种对比方法,证明了设计方法有着很强的实用性。

识别速度是一种用于衡量图像或视频处理算法性能的指标,通常以帧/秒(Frames Per Second,简称FPS)来表示。它表示在单位时间内能够处理的图像或视频帧数。在手势识别领域,识别速度表示算法能够处理和分析的手势图像数量。较高的识别速度意味着算法能够更快地处理图像,从而实时地对手势进行准确的识别和分类。为此,对比设计方法与方法①、方法②对于五组实验数据的识别速度,结果如表2所示。

表2 识别速度测试结果

根据表2测试结果可知,设计方法展示了更快的识别速度,相对于改进贝叶斯分类器和YOLOV3以及改进TinyYOLOv3算法,能够更快地处理和分析手势图像。这是因为数理统计特征方法不涉及复杂的模型训练和计算,而是通过对统计特征进行手动计算和分类来实现识别任务,从而提高了识别速度。

结语

手势识别主要是利用摄像头捕获手势视频内容后的分析工作。目前手势识别的应用领域已经扩展至智能生活领域、休闲娱乐领域以及机器人控制领域等。设计了一种基于数理统计特征的手势识别方法,通过识别结果实现了与机器人之间的人机交互,今后将在其他领域对其交互性能进行测试。在研究中,由于时间与精力的限制,使取得的研究成果仍存在很多细节问题,今后将继续完善各种细节。