一种基于菲涅耳区和深度学习的WiFi手势识别方法

2024-02-28 08:18冉凌鎛刘晓文
小型微型计算机系统 2024年1期
关键词:手势准确率卷积

冉凌鎛,张 雷,刘晓文

1(中国矿业大学 信息与控制工程学院,江苏 徐州 221008)

2(中国矿业大学 物联网(感知矿山)研究中心,江苏 徐州 221008)

3(徐州工程学院 信息工程学院,江苏 徐州 221008)

4(中国矿业大学 电气工程学院,江苏 徐州 221008)

0 引 言

古往今来,手势是一种被广泛应用的交际方式.近年来,为了满足当今社会智慧化发展的需求,以用户为核心的手势识别技术相继出现,建立起了人与智能设备之间的桥梁,成为了人机交互技术的热点研究方向[1].当前,手势识别技术主要是通过传感器[2,3]和摄像机[4,5]等设备来实现的.然而,基于传感器设备的手势识别技术受到了佩戴方式的制约,给用户的生产生活带来了极大的不便;基于计算机视觉的手势识别技术受到光照等自然因素的影响较大,在非视距或光线较暗的地方无法使用或识别精度较低,并且存在一定的隐私隐患.随着物联网和人工智能等技术的兴起,使得过去仅用于无线通信的WiFi信号逐渐被用于无线感知,为手势识别技术的发展创造了新的条件[6].

基于WiFi信号的手势识别技术主要以信号强度指示(Received Signal Strength,RSSI)和信道状态信息(Channel State Information,CSI)为主.早期,Abdelnasser等人[7]提出了WiGest系统,构建了以RSSI为基础信息的手势簇,通过二进制模型实现了大幅度的手部运动检测,但是RSSI抗干扰能力较低,随着信号的传播会发生严重衰减,因而仅适用于粗粒度的室内定位和行为监测等应用.2010年,Halperin等人[8]公开发布了CSI-tool工具,使得CSI信息能够从商用WiFi设备中直接提取.与RSSI相比,CSI的粒度更细,信道分辨率更高[9].Li等人[10]提出了WiFinger系统,首次实现了对数字文本输入的高精度识别,但是该系统没有充分地利用相位信息.He等人[11]提出了WIG系统,在视距和非视距条件下实现了对4种挥手动作的判别,准确率达到了88%.Zhou等人[12]提出了DeNum系统,采用了4层神经网络和支持向量机实现了数字手势的识别.周启臻等人[13]提出了SIL-Fi系统,采用了卷积神经网络与长短时记忆网络结合实现了人员行为的特征提取和分类,准确率达到了94%.虽然上述研究在手势识别领域取得了一定的进展,但是仍存在不足之处,主要有以下3点:1)没有提出一种能够量化手势运动与CSI波形变化之间关系的物理模型;2)手指的反射信号受噪声和多径干扰严重,导致深度模型难以提取到关键的运动特征;3)采用传统的机器学习算法和浅层的神经网络提取的特征都难以准确地描述复杂的手指变化.

针对以上问题,本文通过菲涅耳区模型精确地刻画了手势的变化,然后采用一系列数据预处理方法提高了高噪声环境下CSI信息的显著性,在此基础上,充分利用了所有链路的子载波信息,通过多尺度卷积神经网络和编解码网络萃取出了高维的时空域特征,从而实现了高精度的手势识别.实验证明,该方法对不同的环境和人员具有较强的鲁棒性.

1 手势识别物理模型

1.1 CSI

正交频分复用(OFDM)将整个无线信道的数据流划分到多路正交子载波进行传输,多输入多输出(MIMO)实现了多天线同步收发数据,因此OFDM-MIMO系统[14,15]保证了CSI信息具有较强的抗干扰能力、较高的信道容量,使得CSI对手指的运动变化更加敏感.CSI是指通信链路的信道属性,描述了无线信号在信道上的信号散射、环境衰落和距离衰减,属于物理层的细粒度信息.CSI信息可以从商用WiFi设备中获取,每条通信链路上包含30个子载波,每个子载波由多个数据包组成,单个数据包可表示为:

H(f)=|H(f)|∠H(f)

(1)

式中,f表示信号频率;H(f)表示振幅;∠H(f)表示相位.

1.2 菲涅耳区模型

菲涅耳区研究了电磁波的干涉和衍射现象,揭示了手指的运动位移与信号变化模式之间的映射关系.在小尺度衰落模型中的平坦衰落中,接收信号Y在频域上可表示为:

Y=HX+Z

(2)

式中,X表示发射信号;Z表示高斯白噪声;H表示信道状态矩阵.由于室内多径效应的影响,接收端将会收到不同时延的同源多路信号.因此,无线信号的信道频率响应(Channel Frequency Response,CFR)可表示为:

(3)

式中,e-jθoffset表示相位误差;N表示传播路径总数;ak(f,t)表示路径k的振幅衰减;e-j2πfτk(t)表示路径的相位偏移.根据路径分解模型[16]可知,总的CFR可分解为动态路径的CFR和静态路径的CFR,可表示为:

H(f,t)=e-jθoffset(Hs(f,t)+Hd(f,t)

(4)

式中,Hs(f,t)表示静态路径分量;Hd(f,t)表示动态路径分量.

如图1(a)所示,P1、P2表示收发机的位置;Qn表示第n个椭圆边界上的点,以收发机为椭圆的焦点可组成n个同心椭圆,称为菲涅耳区,第n个菲涅耳区上的一点可表示为:

图1 CSI菲涅耳区模型Fig.1 CSI Fresnel zone model

|P1Qn|+|P1Qn|-|P1P2|=nλ/2

(5)

式中,λ表示子载波的波长.

当手势处于Q1时,动态路径信号与视距信号的行程差为λ/2,由行程差引入的相位偏移为π,同时手势反射引入的相位偏转为π,则两路信号产生的相位差为2π;以此类推,当手势处于Q2时,两路信号产生的相位差为3π.由此可知,当手势切割菲涅耳区变化过程中,两路信号会不断出现相干叠加和相干相消的现象,使得CSI将呈现出类正弦波的形式变化.为了验证菲涅耳区能精确地量化手势运动,此环节召集了一名志愿者站在菲涅耳区内做前后推拉的动作.如图1(b)所示,信号的波峰和波谷交替出现,有效地印证了手势切割菲涅耳区时CSI波形的变化.由于不同的手势切割菲涅耳区的方式不同,产生的CSI也有所区别,因此可作为手势的判别依据.

2 数据预处理

由于环境因素和硬件设备本身不完善的原因,原始的CSI数据中存在噪声和相位误差.若不对其进行处理,将会影响后续的特征提取和分类效果.

2.1 CSI商模型

CSI相位误差是由于收发机之间时钟不同步引起的,过去的研究采用线性变换法[17]来消除误差,计算过程相对繁琐,仅能获取相位的线性变化量,不能提取真实的相位值.

因为本文采用的Intel 5300网卡具有相同的采样频率和射频振荡器,所以每条接收天线上具有相同的相位误差项.CSI商模型[18]是指将每条接收天线上的CSI信息两两进行相除,即振幅相除和相位相减,此过程能够直接消除相位误差,并且也可以滤除部分的环境噪声和多径信号,其数学表达式为:

(6)

式中,对于天线1而言,H1(f,t)表示总的CFR,Hs1(f,t)表示静态分量的CFR,Hd1(f,t)表示动态分量的CFR;对于天线2而言,H2(f,t)表示总的CFR,Hs2(f,t)表示静态分量的CFR,Hd2(f,t)表示动态分量的CFR.对其进一步分解,可表示为:

(7)

式中,d1(t)、d2(t)分别表示天线1和天线2上反射路径的行程,Δd表示二者的行程差,可视为常量;A1(f,t)、A2(f,t)分别表示天线1和天线2的振幅;e-j2πd1(t)/λ、e-j2πd2(t)/λ表示天线1和天线2的相位偏移.为了更容易说明,此处将公式(7)化简为:

(8)

式中,a表示A1(f,t);b表示Hs1(f,t);c表示A2(f,t)e-j2πd1(t)/λ;d表示Hs2(f,t);z表示e-j2πd1(t)/λ.假设d1(t)≥λ,z可视为以顺时针旋转的单位圆,(bc-ad)/c2可视为振幅的伸缩变换,a/c和d/c可视为平移变换.因此,手指变化可以直接用复平面映射来表示,当反射路径的长度大于或等于一个波长时,CSI商在复平面内呈现出一个圆的变化趋势;当反射路径的长度小于一个波长时,CSI商在复平面内以圆弧的形式变化.其中,当静态分量大于动态分量时,圆弧以顺时针方向旋转;反之,圆弧以逆时针方向旋转.

如图2(a)所示,灰色点表示原始的相位分布,分布相对混乱,无法直接用于特征提取;黑色点表示CSI商之后的相位差,波动更加稳定.如图2(b)所示,原始振幅含有大量的环境噪声,完全覆盖了手势的变化;如图2(c)所示,经过CSI商之后的振幅有效地凸显了手势的变化.由此说明了CSI商模型有效地消除了相位误差和部分环境噪声.

图2 相位误差和环境噪声的处理过程Fig.2 Elimination of phase error and environmental noise

为了能够清晰地对比手势在复平面中的变化,此环节通过实验测试了手指左滑和右滑.如图3所示,两种手势不仅在复平面内的始末点均有差异,圆弧的旋转方式也略有不同.由此证明了经过CSI商之后的数据能够有效地展现手势明显的变化,而且无需过多地关注静态分量的影响.

图3 CSI在复平面的变化Fig.3 Change of CSI in complex plane

2.2 子载波去趋势

当手指运动时,子载波普遍会呈现出不同程度的趋势变化,使得CSI信息的斜率大于或小于零,导致CSI信息存在向上或向下偏移的趋势,增加了后续特征提取的难度.因此,需要将直流信号从CSI数据流中消除.假设经过CSI商后的一条子载波为h(n),经过离散傅里叶变换可得:

(9)

式中,K表示数据包长度.当f=0时,可得到直流分量H(0).因此,可用初始信号与直流信号相减消除趋势项.如图4所示,离散傅里叶变换有效地消除了CSI数据中的趋势项.

图4 去趋势后的振幅Fig.4 Amplitude after detrending

2.3 离群值滤波

无论手势处于静止或是运动状态,采集的CSI数据不可避免地会产生异常值,又称离群值,它是指偏离原始数据波形的少量数据点.因此,本文采用Hampel滤波器消除这些异常值.假设去趋势后子载波可以表示为:

H′(f)=[H1,H2,H3,…,HK]

(10)

式中HK,表示第K个数据包的振幅或相位.

Hampel滤波器是根据子载波的均值μ和绝对偏差σ确定波动范围,将波动范围之外的数据点作为离群点滤除,可确定的波动区间为[μ-rσ,μ+rσ].如图5所示,Hampel滤波器有效地消除了异常值的干扰.

图5 离群值滤波后的振幅Fig.5 Amplitude after outliers filtering

2.4 小波阈值去噪

为了消除硬件的内部噪声干扰,本文对上述处理后的数据进行小波阈值去噪.假设经过上述处理后的子载波h(t)中的有用信号为s(t),噪声信号为e(t),数学表达式为:

h(t)=s(t)+e(t)

(11)

对公式(11)进行离散小波变换,可得到:

(12)

式中,φa,b(t)表示小波基函数,其中a和b分别表示平移因子和伸缩因子.离散小波变换后的子载波可由此简化为:

Ha,b=Sa,b+Ea,b

(13)

式中,Ha,b表示离群值滤波后的信息;Sa,b表示低频的近似系数;Ea,b表示高频的细节系数.为了消除细节系数中的高频噪声,采用软阈值函数,数学表达式为:

(14)

图6 小波阈值去噪后的振幅Fig.6 Amplitude after wavelet threshold denoising

3 特征提取及分类

特征提取是整个手势识别系统中非常重要的一部分,它是将CSI数据中具有代表性的信息检索出来,使手势具有更高的辨识度.相较于传统的时频域特征而言,比如方差、均方根、信号熵和绝对中位差等,神经网络能够自适应地挖掘与手势高度相关的数字特征,不受人为因素的影响.

3.1 输入矩阵构建

对于1发3收的天线对而言,每条天线均可接收到矩阵大小为1×3×30×K的振幅和相位信息.为了使模型能够更加充分地提取特征,因此将3条天线振幅和相位整合成大小为180×K的矩阵.由于志愿者每次采集手势样本的耗时均不一致,因而样本长度K也各不相同,无法直接输入到神经网络中.为了保证每个样本矩阵的输入长度相同,本文将对较短的样本进行补零,较长的样本进行截取.

3.2 空间特征提取

卷积神经网络(Convolutional Neural Network,CNN)具有与人类视觉系统类似的感知特性,通过局部感知、权值共享和池化采样可以提取到CSI的空间特征.CNN的卷积计算公式可以表示为:

(15)

图7 空间特征提取Fig.7 Spatial feature extraction

如图7(b)所示,ECA模块的计算过程分为3步,具体过程如下:

Step1.采用全局平均池化压缩空间上的特征信息,将大小为[W,H,C]的整个输入特征图压缩为按通道排列的一串实数[1,1,C].

Step2.引入一个可以权值共享的一维卷积核进行学习,并采用ReLU函数将特征激活,为了保持通道数C不变,在卷积前进行padding,最后得到注意力权重:

w=σ(C1Dk(y))

(16)

式中,C1Dk(y)表示卷积操作,k表示卷积核大小;y表示经过降采样后的特征向量.其中,k的取值与C有关,可表示为:

(17)

Step3.采用短路连接将注意力权重与输入特征图相乘,完成对特征通道的重新校准,其计算过程如下:

Y=Fscale(w,S)=w·S

(18)

随着训练的推进,普通的ReLU函数容易导致局部特征落入硬饱和区,使权值无法更新.为了解决这种神经元死亡的问题,本文均采用了LeakyReLU激活函数.

3.3 时序特征提取及分类

由于手势在时间维度上具有前后关联性,单一的ECA-1D-MS-CNN模型无法建立起时序上的依赖关系.针对此问题,本文提出了一种基于长短时记忆网络(Long Short-Term Memory,LSTM)的多层编解码网络(Encoder-Decoder Network,EDN).一方面,LSTM网络[20]能够提取CSI信息的时域特征;另一方面,编解码结构能够在一定程度上消除无关的特征分量,提高特征的可用性.如图8(a)所示,模型采用了4层LSTM作为编码器,3层反卷积作为解码器,然后采用了一维卷积对特征进行降维,最后采用全连接层和Softmax函数进行手势分类.其中,解码器中引入了自注意力机制(Self-Attention).此外,为了防止网络加深所带来的模型退化问题,引入了短路连接,其有两点优势:1)短路连接将深浅层映射相连,在前向传播过程中,融合了浅层的细节信息和深层的语义信息,为不同层次特征的流动形成通路;在反向传播过程中,将梯度直接引入底层,降低了模型退化的风险;2)短路连接能够改变原有编解码的拓扑结构,使得模型的连接关系更加稠密,特征提取更加充分.

图8 时域特征提取Fig.8 Time domain feature extraction

如图8(b)所示,LSTM网络具有删除和添加隐藏层状态信息的能力,解决了传统的循环神经网络在反向传播过程中的梯度消失和梯度爆炸的问题.其中,隐藏层状态也称为细胞状态,是LSTM的核心,由遗忘门、输入门和输出门组成,其计算过程分为3步:

Step1.遗忘门的作用是对细胞状态中的信息进行选择性的遗忘,可以丢弃与手势序列中与时间信息无关的数据,其数学表达式为:

fc=σ(Wf·[ht-1,xt]+bf

(19)

式中,Wf表示遗忘门权重矩阵;ht-1表示t-1时刻的隐藏层状态;xt表示时刻的输入序列;bf表示遗忘门偏置;ft表示遗忘门输出.

Step2.输入门将有用的信息选择性的保留到当前的细胞状态中,储存并更新数据,其数学表达式为:

(20)

Step3.输出门主要用于决定信息的输出,即下一个细胞状态的隐藏层输入,其数学表达式为:

(21)

式中,Ot表示输出门限;b0表示输出门偏置;Wa表示输出门权重矩阵;yt表示输出特征矩阵.

自注意力机制[21]能够根据手势类别,通过特征之间的相似性关注重要的细节信息,提升模型的计算效率.如图8(c)所示,相较于普通的注意力机制,自注意力机制对手势特征之外信息的依赖更少,能够更多地关注手势本身的内部联系,其计算过程分为4步:

Step1.将原始的特征图映射到查询向量(Query)、键向量(Key)和值向量(Value)3个分支,这3个向量是输入的特征向量与3个权重矩阵相乘得到的,这些权重矩阵是随机初始化的,这有助于学习内部特征图的依赖关系.

Step2.将Query和第i个Key进行相似度计算,计算过程中对两个向量进行点积,数学计算公式如下:

Similariyi(Query,Keyi)=Query·Keyi

(22)

Step3.将所获得的分值采用Softmax函数进行归一化处理,突出关键的特征元素,从而得到一个概率分布,即注意力权重,数学计算公式如下:

(23)

Step4.将权重系数和对应的Value加权求和,得到重新标注后的特征,数学计算公式如下:

(24)

4 实验数据采集

4.1 实验场景

本文分别在实验室和会议室采集实验数据.如图9(a)所示,实验室的长为8m、宽为5m,有沙发、书柜和书桌等物品,空间较为拥挤,多径效应比较丰富;如图9(b)所示,会议室的长为10m、宽为6m,有会议桌和投影仪等物品,空间较为宽敞.实验召集了5名不同年龄、身高和体重的志愿者,采集了 6种空中书写字母的手势,分别是H、O、Z、W、V和A,获取的数据集样本总量为9000个,每类手势的样本量为1500个,数据采集历时两个月.此外,为了防止外界因素对实验结果造成影响,采集数据时减少了无关人员的活动.在实验中,训练集和测试集以8∶2的形式进行分配,并根据测试集的准确率对本文方法进行性能分析.

图9 实验场景Fig.9 Experimental scene

4.2 实验平台

本文所用到的硬件设备由发射机(TX)和接收机(RX)组成.TX采用型号为D-LINK859的双频无线WiFi路由器;RX包含了3根接收天线和一台微型计算机,微型计算机通过Intel 5300网卡与接收天线相连.其中,微型计算机安装了Ubuntu14.04系统,通过CSI-tool工具采集实验数据,并保存在后缀为.dat的文件中.

5 实验分析

电脑配置:英特尔酷睿I7处理器,英伟达3060ti显卡,显存为8G,Windows10系统.其中,数据解析及预处理采用MATLAB2021a,深度学习算法采用PyTorch框架,PyThon3.7.

5.1 采样频率对识别精度的影响

为了验证采样频率对识别精度的影响,本文在两种不同的环境下进行实验,设置的采样频率分别为100Hz、200Hz、400Hz、600Hz、800Hz和1000Hz.如图10所示,随着采样频率的增加,该方法的识别精度也随之提升.这是由于手指引起的波形变化极其细微,更高的采样频率意味着CSI信息具有更高的手势分辨率,使得获取手势特征更加准确,从而有助于提升识别精度.由于多径效应的影响,该方法在实验室中的识别精度略低于宽敞的会议室.因此,为了保证识别效果,本文将采样频率设置为1000Hz用于后续实验.

图10 不同采样频率的识别精度Fig.10 Accuracy of different sampling frequencies

5.2 相位信息对识别精度的影响

相位信息也具有描述手势变化的能力,对准确率存在着一定的影响.为了验证CSI信息的利用率对识别精度的影响,本文通过实验测试了在两种不同的环境下仅采用相位、仅采用振幅和同时采用相位和振幅时的感知效果.如图11所示,将相位和振幅结合用于手势识别的准确率均高于单独使用振幅或单独使用相位的情况.由此说明,振幅和相位互为补充,结合使用能够有效地提升识别精度.

图11 不同感知信息的识别精度Fig.11 Accuracy of different perceptual information

5.3 数据质量对识别精度的影响

虽然深度模型对外界干扰因素具有一定的鲁棒性,但是噪声和误差等因素仍会对识别精度造成很大的影响.为了验证数据预处理算法的有效性,本文将通过实验对比分析预处理前后的数据用于手势分类后的准确率.如图12所示,将未经过预处理的数据用于手势识别在两种不同的场景下的平均准确率都相对较低,在实验室为65.7%,在会议室为70.6%;相比之下,经过预处理后的数据用于手势识别的平均准确率更高,分别为93.3%和95.1%.由此证明了本文设计的数据预处理算法有效地消除了外界因素的干扰,保留了与手势相关的CSI信息,这也从侧面反映了菲涅耳区模型的准确性.

图12 数据质量对识别精度的影响Fig.12 Influence of data quality on accuracy

5.4 模型参数对识别精度的影响

5.4.1 优化器对识别精度的影响

优化器的作用是根据梯度信息不断更新模型的权重,使损失函数逐渐逼近全局最小值.然而,不同优化器的寻优方式存在差异,从而对模型识别精度会造成不同程度的影响.为了寻找到适合该深度模型的优化器,本文将分析两种比较优秀的优化算法对准确率的影响,分别是随机梯度下降法(Stochastic Gradient Descent,SGD)和自适应动量估计法(Adaptive Momentum Estimation,Adam).

如表1所示,在相同的数据集下,采用SGD优化器的模型平均准确率为95.2%,采用Adam优化器的模型平均准确率为93.9%,相比之下,SGD优化器的识别性能更优.此外,SGD优化器达到最优状态的训练时长为10037秒,而Adam优化器达到最优状态的训练时长为11902秒.因此,为了保证识别效果,本文将设置SGD优化器用于后续实验.

表1 不同优化器的识别精度Table 1 Accuracy of different optimizers

5.4.2 学习率和批量大小对识别精度的影响

学习率(Learning Rate)和批量大小(Batch Size)是深度模型最重要的两个超参数,学习率决定了模型的收敛形式,批量大小与模型的泛化性能相关,二者直接影响了权重的更新.为了寻找到最优的学习率和批量大小,本文将通过实验分析在学习率为0.0001、0.001、0.005和0.01及批量大小为16、32、64和128的情况下的识别精度.如表2所示,随着批量的增大,模型的识别精度逐渐上升,这是因为批量越大,显卡的内存利用率越高,样本并行计算的效率也随之提高;当学习率为0.001时,准确率最高,但是当学习率大于或小于0.001时,识别精度都相对较低,这是由于当学习率较大时,梯度容易在最小值附近振荡,导致模型难以收敛,当学习率较小时,模型的寻优过程极其缓慢,容易发生过拟合.因此,在当前的硬件条件允许下,本文将设置批量大小为128和学习率为0.001用于后续实验.

表2 不同的学习率和批量大小的识别精度Table 2 Accuracy of different learning rates and batch sizes

5.4.3 卷积核大小和样本长度对识别精度的影响

在搭建1D-CNN时,选择多大的卷积核和构建多大的输入样本都会对识别精度造成一定的影响.构建手势样本时,除了对数据量较少的样本补零之外,还会对数据量较长的样本进行截取,但是补零太多会增大计算量,截取太多会损失原有的手势特征.为了验证多尺度卷积核的有效性以及构建合理的样本长度,本文将通过实验对比分析卷积核大小和样本长度对识别精度的影响.

如表3所示,与仅采用3×1、5×1和7×1卷积核的1D-CNN相比,1D-MS-CNN网络的准确率更高,这是因为多尺度卷积核对手势特征的覆盖面更广,特征提取更加充分;在此情况下,对比600、900、1200、1500、1800和2100的样本长度可以发现,当样本长度为1500时,准确率达到最高,而大于或小于1500时的准确率都相对较低,说明此时有效地平衡了手势信息的完整性和模型的计算量.

表3 不同卷积核大小和样本长度的识别精度Table 3 Accuracy of different convolutional kernel size and sample length

5.4.4 注意力机制对识别精度的影响

注意力机制能够增强模型对关键手势特征的聚焦能力,节省珍贵的计算资源.在此环节将通过实验验证注意力机制对识别精度的影响.如表4所示,无论在实验室还是会议室,与未使用注意力机制的情况相比,融合注意力机制的1D-MS-CNN具有更高的识别精度;同时,与SE模块相比,选用ECA模块的识别精度更高,说明ECA模块性能更强、计算效率更高,有助于增强1D-MS-CNN的特征提取能力.

表4 注意力机制对识别精度的影响Table 4 Influence of attention mechanism on accuracy

5.5 系统的鲁棒性分析

5.5.1 人员朝向对识别精度的影响

由于人员朝向发生变化,手指切割菲涅耳区的路径也会发生变化,导致手势对CSI信息的影响程度也有所不同.为了验证人员朝向对识别精度的影响,本文采集了5个方位上的手势数据进行实验分析,人员站立的方位如图13(a)所示.如图13(b)所示,当人体面向收发机时,阻碍了无线信号的传播,接收机获取的手势信息较少,所以准确率较低;当人体面对的方向逐渐接近收发机之间连线的垂直方向时,接收机能够获取到更多来自于手势的反射信息,手指位移与CSI波形变化之间的关系更加明显,所以识别精度更高.总体来讲,本文方法在不同的方位上仍然达到了88.4%以上的准确率,能够适应不同方位上的手势识别.

图13 鲁棒性分析图Fig.13 Robustness analysis diagram

5.5.2 不同志愿者对识别精度的影响

因为不同志愿者的年龄、身高和体重等身体指标各有差异,所以相同类别的手势数据也略有不同.为了验证不同志愿者对识别精度的影响,本文采集了5名志愿者的手势数据进行实验分析.如图13(c)所示,该方法对不同志愿者的手势识别准确率均在93%以上.由此说明,该方法受身体指标因素的影响较小,对不同的人员具有较高的鲁棒性.

5.6 系统的总体性能

5.6.1 不同深度模型对比分析

为了验证算法的性能,此环节将在最优的条件下分别对比1D-MS-CNN、EDN和1D-MS-CNN-EDN的准确率.通过实验分析得出,仅采用1D-MS-CNN时的准确率为92.4%,仅采用1D-MS-CNN时的准确率为93.6%,采用1D-MS-CNN-EDN的准确率为96%.其中,1D-MS-CNN-EDN的识别结果的混淆矩阵如图14(a)所示,矩阵的行表示真实的手势标签,矩阵的列表示预测的手势类别.由此看出,每种手势的识别精度都相对较高,其中W的准确率最低,这是因为W的书写过程相对复杂,容易与V产生误判.因此,可以得出如下结论,1)单独使用1D-MS-CNN和EDN均能够较好地应对场景变化和个体差异,取得了优异的识别准确率;2)多尺度卷积神经网络与编解码网络的融合保留了相邻子载波之间的相似性,并兼顾了CSI信息时序上的依赖关系.

5.6.2 不同方法对比分析

为了进一步说明算法的性能,此环节将其与同类方案进行对比分析.如图14(b)所示,与WiFinger、DeNum和SIL-Fi相比,该方法在实验室和会议室均有更高的准确率.这是由于以上3种方案均不能充分地提取手势特征.其中,WiFinger仅利用了振幅信息,通过时频域特征分析难以适用于较大的数据集;DeNum和SIL-Fi采用浅层的神经网络难以应对更复杂的场景和更细粒度的手指运动.此外,三者均未从物理模型的角度来量化手指运动与CSI模式变化之间的映射关系,并且对噪声和误差等干扰因素的处理也不够充分.

6 结束语

本文在现有基于CSI的室内手势识别方法基础上,提出了一种基于菲涅耳区和深度学习的识别方法.根据无线信号的传播特性,采用了菲涅耳区模型量化了手势位移与CSI波形之间的关系;针对CSI数据受噪声影响较大的问题,采用了CSI商模型、离散傅里叶变换、Hampel滤波器和离散小波变换等方法消除了噪声和误差等因素的影响;为了充分地提取多维度的手势特征,结合了ECA-1D-MS-CNN网络和LSTM-EDN网络.实验结果证明,该方法在多种情况下都具有较高的鲁棒性和准确率.但是,该方法仅针对于单人的手势识别,并且对环境具有一定的依赖性,后续将进一步研究一种能够适应环境变化的多人手势识别方法.

猜你喜欢
手势准确率卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
挑战!神秘手势
从滤波器理解卷积
V字手势的由来
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法
胜利的手势