基于LSTM-Attention的高速铁路司机警觉度预测

2023-12-01 11:13潘雨帆周宏宇倪少权郭孜政2
铁道学报 2023年11期
关键词:警觉眼动心电

潘雨帆,史 磊,周宏宇,倪少权,张 骏,郭孜政2,

(1.西南交通大学 信息科学与技术学院,四川 成都 611756;2.西南交通大学 综合交通运输智能化国家地方联合工程实验室,四川 成都 611756;3.西南交通大学 综合运输四川省重点实验室,四川 成都 611756;4.西南交通大学 交通运输与物流学院,四川 成都 611756;5.江西省交通投资集团有限责任公司 路网运营管理公司,江西 南昌 330000)

高速铁路(以下简称“高铁”)运行安全受“人-机-环境”三要素的综合影响,司机的作业表现是保障系统安全的关键因素之一。高铁驾驶作业中长时、单调、低频率刺激的运行环境,极易引起司机警觉的衰退,降低其对突发事件的反应速度,威胁行车安全[1-2]。为让高铁司机在驾驶过程中保持高度警觉,现有动车组配备了无人警惕装置,司机在无需操纵列车的时候,必须每30 s踩一下警惕踏板,否则该装置将自动启动报警并采取紧急制动[3]。虽然无人警惕装置能够让司机在行车过程中保持警觉,但一个交路区间几百次的踩踏增加了司机的负荷,会加速司机认知资源的消耗。且该装置的启动阈值是人为设置的固定值,监测周期超过30 s,对司机警觉状态监测的时效性较差。因此,构建高效的高铁司机的警觉度预测方法具有重要意义。

警觉度指作业人员对外界刺激保持注意力和警惕性的能力[4],高铁司机的警觉度作为认知状态,会直接反映在其生理信号以及行为上。其中神经生理信号精度高、不受人主观控制,被广泛用于警觉度检测。常用的神经生理信号包括脑电、眼动和心电信号3类[5],考虑到数据采集的便利性和非侵入性,本研究选取高铁司机的眼动和心电信号进行分析与讨论。随着警觉度下降,司机眨眼频率和眼睑闭合度增加[6],同时扫视速度会降低,因此眼动的眼睑闭合度、眨眼频率、瞳孔直径以及闭眼时长等特征均可用于测算司机的警觉度[7]。除了通过机器视觉技术采集的眼部运动,眼电信号(Electrooculogram,EOG)也能提取出相应的眼部特征[8],。眼动是一种可以非侵入采集的信号,对操作影响小,虽容易受到光线的影响,但是红外技术的发展已使眼动信号的采集有较高的质量保障。此外,心电信号受交感神经和迷走神经调节,当作业人员警觉度出现下降,交感神经活跃程度增强,而迷走神经活跃程度降低,心率变异性(Heart Rate Variability,HRV)呈上升趋势。心电时域上的R-R间期的均值、标准差[10]频域上的低频能量LF(0.05~0.15 Hz)和高频能量HF(0.15~0.4 Hz)都能有效反应警觉度的变化[11]。

当前警觉度预测模型主要有分类和回归两种思路。分类模型以警觉度评价指标(量表评分、反应时间等)将样本分为2~4个水平,然后以脑电、眼动、心电等指标作为输入,结合支持向量机(Support Vector Machine,SVM)[12]、神经网络[13]、k近邻算法(k-Nearest Neighbor,KNN)[14]、随机森林[15]等算法构建识别。如Yan等[16]以眼动特征为输入,构建特征加权支持向量机来评估司机的警觉度,二分类方法对警觉的检测正确率达到90.98%。张光远等[17]通过神经网络对调度员的面部特征进行检测,该模型对调度员警觉度进行三分类的正确率达到了91.5%。总体而言,分类方法识别准确率可超过90%,但局限在于分类方法忽略了警觉度是一个连续变化的量。

为实现对警觉度的连续度量,部分研究尝试用回归方法来预测警觉度[18]。Lin等[19]以驾驶人对车道偏移的反应时间为警觉度的量化指标,以脑电特征为输入,建立支持向量回归模型(Support Vector Regression,SVR)预测反应时间,误差结果在200 ms以内。Zhai等[20]以驾驶人的脑电特征为输入,结合集成学习方法,预测高铁司机的反应时间,将预测误差减小到130 ms左右。相较于分类算法,回归算法已初步实现对警觉度的连续度量,有利于对司机警觉度精细化监测,但模型还处于探索性研究中,其鲁棒性和稳定性还可进一步提升。

此外,现有警觉度预测方法不足在于构建预测模型时忽略了警觉度的时间特性。高铁司机警觉度变化不是瞬时变化的,具有周期性特点,且周期在4 min以上[21]。本研究拟采用长短记忆神经网络(Long-Short Term Memory Network, LSTM)预测高铁司机警觉度。LSTM是循环神经网络(Recurrent Neural Network, RNN)基础上发展的一种时间递归神经网络,近年来被广泛用于文本翻译和时间序列预测问题[22]。相较于RNN,LSTM可以有效避免梯度消失、梯度爆炸和长期记忆能力不足等问题,在应对时序问题时展现出强大的信息挖掘能力和深度表征能力[23]。为改进LSTM模型因序列较长而丢失信息的情况,部分研究者在构建神经网络模型时引入了注意力机制(Attention)[24]。该机制通过对隐藏层单元分配不同的权重,对关键信息赋予足够的关注,突出重要信息的影响,从而提升模型的预测精度。

本研究拟将高铁司机眼动、心电特征以及作业环境参数作为时序特征输入LSTM模型,对表征高铁司机警觉度的反应时间进行回归预测,并引入注意力机制关注时序特性对输出的影响,以期进一步提升模型的精度和稳定性,实现对高铁司机警觉度的连续准确度量。

1 实验方法

1.1 被试选取

40名青岛机务段的高铁司机参加了本次实验,平均年龄29.1(±2.8)岁,机车驾龄为5~11年,平均为6.3(±2.2)年。所有司机身体状态良好,无心理疾病和影响中枢控制功能的药物史,视力或矫正视力正常。所有被试在实验开始前确认了解实验,并自愿签订《知情同意书》。

1.2 实验设备

实验设备及测试场景见图1。高铁模拟驾驶实验在高铁驾驶行为与安全仿真平台完成,见图1(a),该平台能够1∶1模拟CRH380B型动车组的运行环境。实验中,眼动数据采集设备为德国SMI Eye Tracking Glasses 2W头戴式眼动仪,见图1(b),心电采集设备为BIOPAC MP150多导生理仪,见图1(c),反应时间数据采集设备为定制的USB按钮,数据采集场景见图1(d)。

图1 实验设备及测试场景

1.3 实验任务与实验流程

模拟实验线路为凯里南站往返平坝南站,中间无经停站,司机驾驶过程中根据限速标志控制车速。实验任务参照已有研究[20]设计改进,恒速行驶阶段,要求司机目视前方,右手放置于功率手柄上。当仪表台前方红色刺激灯亮起时,用右手快速按下反应按钮,然后将手放置回手柄上,同时口头报告当前的疲劳程度对应的KSS(Karolinska Scale)量表分数。刺激信号灯呈现时长为1 s,若司机3 s内未做出反应,则该试次标记为漏报。刺激信号灯亮起的间隔时间为20~40 s,实验全程总次数约160次,任务总耗时约100 min。实验安排在9:30和13:30开始,实验过程中,司机需严格按照实验指导语完成任务。实验全程记录行为反应数据和生理数据,眼动数据采样频率为120 Hz,心电数据采样频率为1 000 Hz。实验结束后,主试支付每名司机300元人民币作为被试费。

2 特征提取与筛选

2.1 眼动特征提取

原始眼动视频通过iView X软件处理得到眼动基础数据,包括高铁司机作业过程中注视起止时间和注视点坐标,扫视起止时间、扫视速度,及眨眼起止时间等,通过统计和计算可得所需眼动特征。对于每个红色信号灯刺激,特征提取时以信号灯亮起时刻为0时刻,截取-30~0 s区段的眼动数据为该刺激对应的特征提取单元。以时长为5 s的时间窗将该段数据截取为6段,每个时间窗各自计算眼动特征,最后平均6个时间窗的特征数据作为该试次的眼动特征指标。本研究所选取的7项眼动指标描述见表1。

表1 眼动指标描述

2.2 心电特征提取

心电信号由一系列重复的波组构成,其中QRS波群对高铁司机警觉度的变化最为敏感[25]。提取特征时先采用带宽为0.01~45 Hz的带通滤波器对原始心电数据进行滤波,去除肌电、工频信号等伪迹,并校正基线漂移。然后以次任务刺激出现前30 s的数据为分析单元提取特征。时域特征方面,利用间谱法通过差分原理对QRS波群进行检测,获取R-R间期数据,根据R-R间期计算时域指标[26]。包括R-R间期平均值(MEAN)、R-R间期标准差(SDNN)、相邻R-R间期差值大于50 ms的频次(NN50)以及相邻R-R间期差值大于50 ms的百分比(PNN50),上述指标在高铁司机警觉度衰减时会显著下降。

高铁司机警觉度衰减时,其心电信号的低频能量会有所增强。提取频域特征,对每个分析单元采用窗长为2 s的汉明窗以50%的覆盖率进行分段,将每段数据通过快速傅里叶变换(Fast Fourier Transform, FFT)由时域转换至频域,即

( 1 )

式中:x(n)为高铁司机的心电数据;N为傅里叶变换的点数,本文中取值为2 048;x(k)为汉明窗k对应的频谱,通过对频谱积分求得心电信号的低频能量LF(0.04~0.15 Hz)和高频能量HF(0.15~0.40 Hz),并通过对各窗的特征取均值得到对应分析单元的频域特征,以及低频高频比(LF/HF)。

由于高铁司机心电信号的能量主要集中在低频部分。为进一步挖掘心电信号的特征,提高低频特征的分辨率,可将线性频率分布转换为Mel频率分布,提取心电特征的Mel频率倒谱系数(MFCC)。MFCC系数特征呈对数分布,对高铁司机警觉度衰减时心电低频部分的变化更加敏感,且具有良好的抗噪性[27]。提取MFCC特征,首先通过求取x(k)的平方得到能量谱,然后用M个三角带通滤波器进行过滤,其中第m个滤波器的传递函数Hm(k)为

( 2 )

每个滤波器的对数能量S(m)为

( 3 )

经过离散余弦变换即可得到MFCC系数C(l)为

l=1,2,…,L0

( 4 )

式中:L为MFCC系数的总阶数。参考脑电相关的研究[28],本文设定M=20,L=12。以各窗口数据的MFCC系数作为该分析单元的MFCC系数特征,即每个分析单元可得12个MFCC系数特征,记为MF1~MF12。

2.3 高铁司机行车环境参数提取

高铁司机的警觉度不光受其自身状态的影响,同样也会受到作业环境和作业特性的影响。实际生活中,高铁司机需要在不同的时间段执行运输作业。一趟执乘任务经历的路线可能包含不同的道路环境,以本研究中选取的沪昆铁路贵州段为例,其中包含了大量的隧道。隧道行车光环境变化明显,可能对警觉度造成影响。因此,本文拟选取执乘时段(T1为9:30—11:00,T2为13:30—15:00)和线路隧道(隧道内Tin,隧道外Tout)两个因素分析其对警觉度的影响。

2.4 基于灰色关联的警觉度特征筛选

对40名高铁司机在任务中的160个试次提取眼动和心电特征,可得每名司机的生理特征数据集xl=(x1,x2,…,x26),l=1,2,…,40,维度为26×160。在将生理特征输入预测模型前,需对特征进行筛选以避免冗余信息影响模型的精度和速度。灰色关联分析法的思想是通过对比数据序列几何关系和曲线几何形状的相似性来判断指标间的关联程度,适合小样本分析。本研究中,比较序列为高铁司机警觉度第i列特征指标xi,参考序列为高铁司机对刺激信号灯的反应时间yl。警觉度特征xi和对应反应时间序列yl的灰色关联度ri为

( 5 )

( 6 )

Δi(n)=|yl(n)-xi(n)|

( 7 )

式中:ξi为警觉度特征xi与反应时间yl的关联系数;ρ为分辨系数,一般取值为0.5;N1为样本量,本文中为160。

灰色关联度ri的值越大,说明警觉度特征xi与高铁司机的反应时间曲线相似程度越高。本文选取与高铁司机反应时间平均关联度高于0.7的q项警觉度生理特征作为后续模型的输入。

通过特征提取和筛选,最后用于构建高铁司机警觉度预测模型的特征集为xl=(x1,x2,…,xq,T1,T2,Tin,Tout),包括高铁司机的眼动特征、心电特征以及作业环境参数。

3 基于LSTM-Attention的高铁司机警觉度预测模型构建

3.1 LSTM网络

高铁司机的警觉度不是瞬时变化的,状态起伏具有时序特征,因此本文选取适用于处理时序问题的LSTM模型预测高铁司机的警觉度。LSTM通常包含输入层、隐藏层和输出层,记忆单元是LSTM模型隐藏层的基本单元,每个记忆单元中含有一个控制单元,并使用忘记门、输入门和输出门这3个门控开关进行控制。忘记门决定记忆单元中信息的删除与保留,输入门决定当前输入对记忆单元状态的影响,输出门决定当前记忆单元输出内容,记忆单元结构见图2。

图2 LSTM记忆单元结构

LSTM记忆单元在时刻t有3个输入:当前输入数据xt,包含高铁司机在时刻t的眼动特征、心电特征以及作业环境参数,上一时刻记忆单元输出ht-1和上一时刻记忆单元状态Ct-1。输出内容包括当前时刻输出值ht和单元当前状态Ct。t时刻LSTM记忆单元状态更新过程为

Ft=σ(WF·xt+UF·ht-1+bF)

(8)

It=σ(WI·xt+UI·ht-1+bI)

(9)

(10)

(11)

Ot=σ(WO·xt+UO·ht-1+bO)

(12)

ht=Ot·tanh(Ct)

(13)

3.2 注意力机制

为进一步挖掘高铁司机警觉度特征的时序特性对模型性能的影响,本文引入了注意力机制,突出重要特征,进一步提升模型的效率和可靠性[29],Attention机制结构见图3。

图3 Attention机制结构

当LSTM模型的输入包含K个时刻的警觉度特征时,隐藏层有K个输出向量hk,k=1,2,…,K,将输出向量输入一个全连接网络,可得到每个输出向量对模型最终输出的影响力得分Sk为

Sk=tanh(Wk·hk+bk)

(14)

式中:Wk、bk为全连接网络的权重系数、偏置。

然后通过将每个输出向量的影响力得分归一化至0~1,得到各向量的权重系数αk为

(15)

(16)

(17)

式中:Wd和bd分别是输出层的权重系数和偏置,active(·)为激活函数,由于对高铁司机反应时间的预测属于回归问题,此处选用线性函数作为输出层的激活函数。

3.3 遗传算法优化LSTM

在模型参数优化方法中,遗传算法(Genetic Algorithm,GA)具有较强的全局搜索能力,因此本文选用GA对LSTM模型的参数进行优化。优化的参数包括:LSTM隐藏层的神经元数量、初始学习率、以及全连接层的神经元数量,优化流程见图4。设置初始神经元个数在[16,128]范围内产生的随机数,初始学习率为寻优范围为[0.01,1],生成初始种群。根据每个种群的染色体构建LSTM模型对高铁司机的反应时间进行预测。采用均等系数作为种群适应度fitness为

图4 遗传算法优化流程

(18)

3.4 模型评价

本文选取平均绝对误差nMAE、均方根误差nRMSE和平均相对误差nMRE用于评价高铁司机警觉度预测模型对反应时间的预测效果,各指标计算式为

(19)

(20)

(21)

4 结果分析与讨论

4.1 高铁司机警觉度客观量化指标有效性验证

实验中通过KSS量表分数和高铁司机对随机刺激的反应时间来量化司机在作业过程中的警觉度。为保障后续分析的准确性,首先对警觉度的客观评价指标进行有效性验证。针对每名被试,以其反应时间的三分位数为阈值,将对应的KSS分值样本划分为3组并对每组求得KSS均值。40名司机在不同反应时间对应的KSS分值统计见图5。司机对随机刺激的反应时间越长,其对应的KSS分值越高,具有显著的统计差异,反应时间这个客观指标与KSS分值显示出较好的一致性。表明司机对随机刺激的反应时间是量化其警觉度水平的一个有效的客观指标。

图5 高铁不同反应时间对应KSS量表分数

4.2 高铁司机行车环境对警觉度的影响

高铁作业外部环境对司机警觉度的影响见图6,如图6所示,相较于上午时段,当高铁司机在下午执乘作业时,其口头报告的KSS分值和反应时间都有所增加,但是在统计上并不显著。此种增加的趋势可能是由于司机的生理节律导致的。而在线路情况方面,隧道内的口头报告KSS分值显著高于隧道外,而隧道内的反应时间却显著低于隧道外。可能是因为高铁司机在隧道内行车,环境相对昏暗,缺乏有效的参照系统,注视范围更集中,使得司机的视觉负荷增加,所以主观上会有显著的疲劳感。但是由于一直注释前方,所以在观察和反应时间上有所降低。由于司机在隧道内外在主客观上都表明线路环境对其警觉度有影响,因此将隧道内外这一作业环境变量纳入后续建模,定义隧道内行车特征值为1,隧道外行车特征值为0。

图6 高铁作业外部环境对司机警觉度的影响

4.3 基于灰色关联分析的生理特征选取

分别计算2.1节中提取的7项眼动特征指标和2.2节提取的19项心电特征指标与高铁司机反应时间的灰色关联度,分析结果见表2。由表2可知,共计14项指标与高铁司机反应时间关联度高于0.7,其中包含4项眼动特征指标和10项心电特征指标。灰色关联分析结果表明不同警觉度状态下心电信号的MFCC特征指标变化规律与反应时间的起伏相似性略优于心电的线性频谱和时域特征指标。值得注意的是,与汽车驾驶人警觉度研究中有所不同的是,眼动的SS, FD以及FP指标并没有展现出与高铁司机警觉度有较好的关联性。可能是高铁驾驶和汽车驾驶作业特性的区别导致的,与汽车驾驶不同,高铁司机主要注视区域在正前方,扫视区域相对较小,见图7。因此司机的注视、扫视特征变化不明显。

表2 基于灰色关联分析的特征选取结果

图7 高铁司机行车过程中主要注视区域

4.4 模型预测结果

4.4.1 模型参数优化

为更好的屏蔽个体差异的影响,本研究对每名司机的数据进行独立建模,以4项眼动特征指标、10项心电特征及隧道参数特征为自变量,对刺激信号的反应时间为因变量,建立LSTM-Attention回归模型。对于每名被试,75%的样本用于训练模型,25%的样本作为验证集以查看模型的泛化效果。LSTM-Attention模型的搭建基于TensorFlow1.8学习框架实现,模型权重优化器采用Adam算法,损失函数采用均方误差,激活函数为Linear函数,Batch_size为16,Epoch为100。本文采用GA算法对模型参数进行优化,GA寻优结果见表3。

表3 GA寻优结果

4.4.2 高铁司机警觉度预测模型性能分析

为探究高铁司机警觉度特征的时序特性对模型预测性能的影响,构建LSTM-Attention模型时分别输入了时序长度为1~10的序列特征,输入不同时间序列长度时模型性能见表4。当警觉度特征的时间序列长度为5时,模型的预测效果最佳。实验过程中,高铁司机对信号刺激的反应时间为720~1 340 ms,平均反应时间为966.08 ms。模型对司机反应时间预测的nMAE和nRMSE均值分别为92.86、102.31 ms,模型预测的相对误差为9.6%。当输入特征为单点时刻样本时,模型nMAE和nRMSE均值分别为110.82、136.57 ms,随着输入时间序列长度的增加,模型的预测性能有了显著的提升,当序列长度为5时达到最佳预测效果。结果表明利用司机警觉度特征在时间层面的信息可以有效提升LSTM-Attention模型对高铁司机反应时间的预测效果。但随着时间序列长度的持续增加,模型性能出现轻微的下降,可能是过长的时间序列特征包含了部分的冗余信息,影响了高铁司机警觉度预测模型的精度。

表4 输入不同时间序列长度k时模型性能

为进一步分析探究LSTM模型的性能以及注意力机制对模型预测能力的影响,将时序长度为5的高铁司机警觉度特征分别输入LSTM、SVR、LSSVM和LSTM-Attention模型进行对比,模型预测性能对比见表5。LSTM的预测精度显著高于SVR和LSSVM,表明LSTM处理高铁司机的警觉度时序特征更有更强的适应性。另一方面,注意力机制的引入使LSTM模型的nMAE降低约5%,nRMSE降低约7%。表明注意力机制有助于提取高铁司机各模态特征与警觉度关联的时间特性,进一步提升了LSTM模型对高铁司机反应时间的预测精度。

表5 模型预测性能对比

分别将眼动特征、心电特征、线路参数逐步输入LSTM-Attention模型探究不同模态特征对模型性能的影响。输入模态模型性能的影响见表6。从单一生理特征看,采用眼动特征预测高铁司机的反应时间效果优于采用心电特征。相较于仅以眼动特征为输入,心电特征的加入让模型的nMAE由98.96 ms降至93.28 ms,nRMSE由123.48 ms降至104.68 ms,两个指标分别降低5.7%和15.2%。结果表明融合两种模态的生理特征可从不同角度对高铁司机的警觉状态进行描述,从而提升模型对反应时间的预测精度。此外,线路环境是本文考虑影响司机警觉度水平变化的因素之一,当将线路特征和高铁司机的生理特征一起输入模型,模型预测能力有进一步提升,模型对司机反应时间预测的nMAE和nRMSE均值分别为92.82、103.28 ms,模型预测的相对误差为9.6%。

表6 LSTM-Attention模型输入模态模型性能的影响

5 结论

本文结合警觉度的时间特性,提出一种基于LSTM-Attention模型的高铁司机警觉度预测方法,模型以眼动、心电信号以及线路参数的时间序列特征和作业线路特征为输入,通过Attention机制调整各时刻特征对输出的贡献权重来对高铁司机的反应时间进行回归预测,以此实现对高铁司机警觉度的预测。基于模拟实验数据,LSTM-Attention模型的平均绝对误差为92.86 ms,均方根误差为102.31 ms,模型预测的相对误差约为9.6%,基本实现对高铁司机警觉度的连续度量,可为高铁司机的警觉度监测、预警设备的设计和开发提供理论支撑。数据结果还表明高铁司机警觉度特征的时间特性可用于对警觉度的预测,后续研究中可通过调整特征提取的时间窗口大小,进一步探究警觉度变化的时间特性,提升模型的预测精度。

猜你喜欢
警觉眼动心电
《重新派遣》中的战争创伤书写
基于眼动的驾驶员危险认知
今夜
基于ssVEP与眼动追踪的混合型并行脑机接口研究
心电向量图诊断高血压病左心室异常的临床应用
基于非接触式电极的心电监测系统
穿戴式心电:发展历程、核心技术与未来挑战
更正启事
认知警觉机制的研究与展望∗
警觉与时间期待效应综述