基于单目摄像头的自主健身监测系统

2021-09-17 09:01余鹏刘兰蔡韵何煜张松海
浙江大学学报(理学版) 2021年5期
关键词:关键点语音教练

余鹏,刘兰,蔡韵,何煜,张松海

基于单目摄像头的自主健身监测系统

余鹏,刘兰,蔡韵,何煜*,张松海

(清华大学 计算机科学与技术系,北京 100084)

随着在线健身资源的日益丰富,自主健身已成为新的运动趋势。然而由于缺少专业健身教练的动作指导与纠正,自主健身通常无法保障健身效果且容易造成运动损伤,因此需要对健身动作准确性进行实时监测。现有的健身监测设备往往依托大屏幕、深度摄像头或传感器等硬件,存在设备昂贵、安装不便、使用场景受限等问题,较难满足大众健身的需求。随着人体关键点检测技术的不断成熟,通过手机单目摄像头即可实现对人体姿态的识别,且有较高的准确度和速度,使得在手机端实现低成本、多场景的健身监测成为可能。基于以上背景,设计了三维场景下基于角度阈值的健身动作评估算法,依托于手机单目摄像头和3D人体关键点检测技术,实时检测用户健身动作是否标准并通过语音给出相应提示。同时,在安卓手机上实现了原型系统,通过一系列用户实验验证了系统的可用性与实时性,通过与近年相关工作的对比实验,验证了动作评估方法的准确性。结果表明,本文方法与系统被用户所认可,健身动作评估准确率较高、响应速度满足实时性要求。

自主健身;虚拟健身教练;动作监测;人体关键点检测

近年来,互联网健身拥有较好的宏观环境。政策方面,政府的一系列措施,使得互联网与体育健身进一步融合;经济方面,投资融资情况良好,增强了互联网健身行业的信心;需求方面,用户需求的不断发展,对互联网健身产品市场的成型起推动作用。移动网络的普及,既使得在线健身变得可能,也促使了在线健身需求的增加。

虚拟健身教练应运而生。在传统健身房,私人健身教练的业务包括健身前的运动项目推荐、健身中的动作指导和纠正、健身后的跟进和督促等。其中,动作指导和纠正是必要环节,可以保证运动效果、有效减少运动损伤。然而,现有的虚拟教练产品,如乐刻、超级猩猩、KEEP、火辣健身、小米手环等,功能主要集中在健身教学、健身数据记录、健身社交等,少有实时动作指导和纠正功能。

市场上也有一些产品具备动作监测功能,然而其大多依托特定硬件设备,仍有较大改进空间。据调研,健身动作监测产品可大致分为健身房中的大型装置如EuMotus-BodyWatch、可穿戴设备如小米手环及家庭场景下的大屏设备如华为智慧电视。这些产品或支持功能局限,或设备成本高,或使用场景局限。

人体关键点检测技术的不断更新,使低成本、高精度的健身监测功能的实现成为可能。人体关键点检测即预测人体的重要关节点,进而估计其动作姿势,或对动作姿势进行再编辑。手机端的人体关键点检测技术,在实现效果方面,可在保证速度的同时,不损失准确度,在成本方面,仅需要普通手机的单目摄像头,成本低廉,适合大规模部署。

基于以上背景,本文设计了三维场景下基于角度阈值的健身动作评估算法,并在安卓手机上实现了原型系统,实时监测和反馈在线健身人群健身动作是否标准,重点关注其高准确性和高实时性。在平板支撑、Y字俯身伸展及靠墙静蹲3个动作上进行了测试。结果表明,本文算法具有高准确性,本文原型系统的功能可用性、交互可用性和实时性均得到了认可。

综上所述,本文的主要贡献为:基于手机单目摄像头,使用人体关键点技术实现了用户健身监测,解决自主健身场景下的健身监测缺失问题,满足成本低、场景多样的用户需求。同时本文提出了基于3D人体关键点的健身动作标准评估的可计算模型,提高了动作标准评估的准确度;提出了依托语音提示的交互模式,能够很好地对健身动作进行实时纠正。

1 相关工作

早期“健身”产业的主要形式为“大众健身俱乐部”[1],多依赖于健身教练的指导,而互联网时代的新型健身不再局限于健身房,人们可以在住宅等地随时随地开展健身活动。本文将非健身房,如家庭、宿舍、办公场所、户外操场等环境下开展的无教练监督的健身活动称为自主健身。

健身监测主要基于人体动作识别技术,相关研究可参考XIA等[2]的综述。健身监测通常通过传统传感器、深度摄像机和人体关键点检测3种方法实现,研究内容大致分为动作分类和动作质量评估[3]。

基于传统传感器的方法通常与可穿戴设备、智能手机终端结合在一起。无氧运动的监测内容,早期主要有运动识别、运动分类和动作计数,后来逐渐补充了运动质量评估、及时提供有效反馈等功能。早期的研究,如CHANG等[4]用运动手套中的三轴加速度计识别用户在做的自由重量训练,并记录重复次数。CREMA等[5]用惯性测量单元(IMU)自动检测运动类型,并进行分类与计数。提供运动质量评估和反馈的研究,如“FEMO”系统[6]在哑铃上粘贴RFID标签,ZHOU等[7]提出一种在健身房监控腿部锻炼的新型可穿戴设备。此外,也有一些围绕有氧运动展开的研究,以“RunBuddy”[8]为典型,提出使用智能手机及蓝牙耳机,通过手机内置加速度计和外部麦克风测量呼吸和步幅监控跑步节奏。

基于深度摄像机的方法通常具备同时获得深度图像及彩色图像的能力。VELLOSO等[3]提出使用Kinect进行举重运动的识别和系统评估,包括动作分类、错误动作识别以及提供反馈,并定义了评价动作质量的标准,研究了及时反馈对运动员的影响。JIN等[9]提出了用Kinect监测健身动作的虚拟健身教练,从应用和人机交互层面,进一步支持检测举重、舞蹈、拳击等动作。KUMAR等[10]也提出类似的基于Kinect的实时反馈虚拟教练,用于如侧弯等9种日常锻炼的交互式辅助系统,并用随机森林进行运动分类。

基于人体关键点检测的方法通常具备使用成本低、安装方便、场景多样等优势,但与实时监测健身动作结合的研究却相对较少。部分研究基于Openpose,能实时捕捉用户姿势并通过与预设标准动作匹配进行打分。如QIAO等[11]对太极手势进行了分类、评分;DEB等[12]设计了跳舞机人机交互系统,用户跳一套内置的舞蹈动作,系统持续评估用户动作;HackNYU2018项目设计的系统支持对下蹲、哑铃肩压、二头肌卷曲动作计数,以及评估是否有夸张弯曲和伸展。

人体关键点检测技术大致可分为2D人体关键点检测和3D人体关键点检测,2D人体关键点检测可分为单人关键点检测和多人关键点检测,3D人体关键点检测可分为2D+人体关键点检测和3D人体关键点检测,根据输入的图像是RGB-D还是RGB进行区分。

2D人体关键点检测的研究包括单人关键点检测和多人关键点检测。其中,单人关键点检测已有较好的准确度,如CPM[13]、Hourglass[14]等。多人关键点检测按思路可分为自上而下和自下而上2种。一般而言,自上而下的方法检测准确度较高,自下而上的方法检测速度较快。

自上而下的关键点检测包括目标检测和单人骨骼关键点检测两部分。代表性工作包括Mask-RCNN[15]、CPN[16]、MSPN[17]、RMPE[18]、HRNet[19]等。自下而上的关键点检测的思路为,先检测出所有关键点,再对关键点进行聚类。如2016年COCO关键点比赛的冠军OpenPose[20];NEWELL等[21]用高维空间向量编码不同人的关键点。此外,还有几种经典的检测算法[22],利用身体部位的分割、关键点之间的关系建模。

3D人体关键点检测的任务,即输入图像或视频数据,输出3D人体骨骼关键点位置坐标。输入的数据可分为RGBD和RGB 2种。

基于RGBD图像数据的3D人体关键点检测方式较传统。始于SHOTTON等[23]的研究,利用随机森林算法从单一深度信息图中提取三维人体骨架关键点。HAQUE等[24]采用CNN+RNN网络结构获取人体骨骼关键点。

RGB作为一种输入的方法,也被称作2D+方法。如CHEN等[25]基于CPM估计2D人体姿态,将预测得到的3D人体骨架投影到2D空间,用与2D骨架最相近的对应3D骨架作为结果。2007年,MARTINEZ等[26]提出基于Hourglass的方法。2018年出现的Densepose[27],提出DensePose-RCNN模型,其结果不再是十几个的3D关键点,而是很高密度的人体关键点。较新的工作为VideoPose3D[28],提出了一种时间空洞卷积的全卷积模型。

相较传统传感器和深度摄像机,基于人体关键点检测技术的自主健身系统对硬件设备的依赖更少,更适合推广与普及,部署成本低,更符合本文对家用健身监测技术的需求。3D关键点检测技术较2D关键点检测技术在速度上有所降低,但检测更精确,也更具操作性。已有研究侧重于监测效果的鲁棒性,较少从人机交互的角度进行探究。本文基于3D人体关键点检测技术,注重系统的实时性、准确性、可用性与交互性,探究如何更好地反馈错误动作,并做出提示指导。

2 基于单目摄像头的动作检测与质量评估

系统的总体框架包括前端与后端2个模块。以用户手机端的摄像头采集的视频数据为输入,以手机端的实时语音提示为输出,通过前端实时采集用户健身动作视频数据,由后端服务器运行算法,对输入的视频进行一系列处理,输出动作评估结果和提示内容,再由前端展示为语音提示、用户界面及页面跳转等交互。系统框架如图1所示。

图1 系统框架

2.1 算法流程

算法为系统实现的重点。主要包括3D人体关键点获取、骨架完整性识别、动作分类、动作评估4大模块。其中,动作评估模块为该部分的重点,由本文提出并加以验证。算法流程如图2所示,算法步骤如下:

输入 用户动作的实时视频流。

输出 评估结果及提示内容。

Step1 调用VideoPose3D模型,该模型首先获得17个2D人体关键点坐标,然后恢复得到17个3D人体关键点坐标。

Step2 利用2D人体关键点信息,判断人的四肢是否在屏幕内。

Step3 将输入的动作骨骼信息与动作骨骼数据库匹配,输出相似度最高的动作类型。

Step4 将评估动作是否标准的要点转化为可计算模型。对原始相机坐标进行旋转和平移变换,生成新坐标系下的人体关键点坐标,基于传入动作变换后的3D人体关键点坐标,计算动作的关节角度,制定标准角度阈值,并据此进行判断。

图2 算法流程

2.2 3D人体关键点获取模块

VideoPose3D[28]模型是本健身动作监测系统实现的算法基础,用以解决视频中3D人体姿态预测问题,通过其提出的用于3D人体姿态预测的时间空洞卷积的全卷积模型,用2D关键点执行时间卷积,实现对视频中的人体进行精准的3D姿态预测。此方法能兼容多种2D关键点检测,本文2D人体关键点检测器选择AlphaPose[18]模型,此模型采用自上而下方法,精度和速度较高。准确度方面,该模型平均关节误差为6 mm,在Human 3.6 M[29]数据集上可将误差降低11%。速度方面,此模型基本可达到实时,在显卡为1080Ti、处理器为i7-6850K的服务器中测试,平均帧率为20 FPS。

2.3 骨架完整性识别模块

骨架完整性识别模块利用2D人体关键点信息,判断人的四肢是否在屏幕内。当人的四肢不在屏幕内时,隐藏关节的估计值不准确,导致算法的误差较大。通过分析VideoPose3D模型中的2D关键点置信度,可正确区分四肢是否在相机视野内。2D人体关键点检测的数据集为MSCOCO,共17个关键点,每个关键点均有置信度,代表关键点预测准确的概率,数值为0~1。

为验证算法的准确率,针对实际使用中可能出现的视野问题:(1)四肢完全在视野内;(2)头不在视野内;(3)头、肩部不在视野内;(4)脚不在视野内;(5)脚、膝盖不在视野内。分别拍摄Y字俯身伸展、平板支撑、靠墙静蹲3个动作在这5种视野情况下的视频动作,分析其2D关键点和置信度的分布。结论为,当置信度≥0.4、关键点个数≥12时,可判断四肢在屏幕内。用10个随意暴露部分关节在视野内的视频进行验证,准确率为80%。故将判断规则定为:关键点置信度阈值为0.4、合格关键点个数阈值为12、错误率阈值为0.2。

2.4 动作分类模块

2.4.1动作分类方法

动作分类分为预存动作骨骼数据库和骨骼对比2个步骤。其中,动作骨骼数据库包含Y字俯身伸展、平板支撑、靠墙静蹲3个动作标准姿势下的所有关节角度。第1步,录制3个动作的标准姿势,抽取其中一帧,输出由相连人体关键点组成的关节角度,共14个,如由左肩膀、左肘、左手腕组成的左肘关节。第2步,基于实时输入的动作关键点,计算相连关节角度,与动作骨骼数据库一一比对,输出相似度最高的动作。计算式为

其中,A表示输入动作的相连人体关键点的关节角度,A'表示动作库中相应关节角度。可调整与3个动作相关性最强的关节角度的权重,如身体和轴的夹角。

2.4.2动作分类准确度验证

录制从完全不标准到标准再到完全标准的序列视频,将其逐帧与动作骨骼数据库比对,输出分类结果。如靠墙静蹲动作,序列视频即为从站立到蹲下的全过程,看每帧的分类是否准确。

最终平板支撑、靠墙静蹲的分类准确度均为100%,Y字俯身伸展的分类准确度为96%,出错处为直身站立时,将其判断为平板支撑。

2.5 动作评估模块

2.5.1动作质量评估模型

本文提出一种健身动作质量评估模型,能够对健身动作是否标准进行监测和评价。目前已完成对Y字俯身伸展、平板支撑、靠墙静蹲3个动作的支持。通过访谈健身教练,获知其常通过观察几个要点关节的位置判断动作是否标准,因此,本文以关节角度范围作为主要评估依据。动作评估模块主要包含3个核心步骤。

第1步为坐标变换,由于原算法中的坐标系位置有偏差,人的位置不平行于地面坐标系的任何一个平面,而在动作评估模块,部分关节角度的计算依赖于轴平行于地面,轴垂直于地面,轴垂直于平面右手坐标系,如靠墙静蹲,大腿与地面呈角,不仅需要计算关节角度,还需要以轴作为竖直基准线,判断上下的方向。原始相机由于坐标系位置偏差,只能计算关节角度,不能判断方向。因此,在VideoPose3D模型坐标系及关键点数据基础上,本文首先对其进行旋转变换。在原始坐标系下,选取人的头、鼻子、臀部中点3个关节点构成平面,将垂直于它的法线作为轴,构建三维坐标系,且使原始平面与地面坐标系的平面平行,对原始坐标系做旋转变换。坐标变换前后人体关键点位置对比如图3所示。

图3 坐标变换前后人体关键点位置对比

第2步为关节角度计算,核心计算公式为反余弦函数,根据具体动作,公式细节也有所改变。VideoPose3D算法输出的骨骼信息为骨骼关键点的空间坐标,先将其转化为空间向量,再求向量夹角:

以平板支撑为例,评判动作是否标准的要点有2个:臀部是否上提或下榻、膝盖是否伸直。评判臀部的高度,既要看动作是否标准,也要看臀部的方向,计算公式为

图4为根据式(2)~式(4)求得的平板支撑的臀部角度序列,其中,X轴为截取视频的第70至250帧,Y轴代表对应帧的臀部角度。由图4可知,大腿向量与X轴相反,随着臀部变低,角度越来越大。

第3步为关节角度标准阈值的制定,由健身教练对每帧健身动作视频做标准、不标准标注,通过角度计算得到结果。具体方法为:被试分别针对3个动作中的要点部位动作,模拟现实情况中可能出现的各种角度,做出动作并对其进行视频录制。健身教练通过目测,区分标准和不标准的视频帧。同时将其代入动作角度计算模块,得到各要点部位关节的标准阈值。如平板支撑动作,分别做出:(1)臀部从最高点到最低点的动作,(2)膝盖从不直到直的动作。臀部,当∈[4,7]时,动作标准,当>7时,臀部偏高,当<4时,臀部偏低。膝盖,当∈[174,180]时,动作标准,当<174时,膝盖未伸直。对于Y字俯身伸展动作,为颈部到臀部的向量与轴的夹角,当∈[114,125]时,动作标准,当<114时,身体偏低,当>125时,身体偏高。对于靠墙静蹲动作,为左膝到左臀的向量与轴的夹角,当∈[72,82]时,动作标准,当<72时,大腿偏高,当>82时,大腿偏低。

2.5.2动作质量评估模型验证

本文采取用户实验方法,邀请专业人士验证动作评估模块的可用性。实验方法为:从3个健身动作的序列视频中,分别随机抽取10张图片,邀请3位健身教练、1位有8年健身经历的资深达人,主观评价动作是否标准、如何不标准,并与此模块的输出结果做比对。分别统计4名被试的动作质量结果与系统结果一致的概率,比较平均概率。实验结果如表1所示。

表1 动作质量评估准确率

动作质量评估模型的评估结果与专业人士的判断基本一致,准确度在90%以上。误差出现在标准动作的临界值,这与专业人士的个人经验有较大关系,此模块的评估标准相对宽松,对错误动作有更高的包容度。

3 实验

主要采用用户实验和对比实验2种形式验证系统的准确性与可用性。通过与近年的动作评估标准对比,希望探讨基于3D人体关键点数据的动作评估标准相对于基于2D人体关键点数据的动作评估标准有哪些优势;通过用户实际使用,反馈测试系统的可用性,包括功能可用性和交互可用性。功能可用性测试的重点为验证语音提示准确度、响应速度是否满足用户的实际使用要求。交互可用性测试的重点为语音指导能否替代私人健身教练。用户实验在前端为高通骁龙660处理器的安卓手机、后端为i7-6850K处理器以及2张1080Ti显卡的服务器上进行。对比实验在i5-4200H处理器、960M显卡的Windows10系统下进行。

在正式用户实验前,先进行预实验。

在预实验中,邀请4名被试,1男3女,其中1名为健身教练(曾为系统设计提供过指导),2名为在校大学生,1名为互联网公司产品经理。在正式用户实验中,另邀请了8名被试,均为KEEP健身App用户,4女4男,其中2名为在校学生,5名为在职职工,1名为退休职工。

在对比实验中,与DEB等[12]基于2D关键点数据提出的动作评估标准进行了对比,以验证本文算法的准确性。

3.1 预实验与系统迭代

邀请被试体验本系统,并访谈其主观感受。由被试自行安装并体验系统,随后,对被试进行在线访谈。

基于用户建议,系统的语音提示流程和内容在初版的基础上进行了迭代,集中调整了语音提示流程及内容的特征,包括:(1)去掉不必要的语音提示,如纠正不到位的反馈提示、去掉动作准备提示;(2)降低提示频率,纠错提示由5次降为4次;(3)降低鼓励性语音的频率;(4)修改部分容易产生歧义的语音;(5)增加语言的多样性,如动作正确时用“非常完美”“很不错”“保持住”等不同的鼓励语言。

3.2 功能可用性测试

功能可用性测试的指标为准确度、流畅度。请被试将系统安装在个人手机上,选择其中1个动作进行体验。

准确度测试,请被试评价健身过程提示的准确度。客观记录被试对每次提示准确度的评价,计算准确度概率;访谈被试,准确度是否达到预期。

流畅度测试,客观记录每次语音提示的延迟时间,计算平均值;访谈被试提示是否及时及主观感受。

经测试,健身监测的准确度在90.6%以上,在32次监测中,有3次判断错误,其中2次出现在平板支撑动作的臀部位置,被试认为臀部过低,但系统判断为标准。还有1次是在靠墙静蹲时,被试认为大腿还未与身体平行,系统却给出标准判断。关于对健身监测的准确度的主观评价,7人认为即便判断有错误,但对动作标准的整体识别程度仍超出预期,1人认为还有改进空间。被试提出的问题主要集中在希望系统可以支持提醒更多的身体部位。

健身监测的速度平均约延迟1 s,在32次监测中,最大延迟1.2 s,最小延迟0.7 s。关于被试对延迟的实际感受,8人均认为提示足够及时,没有感觉到延迟,尤其是提示纠正到位的反馈非常及时,不会出现纠正过头的情况。但也有2人提出,在几处动作不标准时没有给出纠正提示。其实,此处是有意设计的,语音提示的间隔出现,是模拟健身教练的指导,因提示频率太高会打扰用户,特别是在被试力竭时不宜过多提示。

3.3 交互可用性测试

交互可用性测试从两方面进行:(1)整体对比本系统的语音提示和健身教练的指导;(2)本系统的语音提示特征是否自然友好。为得到有效的结论,实验采取A/B测试方法,由被试分别体验对比方案,并对被试进行访谈,了解其主观感受。实验内容如表2所示。

表2 交互可用性测试实验内容

实验1,被试挑选一个动作,在健身教练指导和语音指导2种方式下进行体验,访谈被试更喜欢哪一种方式,并阐述理由。实验2,主要对比2种语音特征:(1)主动性与被动性,包括特别主动、适中、特别被动3档。特别主动,即几乎每秒都有语音提示;适中,即平衡语音提示的频率和无用信息;特别被动,即只有动作不标准时才提示。(2)正反馈与负反馈,分为完全负反馈、正/负反馈掺半2档。完全负反馈即没有鼓励性语音;正/负反馈掺半即纠错提示与鼓励性语音均有。被试挑选一个动作,分别体验2种对比语音特征,访谈被试更喜欢哪一种,并阐述理由。

实验1结论:语音指导在居家健身场景下,可以替代健身教练指导,但仍有改进空间。请8名被试综合考虑健身教练的花销,对2种方式进行评价。5人更倾向语音指导,2人认为各有千秋,1人倾向健身教练指导。选择语音指导的原因为低成本、提示准确、提示频率自然、符合当下的健身目标等。选择健身教练指导的原因集中在专业知识水平高、值得信赖。选择各有千秋的认为既有在家健身的需求,也有去健身房健身的需求,认为2种方式不冲突。

被试普遍认可健身教练指导有优势,包括动作纠正的精细度、肢体辅导的直观性、提示频率的定制化。动作纠正的精细度,如平板支撑动作,健身教练的指导会考量肌肉发力,先提示腰、背部,再提示臀部。肢体辅导的直观性,如健身教练会将学员身体摆到正确的位置,可以很直观地感受正确的发力,在最后阶段力竭时,健身教练也会用肢体语言鼓励坚持。提示频率的定制化,即对于在最后坚持不住的被试,会密集鼓励,对于身体素质较好的被试,则提示较少。

实验2结论:被试认为本系统的语音提示较自然友好。相比特别主动、特别被动以及完全负反馈的语音提示,用户基本上更喜欢本系统——语音提示主动性适中、正/负反馈掺半。主动性特征方面,6人喜欢本系统主动性适中的语音提示,认为很自然、有陪伴感、与真人辅导较相似,其中,训练阶段目标提示是他们普遍认为最有用的部分;2人喜欢特别被动的提示,认为提示少,训练更加专心。正负反馈比例特征方面,7人喜欢本系统正/负反馈掺半的提示,认为鼓励性反馈令他们更有训练热情;1人喜欢完全负反馈的提示,提示频次低,更能专心训练。

在大多数情况下,被试在一次语音提示后即可将动作调整至标准,即使部分被试某些动作调整幅度不够或者过大导致动作依旧错误,也可在第二次语音提示时将动作纠正到位。由此可见,本系统的语音提示能够及时有效地帮助用户纠正错误动作。

最后,被试对本系统语音提示提出了建议,主要有:(1)动作质量评估标准更细节,如评价单个动作是否标准的要点部位更多,以达到更高的专业度;(2)语音提示的频率可依据用户力竭情况,进一步定制化,如对坚持得较好的用户,提示频率相对较低,从而更人性化;(3)对部分语音辅以音效,如将“纠正到位”的语音设置为音效提示,以提高用户的心理愉悦感。

3.4 动作评估准确度对比实验

DEB等[12]提出的动作评估方法基于2D关键点数据,除去面部特征后,选取了14个人体关节,将其表示为高维空间中的向量,并使用L2范数归一化对向量进行预处理,从而消除人的高矮胖瘦差异对预测结果的影响。对每个预处理好的数据计算其与数据库中每个数据的相似度,选取与最相似的数据对应的动作标准作为对该数据的判断结果。以每个关节与数据库中对应关节的欧氏距离的加权和作为相似度,其权值为2D关键点数据中关节的置信度。

DEB等[12]的动作评估方法与本文方法的对比实验结果如表3所示,实验数据包括3个动作的训练视频和测试视频,总共有679帧训练数据和525帧测试数据。

表3 基于不同方法的动作评估准确率

可见2种方法下靠墙静蹲动作评估准确率均较高,而Y字俯身伸展动作评估准确率均较低;本文方法3种动作的评估准确率均较高。主要原因为:本文方法基于3D关键点数据,能在对关键点进行旋转变换后判断其与地面的关系,且本文方法涉及的许多动作判断标准均引入了地面这一参考系,如大腿是否与地面平行、身体与地面是否成30°~45°等。本文方法基于关节角度的评估标准相对于基于相似度的评估标准更符合健身教练的指导习惯,不仅具有更高的准确度,而且方便系统给出具体的动作指导。更重要的是,本文方法能保证无论输入怎样的数据,只要其不符合关节角度标准,就会被当作不合格动作。而使用基于相似度的方法进行评估时,如果数据库中没有对应的错误动作,则可能由于错误动作与正确动作相似度极高,而被误判为正确动作,影响评估准确率。表3中平板支撑动作的数据恰好证明了这一点。正确的动作只有一个标准,错误的动作却有多种可能,无法保证数据库中包含所有可能的错误动作。基于相似度的动作评估方法相比基于关节角度的评估方法显然存在巨大缺陷。

4 总结与展望

4.1 总结

设计了三维场景下基于角度阈值的健身动作评估算法,并在安卓手机上实现了原型系统,该系统基于最普通的手机单目摄像头,即可实时评估和纠正健身中的不标准动作,并通过语音提示进行全程辅导。目前仅支持平板支撑、Y字俯身伸展、靠墙静蹲3个动作。

基于对系统的设计与实现,本文首先通过详尽的用户调研,提出一种AI模拟私人健身教练的交互模式。同时,以VideoPose3D人体关键点检测模型为核心算法,提出一种健身质量评估模型,设计和实现了算法流程和系统搭建,并用大量算法实验进行验证。随后,通过一系列用户实验,对系统功能可用性、交互可用性进行了测试和评估。通过动作评估模块的对比实验,测试了动作评估方法的准确率。

实验证实了本文方法和系统具有较好的准确度、较实时的响应速度以及被用户认可的自然交互,能在居家健身场景下替代私人健身教练。

4.2 工作展望

本文设计的系统功能较为简单,虽然交互相对自然但也较为基础,结合被试的建议和系统的实际使用情况,可从以下几个方向进行优化:

(1)单个动作更精准的纠错提示:目前系统的动作标准评估仍较基础,一方面,未来可以针对单个动作,设计更多要点部位的评估;另一方面,随着人体关键点检测技术的进步,可采用更密集的关键点检测算法模型,提高检测关节部位的精度。

(2)系统支持动作更丰富:目前系统可支持的为常见的训练动作,且只支持静态动作,未来可增加支持动作的多样性。

(3)实现交互的多样性:如加入游戏化的交互设计,设计关卡、积分、打卡等游戏化的机制,使用户获得更多激励,增加用户使用兴趣。

[1]刁在箴,马更娣,张莹,等.中国体育健身俱乐部发展概况之研究[J].北京体育大学学报,2002(6):744-745,750. DOI: 10.3969/j.issn.1007-3612.2002. 06.009

DIAO Z Z, MA G D, ZHANG Y, et al. Research on general situation of clubs for body-building in China[J]. Journal of Beijing University of Physical Education, 2002(6):744-745,750. DOI: 10.3969/j.issn.1007-3612.2002.06.009

[2]XIA S H, GAO L, LAI Y K, et al. A survey on human performance capture and animation[J]. Journal of Computer Science and Technology, 2017, 32: 536-554. DOI: 10.1007/s11390-017-1742-y

[3]VELLOSO E, BULLING A, GELLERSEN H, et al. Qualitative activity recognition of weight lifting exercises[C]//Proceedings of 4th Augmented Human International Conference. New York: Association for Computing Machinery, 2013: 116-123. DOI: 10.1145/2459236.2459256

[4]CHANG K H, CHEN M Y, CANNY J. Tracking free-weight exercises[C]//Proceedings of the 9th International Conference on Ubiquitous Computing. Berlin/Heidelberg: Springer-Verlag, 2007: 19-37. DOI: 10.5555/1771592.1771594

[5]CREMA C, DEPARI A, FLAMMINI A, et al. IMU-based solution for automatic detection and classification of exercises in the fitness scenario[C]//2017 IEEE Sensors Applications Symposium (SAS). Piscataway: IEEE, 2017: 1-6. DOI: 10. 1109/SAS.2017.7894068

[6]DING H, SHANGGUAN L F, YANG Z, et al. FEMO: A platform for free-weight exercise monitoring with RFIDS[C]//Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. New York: Association for Computing Machinery, 2015: 141-154. DOI: 10.1145/2809695. 2809708

[7]ZHOU B, SUNDHOLM M, CHENG J Y, et al. Never skip leg day: A novel wearable approach to monitoring gym leg exercises[C]//2016 IEEE International Conference on Pervasive Computing and Communications. Piscataway: IEEE, 2016: 1-9. DOI: 10.1109/PERCOM.2016. 7456520

[8]HAO T, XING G L, ZHOU G. RunBuddy: A smartphone system for running rhythm monitoring[C]// Proceedings of the 2015 ACM International Joint Conference on Pervasive and Ubiquitous Computing. New York: Association for Computing Machinery, 2015: 133-144. DOI: 10.1145/2750858. 2804293

[9]JIN X, YAO Y, JIANG Q L, et al. Virtual personal trainer via the Kinect sensor[C]//2015 IEEE 16th International Conference on Communication Technology (ICCT). Piscataway: IEEE, 2015: 460-463. DOI:10.1109/icct.2015.7399879

[10]KUMAR P, SAINI R, YADAVA M, et al. Virtual trainer with real-time feedback using kinect sensor[C]//2017 IEEE Region 10 Symposium (TENSYMP). Piscataway: IEEE, 2017: 1-5. DOI: 10.1109/TENCONSpring.2017.8070063

[11]QIAO S, WANG Y L, LI J. Real-time human gesture grading based on OpenPose[C]//2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). Piscataway: IEEE, 2017: 1-6. DOI: 10.1109/CISP-BMEI.2017.8301910

[12]DEB S, SHARAN A, CHATURVEDI S, et al. Interactive dance lessons through human body pose estimation and skeletal topographies matching[J]. International Journal of Computational Intelligence & IoT, 2018, 2(4):711-716.

[13]WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4724-4732. DOI: 10.1109/CVPR.2016.511.

[14]NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation[C]// European Conference on Computer Vision (ECCV). Cham: Springer, 2016: 483-499. DOI: 10.1007/978-3-319-46484-8_29

[15]HE K, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C]// 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2961-2969. DOI: 10.1109/tpami.2018.2844175

[16]CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7103-7112. DOI: 10.1109/CVPR.2018.00742.

[17]LI W B, WANG Z C, YIN B Y, et al. Rethinking on multi-stage networks for human pose estimation[Z/OL]. (2019-01-01).https://arXiv.org/abs/1901. 00148.

[18]FANG H S, XIE S Q, TAI Y W, et al. RMPE: Regional multi-person pose estimation[C]// 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2353-2362. DOI: 10.1109/ICCV.2017.256.

[19]SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 5686-5696. DOI: 10.1109/CVPR.2019.00584.

[20]CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017: 1302-1310. DOI: 10.1109/CVPR. 2017.143.

[21]NEWELL A, HUANG Z, DENG J. Associative embedding: End-to-end learning for joint detection and grouping[C]// 31st International Conference on Neural Information Processing Systems. New York: Curran Associates Inc,2017: 2274-2284.

[22]XIA F T, WANG P, CHEN X J, et al. Joint multi-person pose estimation and semantic part segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017: 6780-6789. DOI: 10.1109/CVPR. 2017.644.

[23]SHOTTON J, FITZGIBBON A, COOK M, et al. Real-time human pose recognition in parts from single depth images[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2011: 1297-1304. DOI: 10.1109/CVPR.2011.5995316.

[24]HAQUE A, PENG B Y, LUO Z L, et al. Towards viewpoint invariant 3D human pose estimation[C]//European Conference on Computer Vision. Cham: Springer, 2016: 160-177. DOI: 10.1007/978-3-319-46448-0_10

[25]CHEN C H, RAMANAN D. 3D human pose estimation = 2D pose estimation + matching[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2017: 5759-5767. DOI: 10.1109/CVPR.2017.610.

[26]MARTINEZ J, HOSSAIN R, ROMERO J, et al. A simple yet effective baseline for 3D human pose estimation[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE, 2017: 2659-2668. DOI: 10.1109/ICCV.2017.288.

[27]GÜLER R A,NEVEROVA N,KDKKINOS I.DensePose:Dense human pose estimation in the wild[C]//IEEE/CVF Corference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7297-7306.

[28]PAVLLO D, FEICHTENHOFER C, GRANGIER D, et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2019: 7745-7754. DOI: 10.1109/CVPR.2019.00794

[29]IONESCU C, PAPAVA D, OLARU V, et al. Human 3.6m: Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(7): 1325-1339. DOI: 10.1109/TPAMI.2013.248

Home fitness monitoring system based on monocular camera

YU Peng, LIU Lan, CAI Yun, HE Yu, ZHANG Songhai

(100084)

With the increasing richness of online fitness resources, autonomous fitness has become a new sporting trend. However, due to the lack of action guidance and correction by professional fitness coaches, autonomous fitness usually cannot guarantee the fitness effect and is easy to cause sports injuries, so real-time monitoring of fitness actions is required. Existing fitness monitoring equipment usually relies on professional hardware such as big screens, stereo camera and other sensors. As a result, they fail to satisfy common needs for virtual fitness due to high cost, complexity of installation and limited application scenario. With gradual maturing of human pose estimation technique, identification of human face and movements of limbs can be realized through easily accessible cell phone camera with high accuracy and speed. Low cost, multi-scenario virtual fitness monitoring on mobile terminal thus it made possible. Based on the background above, this work designs a fitness action evaluation algorithm based on angle thresholds in 3D scenes which relies on cell phone monocular camera and 3D human key point detection technology. The algorithm can detect whether the user's fitness actions are standard in real time and give corresponding responses through voice. The work has implemented a prototype system on an Android phone. This work verifies the usability and real-time performance of the algorithm and the system through a series of user experiments. It also verifies the accuracy of the action evaluation algorithm through comparative experiments with relevant work in recent years. Results shows that the algorithm and functions of the prototype system were greatly recognized by the users with high accuracy, reasonable responding speed for real time usage.

autonomous fitness; virtual personal trainer; exercise monitoring; human pose estimation

10.3785/j.issn.1008-9497.2021.05.001

TP 391.41

A

1008⁃9497(2021)05⁃521⁃10

2020⁃12⁃09.

国家自然科学基金资助项目(61772298,61832016);可视媒体智能处理与内容安全北京市高等学校工程研究中心项目;清华-腾讯互联网创新技术联合实验室项目.

余鹏(1997—),ORCID:https://orcid.org/0000-001-6286-0186,男,硕士,主要从事图像/视频处理研究,E-mail:anicca97@163.com.

,ORCID:https://orcid.org/0000-0002-0357-681X,E-mail:hooyeeevan2511@gmail.com.

猜你喜欢
关键点语音教练
论建筑工程管理关键点
肉兔育肥抓好七个关键点
建筑设计中的防火技术关键点
魔力语音
基于MATLAB的语音信号处理
犀利的机器人教练
贪玩教练
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
睡着了