基于目标检测的课堂行为监控系统设计

2023-08-07 09:20赵明权虎海松
科技创新与应用 2023年22期
关键词:客户端卷积图像

赵明权,虎海松,刘 杭

(桂林信息科技学院,广西 桂林 541214)

人工智能技术的快速发展,智慧教室开始逐渐被广泛应用。课堂教学视频中包含丰富的授课信息和学生行为信息,以往对课堂教学信息的分析,基本上来源于教学人员观看录制的授课视频,并以此记录学生课堂表现。显然,这样的操作流程效率较低,因此如何建立一套有效的课堂行为监控系统成为研究者们需要解决的问题[1]。

近些年,随着卷积神经网络技术的发展与成熟,计算机视觉、自然语言处理、语音识别等领域的识别准确率得到极大提高。在教育教学领域上,以人工智能技术为支撑的虚拟仿真实践教学平台、大规模的开放课堂教学,教师和学生有了更多教学方式的选择[2]。极大地扩展了教学手段的多样性,教学过程更加活跃。具备视频实时监控、录像等功能的现代课堂在大中小学已经开始普及。但利用摄像头作为课堂信息采集工具,并智能分析和查看课堂行为的软硬件技术还并不常见。课堂行为检测系统可以为教师提供有效的反馈,以便教师能够对学生的行为进行更加有效的管理。冀翀晓[3]运用传统数字图像处理技术,基于运动目标见来捕捉学生位置,并裁剪出感兴趣区域进行再识别。王昌海等[4]利用人脸识别技术,分析课上学生的表情信息,来侧面评估教学情况。目前,基于深度学习的课堂行为检测系统效率更高,可以更好地帮助人工分析系统识别物体。这类方法识别的目标对象广泛,其输出可以是单个目标,也可以是多个目标。在复杂程度上,YOLO 检测算法是一种一阶算法,由图像直接输入一次性产生最终预测结果,具有检测识别精度高和实时性好的优势。董琪琪等[5]将深度学习目标检测模型SSD 算法应用在课堂行为检测中,进一步提高了识别的准确率,使得目标定位和识别能一步完成。无论使用传统技术和深度学习技术,还是融合情绪特征和人脸特征的算法技术[6-10],都取得了显著的效果。但这些方法注重行为识别结果的准确性,模型算法计算量大,难以做到实时性的高要求。

本文以中学课堂为实验环境基础来搭建设备,设计了一种基于目标检测的课堂行为监控系统。通过分析和总结教学过程中学生的课堂行为特点,自制课堂行为数据,构建识别模型,开发可视化系统。有助于教师获得学生情况,以及对课堂进行评价,旨在改善课堂教学质量,提高教师管理效率和学生学习成果。

1 系统设计

本系统在实验教室中安装部署监控设备实时采集课堂授课视频序列。课堂环境有其独特的特点,即人员流动较小,课上学生基本不会离开座位。采集画面稳定不杂乱,极少出现运动画面。因此采用固定位置固定视角的监控设备获取课堂画面,传回到后台服务器上。系统框架如图1 所示。

图1 系统框架

1.1 学生行为定义

在课堂上,学生的行为复杂多变,可以从不同的角度划分成不同的类别。例如,从课堂的角度出发,可以将学生行为分为积极课堂和消极课堂;从学生角度出发,可以将学生行为分为学习状态和非学习状态。根据有关教育学的调查研究表明,43%的学生会在课堂上有提问的意向,包括提出问题;57%的学生一般不会主动提问,其中17%的学生表现出不敢提问的情况,40%的学生则更喜欢在课后找老师答疑。探讨学生在课堂上是否会积极提问的行为,不仅可以反映课堂的活跃度,还可以在一定程度上反映学生对教师所授知识的掌握情况。本文设计分类标注了4 种典型的教学课堂行为,分别是举手、趴桌子、站立和书写,见表1。

表1 学生行为定义

1.2 模型构建

由图1 可知,框图的上半部分是深度学习目标检测模型训练流程。由于模型的输入是图像数据,对采集的视频序列先经过帧筛选处理,排除相似重复的图像,再对筛选过的图像进行人工标注。框选出学生行为动作目标区域和具体类别来构成训练数据集。最后使用预先在COCO 公开数据集上预训练过的YOLOv7-Tiny网络作为模型基础,经过自制数据集在服务器上再训练得到最终行为识别模型。

1.3 软件设计

由图1 可知,框图的下半部分是客户端执行流程。摄像头采集的视频数据传输到后台服务系统,由客户端后台对视频流做定时抽帧处理,对抽取的图像帧进行自动预测分析。最终由客户端界面呈现课堂实时识别结果和对统计数据的可视化。

2 系统关键技术

2.1 图像数据处理

深度学习模型网络参数通常都比较多,训练数据量过少或数据类型分布单一,非常容易造成目标检测模型的过拟合现象,导致模型不具有很好的泛化能力,不能用于最终系统客户端的分类识别模型。因此,针对以上情况,本文对训练数据集做了如下操作。

一是除了自行在教室采集的视频流图像数据外,从互联网上爬取收集了更多课堂教学图像,并进行人工手动标注标签。二是对部分图像数据叠加随机遮挡,用图像均值和平均像素替换图像的遮挡区域部分,样例如图2 所示。三是针对夜间课堂采集到的图像,即晚上由于灯光影响造成图像存在较大的明暗变化,采用传统图像增强技术,平衡图像亮度分布,丰富图像的特征。四是在训练过程中,随机对读取的图像进行水平翻转或者垂直翻转。根据以上实验操作额外增加了图像数量,扩充课堂教学学生行为图像数据集,能进一步提高模型的泛化能力。

图2 目标区域随机遮挡

2.2 目标检测

YOLOv7[11]模型是以卷积神经网络为基础的经典目标检测模型,是YOLOv3 的改进版,其网络结构与YOLOv3 类似,但有一些改进。网络的结构大体分为3个部分,前端是一个包含有3 个卷积层和2 个全连接层的网络,用来提取图像的特征。主体部分YOLOv7 网络使用53 层的深度卷积神经网络,包括8 个卷积层和5个残差块,每个残差块由2 个卷积层和1 个残差连接组成。输出端是一个拥有3 个输出层的网络,每个输出层可以输出3 个预测结果,分别是检测框,类别和置信度。

其中,YOLOv7-Tiny 是YOLOv7 的细分版本,具有更小的模型尺寸和更快的推理速度。其仅使用7×7 的卷积核,而YOLOv7 使用3×3 和1×1 的卷积核。由于使用更小的卷积核,YOLOv7-Tiny 只需要半数参数量,网络深度和计算量也大大减少。此类算法使用较少的计算量,可以在课堂实时监测环境中,快速实现目标定位和识别。并且小模型可以实现端到端的检测,在应用逻辑上更容易实现,相比于大模型具有更高的训练效率。可以在计算力较弱的设备上实现速度快、精度高的目标检测。本文采用YOLOv7-Tiny 模型进行目标定位和分类识别。

2.3 课堂行为识别

本文系统的客户端具备从监控端获取视频流并进行分析的功能。技术上,采用以卷积神经网络算法为基础的目标检测模型YOLOv7-Tiny,在GPU 服务器上进行了模型的训练,选择准确率最高的模型作为本系统最终的行为检测模型。

客户端实时地获取视频序列,学生的异常行为通常至少持续几秒钟以上,本系统固定1 s 抽帧1 次,以减少识别计算次数和计算量。技术上通过OpenCV 实现对视频序列的抽帧处理。摄像头采集过程中必定会受到噪声的影响,干扰后续检测识别的准确度。因此,优先将图像进行去噪,本文采用先对图像进行高斯滤波再进行中值滤波的两重去噪做法。待图像预处理完成后,再启动识别检测模型。如果最新帧图像识别结果与前一帧的识别结果一致,即识别到相同人相同行为,则丢弃当前结果,不累加到数据统计表中,并继续等待下一帧的分析。最后将有效检测结果输出到本帧图像上显示,并将学生目标用边框标记。边框上分别标有该目标的行为分类标签和置信度,同时保存目标数据,方便课后进行系统分析和数据整理。

2.4 训练过程

本系统使用的计算机配置为Intel Core i5-9400f CPU,系统客户端运行的软件环境为Windows 64 位系统,软件开发环境为Python3.7,深度学习框架为Pytorch 架构Windows 版本。将标注好的课堂学生行为数据集输入网络模型进行迭代,设定训练迭代12 轮次,残差经反向传播算法进行参数权值更新。本文系统基于Pytorch 算法框架完成行为识别模型的训练与OpenCV 开源库平台实现各项具体算法和应用程序。

3 系统效果

本系统课堂教学质量评价系统的客户端监测界面如图3 所示。将识别结果进行输出与显示,本文通过PySimpleGUI 来设计制作客户端界面,作为展示课堂行为结果的交互工具。PySimpleGUI 是集合了各大潮流的GUI 模块包,使用Python 语言编写,能快速构建GUI应用程序,对于科研工作者应用非常方便。

图3 客户端实时数据

由图3 可知,界面交互左边放置监控视频流,教务教师管理人员或课堂教师能够观察、识别并分析当前时间课堂的教学情况。实时画面中系统将学生举手、趴桌子、站立和书写的行为进行边框标记起来。右边是分析学生考勤和精神行为情况,以柱状图的形式展示从上课时间到目前为止共发生的行为异常累积数量。以折线图展示一段时间内行为异常数量的变化情况。

随着系统的长时间使用,能积累更多的课堂数据,教师可以从时间维度上进一步思考查看学生的课堂行为,进一步查看教师自身的教学情况,进一步查看班级的总体课堂表现,总结出任课教师的教学质量评估报告、课程教学评估报告、班级学风评估报告等。为授课教师课后改进教学方式方法提供帮助,形成有效的教学反思,同时,也能够为学院和学校的教学管理、考核提供公正、量化的评价指标。

4 结束语

本文系统在实验条件和样本数量有限情况下,以深度学习目标检测技术为支撑,对学生课堂教学情况和学生行为进行智能识别和评价,提高教学效率。根据自制标注的数据集,完成对YOLOv7-Tiny 算法模型的构建,搭建硬件平台和客户端软件,实现并实时准确检测学生行为。从运行效果来看,在真实的课堂场景下,取得了较为理想的效果,但系统也存在一些不足之处。一是摄像机只能覆盖课堂较少范围的视野,不能看见所有的座位,会导致课堂学生统计数少于真实值。二是拍摄角度或课堂桌椅间距较小,视野上,后排学生会被前排学生所遮挡,也会导致识别结果数量统计的准确性降低。三是本系统运行在常规计算机上,后续可将本系统移植应用在嵌入式系统上,每间教室布置一个系统节点,可以监控更多的课堂。总的来说,将来可以深入研究深度学习在课堂行为检测方面的应用,更好地满足教育需求。

猜你喜欢
客户端卷积图像
改进的LapSRN遥感图像超分辨重建
基于3D-Winograd的快速卷积算法设计及FPGA实现
有趣的图像诗
从滤波器理解卷积
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
基于Vanconnect的智能家居瘦客户端的设计与实现
基于傅里叶域卷积表示的目标跟踪算法
一种基于卷积神经网络的性别识别方法
遥感图像几何纠正中GCP选取