基于视觉自注意力模型与轨迹滤波器的篮球战术识别

2024-03-15 09:22许国良梁旭鹏雒江涛

电子与信息学报 2024年2期

许国良沈刚梁旭鹏雒江涛

①(重庆邮电大学通信与信息工程学院重庆 400065)

②(重庆邮电大学体育学院重庆 400065)

1 引言

高水平运动的战术越来越以数据为导向，球员的赛场表现和运动数据经智能化的分析可以提升教练的决策手段[1]。在专业团队运动中，通常使用可以测量球员运动和碰撞影响的可穿戴传感器，以及捕捉整个场地或球场的多视角摄像头来追踪球员和球的位置，之后研究人员分析轨迹数据以获得球员场上表现、战术实施过程等竞争优势，来帮助球队制作更加科学有效的训练计划和应对战术。传统上，关于篮球战术的研究是由资深的体育分析师以非常缓慢的速度来完成的[2]，如果计算机能够识别战术并将其展示给教练和观众，则可以辅助教练制作更加严密的篮球战术，业余篮球爱好者也可以通过这样的计算机程序学习专业的篮球战术知识。在现有的篮球战术识别研究领域，主要存在以下3个难点：

(1)缺乏篮球战术方面的数据集。在篮球比赛中，球员的跑动和球的传递都会产生大量的数据，但如何应用于篮球战术分析是一大难点；

(2)各战术之间的模糊性。因为篮球战术的多样性，战术之间的区分度较低，使得输入参数要具有更高的辨识度；

(3)特征挑选困难。在篮球战术实施的过程中，影响因素体现在球员跑位、速度和跑动意图等，但不同的篮球战术实施过程中，影响因素也会发生改变，人为设定的特征变量会降低模型的灵活性。

近年来，各种各样的机器学习算法应用于篮球视频分析。Miller等人[3]基于球员的移动数据使用动画和模拟比赛视频对轨迹数据进行表示，利用图像处理的方法分析球员位置数据。文献[4-7]基于机器学习挑选主要特征变量对防守策略进行分类，由于机器学习方法的分类结果优劣取决于特征变量选择的准确与否，因此通过人为设定的特征变量很大程度上影响了模型的准确性且不具有泛化性。Tsai等人[8,9]将多实例学习(Multiple Instance Learning,MIL)引入神经网络，通过识别战术实施的关键球员来进行进攻战术的分类，该方法将战术识别问题转化为二分类处理，虽然精度上有明显提升，但是没有解决多战术的分类问题。文献[10,11]通过无监督学习，将训练数据划分为不同的集群，通过学习不同集群中的时空模型，实现战术识别，但是当持续时间出现较大差异时，时空信息也会有明显差距，需要配合特定的数据集。因此，依赖科学有效的方法对进攻和防守战术进行识别问题仍有待解决。

针对上述方法所存在的不足，本文从计算机视觉角度出发来解决篮球进攻和防守战术识别问题。篮球战术中大部分跑位轨迹具有明显的视觉差异，这一特点可以提高轨迹图像的分类性能；通过轨迹图像分类，计算机视觉的方法可以完全跳过传统机器学习中的特征挑选步骤，消除对任意用户定义参数的需要，使本文的方法更具有鲁棒性和拓展性。目前，体育运动中涉及战术部署的比赛没有公开的数据集，本文基于运动视觉系统 (Sport Vision System,SportVU)数据自建战术数据集以用于研究分析。

综上所述，本文的贡献有以下两点：

(1) 将球员的轨迹信息经过筛选、可视化、人工标注等一系列工作之后，建立PlayersTrack1)PlayersTrack 数据集：https://github.com/iceCreamsh/PlayersTrack.篮球战术数据集；

(2) 为消除用户对定义参数的要求，设计了一种针对篮球战术图像分类的战术视觉自注意力(Tactics Vision Transformer, TacViT)模型。以视觉自注意力模型(Vision Transformer, ViT)网络为主干网络，多头注意力模块提取丰富的上下文球员轨迹特征信息，同时并入轨迹滤波器来加强球场线和球员轨迹的特征信息提取。

2 相关工作

2.1 视觉中的傅里叶变换

几十年来，傅里叶变换一直是数字图像处理的重要工具。随着神经网络在视觉上的突破[12]，有许多研究开始将傅里叶变换与深度学习进行结合[13-15]，用来解决计算机视觉中的问题。其中文献[14,15]采用离散傅里叶变换将图像转换到频域，并利用频域信息来提高某些任务中的性能。在神经网络中，任何卷积层的主要工作是将卷积核应用于输入数据或特征图，对前一层进行卷积。但是一个复杂的卷积神经网络有着相当庞大的计算量，使用傅里叶变换可以将卷积层计算转换为频域中的元素乘积，网络的任务是相同的，但是可以通过利用傅里叶变换来减少计算量。文献[13]利用卷积定理，通过快速傅里叶变换替代CNN中的卷积，以此来降低参数量，加速神经网络的训练速度。

给定2维信号x(m,n),0≤m ≤M-1,0≤n ≤N-1,x(m,n)的2维DFT计算公式为

在2维DFT中，先将数据点分解为行和列，然后分别进行1维DFT，总的时间复杂度为Llog2L，其中L为2维图像展平后的维度N×M。

为了解决ViT模型存在球场线和球员轨迹交互信息弱及轨迹所处位置特征不明显的问题，在特征提取部分，设计了一个具有高通滤波功能并且复杂度为O(Llog2L)的轨迹滤波器。该模块可以滤除背景信息，仅提取球场线和球员轨迹之间关系的特征信息，以此来增强球员轨迹所处球场相对位置的特征信息。

2.2 Vision Transformer

篮球战术识别的研究通常使用机器学习的方法，然而，这些基于手动设置特征变量的方法在性能上不能令人满意，由于它不能考虑所有因素，模型的稳定性有所欠缺。深度学习的发展提出了可以增强鲁棒性并获得优异性能的方法。在深度学习应用广泛的计算机视觉领域中最常用的技术有卷积神经网络，而且深度卷积神经网络有着强大的特征提取能力，是一个强大的学习算法。然而，自从Dosovitskiy等人[16]将Transformers引入图像分类中，并实现了与CNN相比更具竞争力的性能后，Transformers开始展现出各种图像任务的潜力。最近，有大量工作旨在改进Transformers[17-20]。其中，文献[20]提出一种双分支Transfomer来组合不同大小的图像块，利用多尺度方法以产生更强的图像特征。本文把焦点转向ViT的特征提取部分，结合多头注意力模块，引入频域分支的轨迹滤波器来加强特征信息的提取，以一种轻量且高效的方式，同时提取具有局部和全局感受野的模型来进行篮球战术识别。

3 TacViT网络

3.1 TacViT网络架构

针对篮球战术识别，本文提出一种基于Transformer网络架构的TacViT。如图1(a)所示，首先将原始轨迹数据预处理转换成轨迹图像。为了处理2维图像，需要将图像x∈RH×W×C重塑为一个2维扁平块序列x∈RN×(P2C)，其中(H,W)为原始图像的分辨率，C为通道数， (P,P)为每个图像块的分辨率。在进行位置嵌入操作时，序列前添加一个可学习的分类头，附加到x0(*位置)序列，分类头在训练前由一个隐层的多层感知机MLP实现，在微调时由一个Linear线性层实现。嵌入位置标记的序列维度为N=HW/P2，外加一个分类头进行展平拉伸成1维序列。

图1 TacViT网络架构图

特征提取模块 (Track Filter and Multi-Head Attention, TFMHA)中，设计轨迹滤波器和多头注意力两个分支来获取球员轨迹及其在球场上所处位置的特征信息，如图1(b)、图1(c)所示。其中多头注意力模块作用于时域，通过将更高的权重分配给重要区域，用来提取丰富的全局轨迹特征信息；另一分支为作用于频域的轨迹滤波器模块，该模块经过在频域中的处理，滤除球场背景信息来加强球员轨迹在球场上的位置信息的提取，且该模块以对数线性复杂度O(Llog2L)学习频域中的长期空间相关性。

通常，使用Transformer架构的模型需要在大型数据集上进行预训练，然后对较小的数据集进行微调。此时，去除预训练的预测头，附加一个零初始化的D×K前馈层，如图1(d)所示，其中K为所针对小数据集中类的数量，D为输入维度。最后通过Linear线性层输出类别结果。

3.2 TFMHA模块

在TFMHA模块中，为了使模型提取到更加丰富的特征信息，设计了一个轨迹滤波器模块，以此来增强球员轨迹和球场线之间相对位置的特征信息交互；并且沿用了ViT模型中原有的多头注意力机制，目的是方便原始Transformer架构的迁移，使其能够高效地提取全局信息。

3.2.1 轨迹滤波器模块

在轨迹滤波器模块中，首先需要在傅里叶域中设定一个阈值β来决定需要过滤的频域部分的大小。由于轨迹图像组成元素相对简单，因此可以通过多次试验和观察来确定合适的β值。如图2所示，在经过滤波操作后观察到，低阶谱发生了显著的变化，同时高阶语义的理解并未受到影响，高频分量区域也更加突出。这一操作可以增强对球员轨迹和球场线语义信息的提取。接下来，将频域信息与可学习的频域特征逐元素相乘，就组成了轨迹滤波器模块。

图2 轨迹图像滤波过程

轨迹滤波器在具体实现方面，如图1(b)所示，共包含3个步骤：(1)将输入空间特征转换为频域并进行频移操作的2维离散傅里叶变换；(2)进行频域分析，滤除低频信息、频域特征和可学习的滤波器权重之间逐元素相乘；(3)将特征映射回空间域的2维傅里叶逆变换。若给定序列x ∈RH×W×C，首先进行2D FFT，将x从空间域转换到频域

其中，F[x] 表示2D FFT，X为复变量，表示x的频谱。然后通过高通滤波器并与可学习的滤波器权重相乘

其中，⊙为Hadamard乘积，H为高通滤波器的约束条件，K为可学习的频域权重。最后采用IFFT将频谱X˜转换为空间域

轨迹滤波器与卷积操作不同，卷积通过缩小尺寸来加强局部的感应偏差，而轨迹滤波器通过高通滤波作用实现特定区域信息的提取。轨迹滤波器可以在深度学习框架Pytorch实现，GPU和CPU可以很好地支持FFT和IFFT，使得模型在硬件上表现很好。

3.2.2 多头注意力模块

注意力机制就是通过注意力函数来直接计算[13]，得到序列在编码过程中每个位置上的注意力权重；然后再以权重和的形式计算得到整个序列的隐含向量表示。自注意力机制在对当前位置的信息进行编码时，会过度地将注意力集中于自身的位置，通过多头注意力机制可以解决这一问题。

与使用单独的一个注意力层不同，多头注意力机制通过独立学习得到h组不同的线性投影来变换查询、键和值。进一步，这h组变换后的查询、键和值将并行地进行注意力池化，将h组注意力池化的输出拼接在一起，最后通过一个可以学习的线性投影变换层得到最终结果。图3展示了使用全连接层来实现可以学习的线性变换的多头注意力机制。

图3 多头注意力机制

给定查询q ∈Rdq、键k ∈Rdk和值v ∈Rdv，每个注意力头hi(i=1,2,...,h)的计算方法为

基于这种设计，每个头都可能会关注输入的不同部分，可以表示比简单加权平均值更复杂的函数。多头注意力模块的heads数目至关重要，通过控制变量的方法设定提取效果最佳的heads数目。使得多头注意力模块提取到更加丰富的球员轨迹信息。

4 实验与分析

4.1 数据集

2005年，以色列科学家Gal Oz和Miky Tamir通过三角定位和图像识别的方法创立了运动视觉系统 (Sport Vision system, SportVU)[21]。该系统以每秒25帧记录球员的轨迹信息，其中球员的位置和球的轨迹以(x, y, z)记录，通常情况下球员的z坐标为0，忽略球员跳跃时离开地面的影响。该系统根据球权的得失作为事件的起始与结束的标志，每个事件持续时间不定。每场比赛被记录成一个序列，每个序列包含400～500个事件。本文使用NBA2015-2016赛季的SportVU数据作为原始数据，经过筛选、可视化、人工标注、图像增强等一系列工作之后，建立PlayersTrack篮球战术数据集。Players-Track中有4类篮球战术，包含396个“牛角”战术、404个“挡拆”战术、452个“二三联防”战术和376个“边线球”战术，总数据集共1 628个战术图像。在后续实验中，按照7:2:1的比例划分训练集、验证集和测试集。

4.1.1 篮球战术简介

本文通过球员跑位轨迹来识别篮球战术，为了更清楚地展现篮球战术执行时的球员轨迹特点，下面以“边线球”和“牛角”两种战术作为代表对跑位过程进行详细介绍。

“牛角”战术：这类战术的开始站位如图4(a)所示，由两名队员(一般是高大球员)一同上到罚球线至3分线的两端；图4(b)中持球球员借两名上前掩护队友中一名的掩护，根据个人能力和场上形势选择袭篮或者中距离投篮以完成进攻；图4(c)中持球球员在启动挡拆之后吸引了对方3名防守球员的防守，则可直接把球传给处于空位的掩护队友，后者投出一记3分球，完成进攻。

图4 “牛角”战术示意图

“边线球”战术：此进攻战术仅在发边线球时进行部署，球员可以利用对手的不稳定防守来制造机会。如图5为常用的边线球战术。图5(a)两名外线球员2号和4号为3号和5号做下掩护，5号和3号绕过掩护切出到3分线附近；图5(b)持球人1号把球掷给3号，此时2号移动到3分线附近为1号作掩护，1号向篮下切入，接3号的传球上篮。2号掩护后也可反身切入接3号的传球上篮；图5(c) 3号可将球传给3分线外队员5号，4号在限制区内为1号做掩护，1号穿过限制区到另一侧位置接5号的传球投篮。

图5 “边线球”战术示意图

对于篮球战术而言，各战术的开始有着极具区分度的站位。例如“边线球”战术为内外线各两名球员，另一名处于边线位置；“牛角”战术5人初始站位类似字母A形状。同时根据关键球员的轨迹可以判断战术的执行阶段。例如“边线球”战术中，初始时3号和5号具有向3分线外移动的轨迹，结束时1号具有向篮下或者底线移动的轨迹。

4.1.2 轨迹图像预处理

在本文所研究的SportVU原始数据中，一个序列包含400～500个事件，根据观察事件的发生过程，从每个事件中选取有效帧进行可视化处理，帧范围为20～400。根据NBA球场28.65 m×15.24 m(28.65 m×15.24 m)的比例，为了能把原始数据集上的轨迹信息映射到球场图像上，将球员的位置存储在全场为94 mm×50 mm网格表示的连续索引，左上角设置为(0, 0)坐标。该图像包含3分线、罚球线、边线等事先标定好的边界。由于单纯的轨迹路线无法反映球员在执行战术的跑位状态，本文通过在轨迹图像上增加结束点的位置来加强标记实施战术时的结束位置。

如图6所示，是本文战术轨迹图像预处理的详细过程。①首先从SportVU中提取球员和球的位置信息；②把提取的位置信息映射到94 mm×50 mm的球场上，并把一个事件完整坐标序列处理成视频格式；③标注每个战术的起始和结束帧；④根据序列所属文件、事件ID和战术的标注帧信息，将所属帧区间的位置坐标通过轨迹的形式映射在标注好边界线的球场上。

图6 “边线球”战术类别的图像处理过程

4.2 实验设置

实验在两块Nvidia 3090 GPU资源下进行，每块显存大小24 GB。模型实现使用Pytorch框架，采用ViT-S作为本文的主干网络，添加可以滤除低频信息的轨迹滤波器模块作为另一分支。因为Players-Track篮球战术数据集比较小，直接在TacViT上训练会产生过拟合情况，因此TacViT模型首先在ImageNet-100数据集上进行了预训练，然后进行迁移学习在PlayersTrack数据集上训练，训练的学习率设置为0.005，batch-size为64。在轨迹滤波器模块中2维快速傅里叶变换的norm模式使用‘ortho’，该模式下可以将输入 1/sqrt(n)归一化，以此提升运算速度。对于所有完全连接层，本文使用高斯误差线性单元(Gaussian Error Linear Units, GELU)激活函数来避免梯度消失的问题。归一化层选用Layer-Norm对单个样本的所有维度特征进行归一化，来避免batch-size较小时带来的影响。

4.3 实验结果与分析

TacViT模型的混淆矩阵在表1中给出，其中预测的战术在列中给出，对角线表示正确分类的概率。

表1 混淆矩阵正确率

在“挡拆”战术的错误分类中，有大部分误认为“牛角”战术，这是因为球员在战术实施结束后，所处位置接近“牛角”战术范围，所以误分为“牛角”战术。从4种战术识别结果来看，“边线球”战术的正确率最低，主要是由于此战术的使用频率不高，训练集中此战术的多样性较低，致使网络提取特征信息时与其他战术区分不明显。

4.4 消融实验

本文探索了TFMHA模块不同组合的效果。如图7所示，Block1表示输入的1维序列顺序经过轨迹滤波器、多头注意力模块处理；Block2与Block1顺序相反；Block3表示序列分别经过轨迹滤波器和多头注意力模块处理后进行加权求和；Block4只含有轨迹滤波器模块；Block5只包含多头注意力模块。

图7 TFMHA模块不同组合

从图8可以看出未做更改的ViT，即没有引入轨迹滤波器模块的Block5模型效果最差，同时结合轨迹滤波器和多头注意力模块Block1,2,3精度提升效果明显。其中Block1经过滤波器过滤之后，多头注意力部分会损失一些信息；Block2中的滤波器模块实则是在多头注意力关注的区域进行提取信息，同样会存在损失情况；Block4只提取球场线和球员轨迹的特征、Block5仅从全局的角度进行特征提取，这时存在提取信息不够全面的影响；Block3进行双分支同时提取，同时结合频域中的局部信息和空域中的全局信息不但增强了轨迹特征信息的提取，还通过轨迹与球场线的关系捕捉到球员轨迹的位置特征信息。因此，选用Block3作为本文模型。

图8 3种heads下TFMHA模块的组合

多头注意力可以提升模型的鲁棒性和稳定性，为了适用于篮球战术识别问题，多头注意力模块中heads的数目需要重新确定。本文在heads为6, 8, 12 3种状态下进行了实验，结果如图8所示，heads为12时表现出最佳性能。本文的TacViT模型将以Block Ⅲ、heads 12进行以下实验。

4.5 性能对比

为了验证模型的有效性，本文选择残差网络ResNet, Transformer架构的ViT, SwinT, DeiT和双分支网络的CrossViT等主流图像分类网络进行了性能对比，结果如表2所示。

表2 与当前的主流网络对比

与CNN网络架构的ResNet-50和ResNet-101相比，Transformer架构的TacViT优势较为明显；高于应用了傅里叶思想的GFNet-S网络4.9%；相比图像分类中的多层感知机(MLP)架构的ResMLP网络，精度提升了10.3%； Swin Transformer和DeiT都是基于ViT模型的改进，本文相对于未进行任何修改的ViT-S虽然在参数量上增加了64% ，但精度提升了16.7%，相对于Deit-B/16，在参数量上减少了58%，精度提升了1.8%；相对于使用了双支网络模型的CrossViT-S上，精度提升了4%。以上展示了TacViT在篮球战术图像分类问题上的优异性能。

5 结束语

本文针对篮球战术识别，提出将其转化为计算机视觉中的图像分类问题，设计了一个针对包含球场线的轨迹图像的分类网络模型。该网络的特征提取模块由轨迹滤波器和多头注意力两部分构成。在未更改的ViT模型上保留多头注意力，以获取图像的全局信息；其次，借鉴傅里叶思想，设计一个轨迹滤波器可以滤除低频信息，只保留球场线和球员轨迹信息，使得在增加有限的参数量情况下，提取更加丰富的球员轨迹所处球场位置的特征信息，提高了网络针对于篮球战术的分类性能。由于数据集的处理过程过于繁琐，耗时较长，建立的篮球战术数据集较小，战术类别有限，因此未来还需进一步扩充PlayersTrack数据集。本文的思想与网络模型不仅能应用于篮球领域，还可以扩展到其他群体运动的战术识别中。