数据驱动的电竞比赛结果预测与方法比较研究

2020-09-03 02:13金玲潘旭伟
中国集体经济 2020年22期
关键词:数据分析

金玲 潘旭伟

摘要:随着科技的发展以及人们思维的改变,电子竞技正在逐步被越来越多的认可,利用数据分析对选手进行比赛分析从而预测比赛愈来愈有必要,但是,当下对电竞大数据的分析技术还处于赛事的起步与摸索阶段,不能满足电竞行业的需求。因此,文章以绝地求生比赛为例,根据Kaggle数据集提供的pubg十几万条的赛事数据,运用LightGBM算法与XGBoost算法对比赛胜率进行预测,并且对影响胜负结果的因素进行排序与分析,同时从预测结果和运算效率比较不同深度学习模型,确认哪一种算法预测准确率好,效率更高,更适合比赛的胜负预测。LightGBM的算法在当前较为新颖,且并未有人将其用在电竞选手的数据分析中,因此文章的研究在一定程度上丰富了学术界对此的研究,具有一定的创新价值。

关键词:LightGBM算法;XGBoost算法;绝地求生;数据分析;胜率预测

近年来,随着互联网技术的发展,当今世界的数据量呈爆炸式增长,电竞行业也不例外。将电竞预测与大数据相结合,将机器学习算法应用于胜负预测模型是大势所趋,对于正处于起步阶段并不完善的中国电竞行业尤为重要。

本论文需要解决两个核心问题:预测和比较。预测所要解决的主要问题有三点,一是特征因素的提取,为了量化分析每场比赛中每位选手的表现,需要从每场比赛的统计数据中,选取一些能够反映比赛中选手状态的特征的数据;二是选手的初始特征处理,根据当前场次玩家已有的历史游戏场次数据,主要特征变量取均值,无历史数据玩家给定自定义初始值进行预测,同时考虑不定因素,代入游戏初始模型进行预测;三是代入模型预测出每个选手的胜率以及每场比赛最后的冠军,再编程排序,对比预测和真实值。

比较所主要解决的是根据LightGBM机器学习算法与其他不同的预测算法,例如XGBoost等,分别从预测结果和运算效率比较不同算法的深度学习模型,确认哪一种算法预测准确率好,效率更高,更适合比赛的胜负预测。

一、文献综述

我国电竞领域数据收集与分析理论研究起步较晚,针对电竞数据的相关研究成果相对较少,多为国外理论知识的借鉴及扩展,因此加快数据收集与分析技术的发展势在必行。对于电竞游戏的数据分析,常用的有AARRR、关联规则挖掘算法等等。本文将在下文中就电竞游戏的数据分析的研究现状进行梳理与分析。

对电竞游戏的数据分析的必要性进行研究的有,周灵和王莉莉就电竞游戏的数据运营进行了分析,他认为首先需要科学的方法论的指导,其次需要结合业务的数据指导和技术开发环节来完成,他提出以王者荣耀为典型代表的移动端电竞游戏和产品逐渐趋于互联网化,更要求重视电竞用户的反馈和体验,更好地经营用户使得基于流量获取的数据运营达到新阶段。

张晨则明确了英雄联盟数据分析师的人才需求规格和知识能力结构,并建议以各大高校作为人才培养的主体,以校企合作“3+1”的模式在高校中采用学历教育方式培养英雄联盟数据分析师;以职业教育方式在高校中对当前在职的数据分析师进行短期或定期培训,以提高其数据挖掘与分析能力。他的研究可以为英雄联盟以及其他电竞项目的数据分析师人才培养提供参考依据。

闫平平则选取了主成分分析方法,以電子竞技20名专业队选手为研究对象,对其进行体成分及心肺功能测试,旨在研究专业电竞选手身体成分现状及影响因素。研究表明:1.电竞专业选手整体身体型态偏瘦,体重偏轻,脂肪堆积部位主要集中在腰腹部,应注意生活作息和营养摄入;2.电竞专业选手虽积极参与体育运动,但运动量、运动频率低,久坐现象严重,肌肉百分比普遍较低,存在运动不足现象,应引起重视。

柯嘉鑫用机器学习的方法进行数据挖掘,将机器学习中K-means算法应用于电子竞技职业选手,对电竞选手比赛数据的指标进行聚类,划分为三个不同的等级,并对聚类结果进行分析,将个人能力水平数据化,用聚类结果指导职业选手今后的针对性训练以及发展方向,为电子竞技行业标准化、成熟化起到推动作用。

二、特征工程

(一)数据来源与说明

本文数据来源于pubg.op.gg,并选取了绝地求生比赛单人模式下超过十万场的竞技数据。原始数据有两个数据集:聚合数据代表玩家比赛的统计数据(agg_match_stats_x.csv),总结了每场比赛的选手统计数据。它包括各种综合统计数据,例如击杀,伤害,步行距离等;以及死亡数据代表玩家被击杀的数据(kill_match_stats_final_x.csv)。

(二)基础特征因素的选取

特征工程,从实质上来说是对数据原始特征的深度挖掘以及组合,为后续的模型或者是算法,提供更好的支持,展现更多的信息。

为了量化分析每场比赛中每位选手的表现,需要从每场比赛的统计数据中,选取一些能够反映比赛中选手状态的特征的数据。本文从各项技术统计进行了分析和筛选,最终选取能够典型代表一场比赛选手表现的9个基础技术特征,并从原有的数据集中获取这些基础特征因素,如:击杀数、助攻数、KDA、行驶距离、武器的选择,等等。具体步骤,先将进行清理和整合过的数据导出,利用Python进行游戏数据特征变量分析。

(三)初始特征与变量预处理

选手真实相对实力是进行比赛结果预测的核心,由于每场比赛中各战队首发和比赛对手的实力不同,因此,简单的胜率排名并不能反映选手的当前真实力,根据历史比赛数据,构造新的选手真实相对实力是至关重要的。本文在历史比赛结果的基础上,结合每场比赛选手的历史数据进行修改,以平均值的方式得到量化选手真实相对实力值,作为选手特征的初始值,代入到预测模型中。同时根据前文分析得到的特征因素,对特征因素进行筛选,定义训练变量。由于击杀玩家武器为字符型变量,在训练模型要求变量皆为数值型,因此根据武器击杀人数排序,用武器杀伤力排序值替代武器名称字符数据。

三、实证研究

(一)模型训练拟合

调用LightGBM回归模型对2万名玩家数据进行模型训练拟合,并得到特征因素排序。综合考虑所有特征因素,对决定胜负最重要的因素是玩家击杀人数,其次重要的是玩家乘车行走距离,再次重要的是击杀武器。以上9个特征变量中,对胜率影响最低的特征因素是助攻数。

(二)LightGBM模型预测结果

选取12场最近时期游戏,对游戏开场前根据历史玩家变量均值预测胜率,将胜率排序后得到预测的胜利玩家与实际此场游戏赢家结果进行对比,得到LightGBM预测结果。

对大约1000个玩家的12场游戏开场前进行预测,预测的赢家与实际赢家相符,即结果为真的样本为7个,正确率约为58.33%,预测准确率可以接受。且没有预测正确的样本中,玩家也是排名相对很靠前的都是实际排位在Top4之内的玩家。可见预测误差不是很大。可见,运用LightGBM模型对大数据机器学习,训练模型,预测结果的准确性比较可靠。

(三)XGBoost模型预测结果

运用XGBoost模型对游戏开始时玩家胜负进行再次预测。根据在上一节筛选出的同样场次玩家的历史游戏场次数据代入XGBoost模型進行训练和预测。然后选取12场最近时期游戏,对游戏开场前根据历史玩家变量均值预测胜率,将胜率排序后得到预测的胜利玩家与实际此场游戏赢家结果进行对比,得到XGBoost预测结果。

对大约1000个玩家的12场游戏开场前进行预测,预测的赢家与实际赢家相符,即结果为真的样本为4个,正确率约为33.33%,XGBoost预测准确率相比较于LightGBM比较低,且预测错误样本的实际排位相差很大,误差范围较大。

(四)不同算法预测对比

进一步对比LightGBM和XGBoost运行效率,这两个模型的运行效率差别主要体现在训练数据阶段,分别训练1万条,10万条,100万条,200万条样本,得到LightGBM和XGBoost运行时间(秒)和运行效率提升百分比的对比图详见图1所示。由图1可以看出,随着训练数据的增多,运行效率的提升逐渐增加,且增加效率提升幅度逐渐趋于稳定,比较得知,LightGBM在运行效率很高,相较于XGBoost而言运行效率最高可以提高70%以上,可见LightGBM不论在模型预测准确性还是在运行效率性能方面均优于XGBoost模型。

四、总结

本文运用Python语言基于LightGBM模型及机器学习原理构建了对电竞比赛胜率预测模型,首先根据大约20G的历史数据分析影响胜率的主要特征因素,包括击杀人数,是否乘车,乘车里程,总行进里程数,武器类别对胜率的影响等等,并深度挖掘不同特征变量的重要性;其次对训练数据的特征变量进行筛选后,训练历史数据拟合预测模型,并建立已有历史数据的玩家数据库,通过比对已有历史数据玩家id,用历史变量均值对新开场游戏现有玩家特征变量进行赋值,对新玩家变量自定义赋值。最后利用LightGBM模型中的回归训练模型和预测模型对新赋值后的新开场游戏进行胜率预测,并找到每场游戏预测赢家与实际赢家进行比对。从结果可知,预测准确率约为58.33%,并且误差在可接受范围。另外将LIghtGBM与XGboost模型进行了对比,从实验对比结果证实,LightGBM模型无论从预测准确性还是运行效率上都明显优于XGBoost模型,整体结果可靠满足期望,对于电竞游戏预测问题的解决具有实际应用意义。

参考文献:

[1]Agarwal S.Data Mining:Data Mining Concepts and Techniques[C]//International Conference on Machine Intelligence and Research Advancement,2013.

[2]王华勇,杨超,唐华.基于LightGBM改进的GBDT短期负荷预测研究[J].自动化仪表,2018(09).

[3]周灵.电子竞技数据分析模型解析[J].电子世界,2018(07).

[4]周灵,王莉莉.电竞游戏数据的来源与收集模式分析[J].电子世界,2018(06).

[5]张晨.电子竞技数据分析师的人才培养研究[D].武汉体育学院,2018.

[6]闫平平.电子竞技运动专业选手身体成分及影响因素调查分析[J].当代体育科技,2018(06).

[7]柯嘉鑫.机器学习k-means算法在电竞选手分析中的应用[J].电子世界,2017(22).

[8]周成骥.基于机器学习的商品购买行为预测模型设计[D].广州大学,2018.

(作者单位:浙江理工大学)

猜你喜欢
数据分析
电子物证检验的数据分析与信息应用研究
基于matlab曲线拟合的数据预测分析
分众媒体趋势下场景营销的商业前景
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
大数据时代高校数据管理的思考
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议