基于RapidMiner的校园一卡通数据挖掘与预测

2021-11-28 10:51刘文开焦飞
电脑知识与技术 2021年28期
关键词:校园一卡通食堂数据挖掘

刘文开 焦飞

摘要:为从师生消费行为数据中找出有价值的信息,该文把某高校的校园一卡通中的交易笔数作为研究对象,使用RapidMiner工具进行数据挖掘。对原始数据预处理、选择合适的模型并进行评估,挖掘出师生食堂消费行为的规律,并预测未来交易总量。预测的准确率较高,相对误差达到可接受的区间。高校管理者可以运用这些信息进行科学、高效的管理,从而让管理水平得到一定的突破。

关键词:校园一卡通;RapidMiner;食堂;预测;数据挖掘

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2021)28-0034-03

开放科学(资源服务)标识码(OSID):

Data Mining and Forecast of Campus One-card Based on RapidMiner

LIU Wen-kai, JIAO Fei

(Zhaoqing University, Zhaoqing 526061, China)

Abstract: In order to find out valuable information from the consumption behavior data of teachers and students, this paper takes the campus one-card transaction data of a university as the research object, and uses RapidMiner tool for data mining. The original data is preprocessed at first and the appropriate model is chosen and evaluated. The rules of consumption behavior of teachers and students in the canteen can be found out. The total volume of future transactions can be forecasted The accuracy of forecast is high, and the relative error reaches an acceptable range. Administrators of the university can use this information for scientific and efficient management, so as to get a breakthrough in the management level.

Key words: campus one-card; RapidMiner; canteen; forecast; data mining

1 背景

當今社会处于信息技术高速发展的时期,各行各业都会产生很多数据。同时,数据挖掘、大数据、云计算等信息技术日新月异,发展很快,使得众多高校日益重视本身的校园信息化建设。校园一卡通建设在校园信息化建设中又是优先建设的重点。而校园一卡通的使用过程,就是各种相关数据信息的流通与存储。比如,师生使用校园一卡通进行刷卡消费、门禁刷卡、上课考勤、会议考勤、水电充值和图书借阅等[1],都会产生数据。产生的每一条简单的数据汇聚存储起来就形成了一个庞大的数据库。如果针对这个数据库去提取、处理、分析,就可以形成一份非常有用的报告。基于报告的分析与结果,既可为校园建设提供科学依据,也可提升学校相关职能部门的管理水平。

以某高校校园一卡通消费系统的食堂营收数据为研究对象,对营收数据深入挖掘并加以处理分析,找到高校师生在食堂的消费行为习惯,预测未来的数据变化趋势,形成可靠建议供学校相关职能部门参考,从而改进管理与服务方式,通过食堂精准服务促进营收[2]。该高校接近3万师生,每人都配有一卡通校园卡,食堂售卖无现金,也没有微信或支付宝直接支付,所以食堂的收入几乎都是来自一卡通刷卡行为。因此,以一卡通食堂消费数据来研究分析与预测师生在食堂消费行为习惯是可行的。结合现有的分析方法与类似案例,首先对数据进行预处理,再通过合适的模型进行挖掘分析,找出消费产生的时间序列发展的趋势和规律,得出师生消费行为习惯的结果,最后检验结果的准确性并预测发展趋势。挖掘过程总的流程图如图1所示。

2 数据准备

数据挖掘是从大量的数据中建立合适的算法模型,根据一定的算法找出隐含的规律或人们感兴趣的信息。为使结果精准、可靠,首先要提高被挖掘数据的质量,即对数据进行预处理。这里选取的数据挖掘工具为RapidMiner 9.4版本。RapidMiner提供了丰富的数据挖掘分析和算法功能,用户通过图形化开发环境,用拖拽的方式来设计分析流程,使用便捷,无需编程就可以进行分析挖掘[3]。它运算速度快,常用于解决各种商业关键问题。为达到RapidMiner数据挖掘的数据需求,数据准备一般需要数据抽取、数据预处理等。

2.1 数据抽取

目前,某高校一卡通建设还处于初级阶段,校园卡主要用途为食堂消费。根据初步统计的结果,发现食堂消费占约94.8%,而师生考勤、门禁等刷卡功能还不成熟,没有得到普遍应用,仅仅占约5.2%。在食堂消费中,消费行为又分别发生在6个食堂,因此需要抽取全部食堂消费的总流水数据作为研究对象。然后考虑到物价随时间会有变化,实验中只分析全部食堂交易流水中总的交易笔数而不是消费金额。借助RapidMiner工具,将作为训练数据集的一卡通各个食堂交易笔数总和抽取出来,在RapidMiner设计视图(Design)中导入操作流程(Process)。

2.2 数据预处理

数据预处理阶段,是提高数据的质量并使其适合用于RapidMiner工具进行挖掘,其主要内容为数据清洗、缺失值处理、数据集成、数据变换和数据规约。食堂消费数据比较规范,只需进行数据清洗、缺失值分析和异常值分析即可。

数据清洗的主要目的是根据高校的需求和建模的特点筛选出需要的数据。校园一卡通系统中的食堂消费数据主要是由教师、学生产生,但还有一些由教师家属、工勤教辅人员和参加培训的少量社会人士刷卡产生,为了保证研究数据的可靠性和稳定性,需要抽取教师和学生这个主体对象的数据,而把其它噪音数据清理掉。数据导入时,在“Cell range”处选择教师和学生所在字段即可达到数据清洗的目的。

对数据进行简单的视觉评估,发现因停电、自然灾害等不可抗拒因素造成的数据缺失,调用“Replace Missing Value”操作符对缺失值进行插补。插值法有很多种,这里采用均值插补法。还有极少部分异常值,通过视觉评估很容易发现,可以调用“Filter Examples”操作符添加过滤条件以过滤掉这些异常值。

3 数据分析和挖掘

3.1 数据初步分析

对高校食堂的营业数据进行分析,得出结论如下:

1)以学年为时间轴,食堂一个学年的营业数据规律性地出现了两个分水岭,分别是节假日(周六、周日、寒假、暑假)和工作日的食堂消费,节假日的刷卡消费数据远小于工作日的刷卡消费数据,说明校内师生更多是选择工作日在学校食堂消费。

2)节假日师生外出消费多,特别是寒、暑假留校师生很少,分析食堂节假日的刷卡消费数据,没有明显的消费时间峰值规律,通过食堂刷卡数据来寻找相关时间序列,要排除节假日与寒暑假的季节性的影响。

3)工作日有几个规律的消费高峰时间段,分别是7:40-8:10,9:40-10:00,11:30-12:10,17:00-17:30。食堂出现消费高峰期与学校上、下课时间、食堂的位置有关;午餐数据峰值明显高于晚餐数据峰值,说明晚上部分师生没有在学校进餐。

4)食堂年营业数据中,2017年食堂刷卡数据同比出现了显著的急速下降,之后2018至2020年食堂消费数据同比都显著下降,这是由于学校因特殊情况在2017年开始逐年大量减少招生人数,因而出现食堂刷卡消费逐年减少的结果。

3.2 模型建立

数据准备完成后,接着进入建模阶段,寻找最优的算法。食堂交易笔数的月资料是以月为单位的时间序列,而时间序列分析和预测常使用分类和回归类型的算法。这里尝试了线性回归、ARIMA和神经网络三种模型[4]。以ARIMA模型为例,在RapidMiner设计界面中模型建立的流程如图2所示。

首先,对训练数据集调用“Set Role”操作符,和训练数据输出端链接,在参数设置界面里,选择训练数据集中“交易笔数”的字段作为 “label”,即对它指定为标签类型,后面模型学习中还会继续如此设置这个字段为一个标记属性。对于测试数据集也重复以上的操作。然后,为了找出训练数据集中找出各项之间的关联关系,调用“Correlation Matrix”操作符,建立相关链接,进行关联规则分析。结果发现交易笔数与时间的相关性很高,其他字段都远远低于0.5,所以被RapidMiner自动剔除。

然后,调用“Split Data”分割数据操作符,将食堂消费数据选取90%设置为训练数据,10%设置为测试数据。再调用ARIMA模型操作符并调用“Apply Model”应用模型操作符。同样,可选择“Linear Regression”线性回归和“Neural Net”神经网络模型进行测试。

3.3 模型评估

模型评估就是评估数据挖掘中用到的算法模型对挖掘分析和预测结果的准确性影响,通过检测结果的是否在置信区间,误差是否可以接受,判定结果是否达到目的。连接“Performance”性能测试操作符,验证模型的准确性。对本次样本数据,ARIMA模型预测分析具有较高的准确度,预测效果是最好的。将需要预测的新数据导入模型,连接“Apply Model”应用模型,运行并输出预测结果。调用“Validation”交叉验证数据集进行模型评估,如图3所示。进去交叉验证操作符,里面还有子流程,可以选择ARIMA等多个模型.进行验证。如图4所示。

用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。这里选用相对绝对误差来衡量,符合预期。预测值和实际值统计结果如表1所示。

4 高校食堂管理改进措施

通过实验来构建出师生消费的时间序列曲线,可以更深层次挖掘数据里面的意义[5]。首先,食堂节假日与工作日的消费量不同,前者明显小于后者;其次,工作日食堂刷卡消费有明显且规律的峰值。因此,通过学校师生的消费习惯分析,建议食堂管理部门调整经营管理策略。

1)在就餐高峰期加派工作人员,增加服务窗口,减少排队现象。

2)增加菜品数量,改善菜品味道,推出不同特色菜品,尽可能满足不同消费者品位,吸引更多师生回归食堂消费。

3)位置靠近学生生活区和教学楼的饭堂,是最多师生就餐选择的食堂,所以要继续重视服务与菜品,才能做到不流失旧消费者,吸引新的师生在此养成就餐习惯。

4)主要食堂每天进餐人数最多,可适当延长营业时间。在保持好三餐服务质量的前提下,增加下午茶或者宵夜菜品,加强服务,打造学校品牌和口碑。

5)位置较偏且陈旧的饭堂,客容量小,需要学校下拨资金进行翻新整改,改善照明与通风。由于位置较偏不能改变,建议食堂推出特色餐,差别营销,吸引顾客。

5 结束语

本文以某高校近5年的食堂消费数据为对象,将数据挖掘平台RapidMiner应用于高校一卡通数据的分析与预测,结合学校实际情况来判定食堂经营情况与预测经营发展趋势。运用多种模型训练并进行比较,找出性能最優的ARIMA模型,然后对模型应用和预测,与实际值比较,预测效果良好。今后,随着一卡通系统功能的进一步扩展,将会产生大量的上课考勤数据,图书借阅数据,琴房借用数据等,这些数据存在有价值的信息,若能够运用现代信息技术去充分挖掘里面的令人感兴趣的东西,将会给学校的整体管理提供更大的帮助。

参考文献:

[1] 袁学松.智慧校园一卡通建设实践和探索[J].电脑知识与技术,2020,16(10):42-43.

[2] 龚黎旰,顾坤,明心铭,等.基于校园一卡通大数据的高校学生消费行为分析[J].深圳大学学报(理工版),2020,37(S1):150-154.

[3] 李冠利.基于RapidMiner数据挖掘技术的NCRE成绩预测分析[J].南京广播电视大学学报,2018(4):80-82.

[4] Huang T W,Jiao F.Study on data transfer in meteorological forecast of small and medium-sized cities and its application in Zhaoqing city[J].The Computer Journal,2020,63(7):1076-1083.

[5] 曹芳,章翰源.基于大数据的学生食堂消费画像构建及其应用[J].湖南邮电职业技术学院学报,2020,19(4):27-30.

【通联编辑:谢媛媛】

猜你喜欢
校园一卡通食堂数据挖掘
“互助孝老食堂”值得推广
食堂
幸福食堂值得推广
三千食堂
基于并行计算的大数据挖掘在电网中的应用
校园一卡通模式下的校园安全管理
浅析高校一卡通系统财务管理
基于校园一卡通的学生信用管理模型设计
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究