基于数据挖掘的高校学生考研成绩预测分析

2024-03-02 12:19王昊禾江宇琪

武夷学院学报 2024年1期

王昊禾，张悦，江宇琪

（1.安徽建筑大学建筑与规划学院，安徽合肥 230601；2.合肥工业大学管理学院，安徽合肥 230009；3.滁州学院美术与设计学院，安徽滁州 239000；4.安徽建筑大学学生处，安徽合肥 230601）

一、引言

伴随着对高学历及高素质人才需求越来越迫切，硕士研究生招生规模日益扩大，研究生考试“内卷化”现象愈来愈严重，从研究生考试报名情况看，2017 年考研人数突破200 万大关后，考研报名人数逐年攀升，根据教育部、人社部官方数据，2022 年考研报名人数达457 万，与2017 年考研报名人数相比翻了一番，问卷调查结果显示，考研动机排名前三的分别是提升自身水平能力、增加就业机会、改变本科学校层次。面对如此数量的研究生考试学生，提高学生考研成功率，成为很多高校人才培养的重点工作之一。为加强考研指导工作，对考研初试成绩的预测愈发重要，既可以预估学生的考研初试成绩，帮助学生为考研复试做准备，也为学生的职业生涯规划提供量化指标参考。

对硕士研究生初试成绩预测研究中，黄炎以安徽大学计算机科学与电子技术系2008 级、2009 级本科学生三年考试成绩数据为样本,通过对比LIBSVM 向量机算法、线性回归和决策树相结合的算法、贝叶斯算法，得出在考研预测上线性回归和决策树相结合的算法具有更高的准确率和稳定性[1]。王西平在K 最近邻分类算法基础上，利用传统和赋予特征属性不同权重的两种K 最近邻分类算法，验证了加权KNN 算法的作用[2]。王纯杰等选取了某大学14 个学院应届毕业生考研成绩的数据，运用Logistic 回归和聚类分析，总结出影响考研成功率的因素[3]。郑宝乐等以本科学习阶段的学生学习成绩为样本数据，通过支持向量机（SVM）与线性判决分析降维（LDA）结合方式建立模型，提高预测精度[4]。李驰通过对BP 神经网络的初始权值和阈值进行优化建立模型，克服了收敛速度慢、易产生局部最小等缺陷[5]。李楠等建立Logistic 回归分类算法模型，通过模型的运算提高考研成绩变量之间的关联性。通过对比实验分析得出该算法预测误差率较低[6]。张凯等面向高校所有理工科本科生，提出一种基于SVM 的高校考研预测模型，以高考成绩和在校原始成绩作为特征子集，通过对比实验分析得出该模型具有较高的适应能力和稳定性[7]。

二、考研成绩变量预测方法设计

（一）历年考研初试成绩数据

从安徽建筑大学教务系统导出建筑与规划学院建筑学、城乡规划、风景园林三个专业2012-2021 届毕业生成绩，筛选有效字段属性，去除与考研预测无明显关联的字段属性，得出考研学生本科阶段成绩属性结果，如表1 所示。

表1 考研学生本科阶段成绩属性表Tab.1 Attributes of undergraduate grades of students taking the exams

对2012-2021 届参与考研毕业生考研初试成绩的政治、英语、专业课（一）、专业课（二）四门课程成绩数据进行汇总统计形成采集结果，并作为考研初试成绩变量预测的初始数据，如表2 所示。

表2 学生考研初试成绩数据属性表Tab.2 Data attributes of students' performance in the preliminary examination for graduate school

（二）对初始数据进行预处理

对初始数据进行预处理，可以降低学生在校成绩数据中出现的缺失和低质的干扰，得到更准确的考研初试成绩变量预测结果。数据清洗、数据变换和数据规约是数据预处理主要的三个组成部分[8]。预处理过程中，初始数据中出现离群点数据采取不处理的方式，缺失数据采取删除记录的方式，异常数据采取数据插补的方式进行处理。

结合预测方法的设计需求，利用简单函数变换、数据标准化变换、连续属性离散化处理等数据变换方式对数据进行规范化操作[9]，保证预测结果数据的标准化，定义W 为初始成绩数据集，实现对数据的标准差标准化变换计算公式如下：

对初始数据集进行规约处理分别采用属性规约和数值规约方式，得出考研初试成绩初始数据。

（三）设置考研初试成绩变量

以预处理得出的考研初试成绩初始数据为基础，通过数据特征提取结果，结合数据内容分析结果，设置考研成绩预测变量。本次预测方法中设置的考研成绩变量分别为平均学分绩点、专业课成绩、课程设计加权成绩、四六级加权成绩，平均学分绩点是一项重要指标，其变量的计算公式如下：

其中GPA为平均学分绩点，fi和gi分别为课程学分和课程绩点，gi的计算公式如下：

其中F 为学生的考研初试成绩，加权平均成绩是学生每门考研初试成绩与其权值比例的乘积计算出的平均成绩，其计算公式如下：

其中Fi为加权科目分数，WA为政治、英语、专业课（一）、专业课（二）四门课程的考研加权平均成绩。通过式（5）的计算得出的是政治、英语四六级的加权成绩计算结果。为提高数据的参考价值，专业课成绩通过学校教学系统调取数据，计算专业课和课程设计的平均值分别代替专业课（一）和专业课（二）的实际成绩。

（四）剖析考研初试成绩的影响因素

从影响考生报考决策与考研结果的因素分析，可分为学习状态、学习能力、家庭情况的个人因素；教学资源、专业满意度、课程成绩的成绩因素；报考院校差异、学习氛围、生源地的环境因素，且个人因素、成绩因素、环境因素内部和相互之间的关系较为复杂。设置的变量越多，预测准确度越高，数据采集、数据清洗、模型建立等难度也会相应增加，同时也会降低模型的执行效率。本着增加模型的适用范围，合理降低复杂性，本研究选择的安徽建筑大学校2012-2021 届五年制建筑学专业、城乡规划专业、四年制风景园林专业本科毕业生的在校成绩和考研初试成绩作为样本数据，通过对样本数据集的变量得出多个模型输出结果，考研成绩变量的预测结果最终选择概率值最高的分类数据。

三、算法对比分析实验

在对比实验中，采用李楠等[6]提出的Logistic 回归分类算法和张凯等[7]提出的SVM 支持向量机算法以及王西平[2]提出的KNN 算法，作为此次实验的三种对比方法，寻找对应变化规律，从而得出预测结果。

（一）Logistic 回归分类算法

李楠等[6]提出的Logistic 回归分类算法模型的构建是用于描述分类响应变量与解释变量之间的关系。根据李楠等的观点，研究将历史考研初试成绩、学生本科阶段历史成绩与考研初试成绩之间的变量关系。Logistic 回归分类算法模型流程图如图1 所示，定义模型中的响应变量为Y，并取值0 和1 两种结果。

图1 Logistic 回归分类算法模型流程图Fig.1 Logistic regression classification algorithm model flowchart

（二）SVM 支持向量机算法

张凯等[7]提出的SVM 支持向量机算法,根据VC 维理论和结构风险最小化原理、解决非线性、小样本、高纬度和局部最小点等问题。根据张凯等的观点，选择内积核作为考研初试成绩预测模型的核函数，并采用网络搜索算法对基于內积核的SVM 模型超参数寻优。

（三）传统KNN 算法

王西平[2]提出的KNN 算法分为三部分：特征提取，搜索最近邻居，产生预测结果。根据王西平的观点，选取专业课平均成绩、英语成绩、实践课程成绩、学历作用值大小四个维度作为硕士研究生初试成绩预测研究中是主要影响因素。并对样本特征进行权重分析，运用加权的方法改进传统KNN 算法，提高预测的准确性。

分别将Logistic 回归分类算法、SVM 支持向量机算法、传统KNN 算法三种预测方法导入到相同的实验环境中，并利用相同的建筑学、城乡规划、风景园林三个专业2012-2021 届毕业生样本数据集作为初始样本数据，十届毕业生中筛选确定的研究对象共2022人，保证三种预测方法实时调用的是同一样本数据，进行训练建模，通过对比实验，设置考研初试成绩变量的实际预测数据。

四、预测结果对比分析

根据安徽建筑大学建筑与规划学院建筑学、城乡规划、风景园林三个专业2012-2021 届毕业生样本数据集作为初始样本数据，三种预测方法考研初试成绩预测对比结果如表3 所示。

表3 考研初试成绩预测对比结果Tab.3 Comparison results of the predicted scores in the first examination of the examination

从表3 可以看出，在同样的样本数据中，运用李楠等[6]提出的Logistic 回归分类算法，得出的平均预测误差约为0.524，运用张凯等[7]提出的SVM 支持向量机算法，得出的平均预测误差约为0.600，运用王西平[2]提出的KNN 算法，得出的平均预测误差约为0.660，从平均预测误差看，Logistic 回归分类算法的预测方法准确性更适合。建筑学、城乡规划、风景园林三个专业均为设计类专业，参加其研究生考试的学生不参加传统科目高数的考试，替代高数的是要求手绘表达能力较强的科目专业课（二），需要从考研学生本科阶段历史成绩数据筛选出课程设计类成绩作为参考。

根据Logistic 回归分类算法，综合所有对考研初试成绩影响因素，去除与研究无明显关联的字段属性，得出对应的变量。根据对考研初试成绩影响由大到小排序为专业课成绩、课程设计成绩、平均学分绩点、四六级加权成绩。专业课成绩与考研初试专业课（一）、课程设计成绩与考研初试专业课（二）有直接效应关系，平均学分绩点与考研初试四门课成绩既有直接效应又有间接效应，四六级加权成绩对考研初试英语成绩有间接关系。同时发现课程设计成绩三种预测方法的预测误差较高，经过分析，专业课成绩与课程设计成绩高度相关，两个变量同时进入模型会产生干扰。提醒我们在研究问题中，需要将定量分析与定性分析相结合，才能得出相对准确的结论。

五、结语

伴随着就业形势严峻，硕士研究生考试人数也年年递增，“内卷化”现象极其严重，考研难度只增不减。研究生考试包含复习、备考、报名、初试、复试、调剂、录取等一系列程序，而考研初试成绩是决定本科毕业生能否取得硕士研究生学位的第一道门槛[10]，考研初试成绩变量的预测可以帮助考生树立信心、调整战略、帮助决策，从而达到提高通过研究生考试成功率的目的。通过对Logistic 回归分类算法、SVM 支持向量机算法、KNN 算法三种算法的对比实验，从实验结果看，针对考研科目没有高数科目的建筑设计类专业，Logistic 回归分类算法对考研初试成绩变量预测的准确度最高。对参加考研的同学建议：提升专业素养，专业课成绩、课程设计成绩对考研成绩影响最大，要特别注重加强学习。注重公共课程，政治和英语则是要注意学习态度，态度好坏直接影响考研初试的这两门最终成绩。稳定备考心态，心态决定学习效果，考研是个漫长又乏味的过程，明确目标、把握节奏、养成习惯、相信自己，坚持下去。

高校承担着培养人才、发展科技、服务社会的重要职责和使命，硕士研究生升学率是衡量人才培养质量的重要指标[11]，而考研工作是一项关乎养成教育的复杂系统工程，需要不断加强考研指导方法研究，总结完善考研指导体系[12]，为提升高校数据化学生管理工作水平的智能化和科学化做出一定的贡献。