基于多元线性回归模型的考试评价与预测研究

2021-08-15 11:36郝翠萍

电子设计工程 2021年15期

郝翠萍

（榆林学院教育学院，陕西榆林 719600）

通过考试能够考核和评价学生的学习情况，教师通过分析考试成绩能够精准了解学生对于知识掌握程度，从而调整教学方式与模式。所以，教师要客观、正确的评价成绩。有效、合理的成绩评价能够使教师反思课堂教学过程中的不足，还能够使教师对学生学习状态正确评估，避免出现负面影响，为后续课程的教学提供参考[1]。以此，文中针对考试的评价和预测，提出基于多元性回归模型的创建策略。

1 数据处理

文中收集了100 名学生基础课程第一学期的考试成绩和结业考试成绩，数据中全部案例都根据学生的结业考试成绩、第一学期考试成绩和性别汇总。第一学期考试成绩包括GRADE 值为60 分以下、60-65 分之间、65-75 分之间、75 分以上等4 个档次。以此，创建交互组后构成汇总水平观测案例，成绩分组数据详见表1。

表1 成绩分组数据

表中GENDER 为0 指的是男生，1 指的是女生。第j组结业成绩超过70 分比例表示为fj，第j组的观测频数用nj表示，第j组权数表示为wj[2]。

通过某案例中的数据创建分析单元，全部自变量指的是GEADE、GENDER 的值，每组都一样。结业成绩超过70 分的概率为pj，假设同一组中所有人的结业成绩均超过70 分，用样本结业成绩大于70 分的比例或者结业成绩大于70 分的相对频数fj估计pj，并且假设：

式（1）中εj指残差，fj的期望值表示为E（f）j=pj。在样本规模比较大的时候，残差就会比较小，并且fj和pj越来越接近。假如一个组中的观测频数比较大，就能够计算相对频数，将其作为事件概率估计。在样本规模不断增加的过程中，观测相对频数是指概率真值估计，连续变量使组内频率得到增加[3]。

2 多元线性回归模型

线性分析指的是对一个变量到另外一个变量相互关系的研究，并且研究变量相互间的关系紧密程度与性质。简单来说，线性回归分析的主要任务就是描述定量关系。回归分析能够根据非确定变量关系确定函数的关系，对两个变量回归关系研究时，称之为简单回归或一元回归，对3 个或者以上变量回归关系研究时，称之为复回归或多元回归。线性回归能够对一个或者多个自变量和一个因变量线性关系进行分析，SPPS 提供5 种创建回归方程方法和残差分析、参数估计等方法[4]。

通过数据工具使实际问题得到解决的主要手段为数学建模，此方法有多种，多元线性回归属于多因素模型分析的常见方法，此方法比较方便简单，并且预测效果能够利用回归拟合程度进行展现。但是在回归分析中，如何利用多因素选择合适因子影响模型分析结果。多元线性分析预测方法指的是利用两个或者以上因变量、自变量相关分析创建预测模型，在因变量、自变量具备线性关系时，也就是多元线性回归分析。自变量和因变量具备密切线性相关，并且自变量对于因变量具备互斥性，估计回归系数数量不能超过样本容量。

通过分组数据计算对数发生比，估计真实对数发生比，计算公式为：

假设对数发生比是指招生分数、类型的函数，从而创建以下回归模型对此数据进行分析：

利用分组数据计算对数发生比，通过常规最小二乘法对回归模型进行计算，根据自变量对个人数据进行分组，然后对每组时间概率pj进行估计，根据每组事件概率估计对数发生比，从而成为线性回归模型因变量，线性回归自变量属于分类变量[5]。

式（3）的模型存在异方差性，由于每组残差项和本组事件发生概率具有密切关系，并且关系着本组观测频率。那么，可以使用最小二乘法GLS 实现数据分析。该文采用最小二乘法模型，其中所有原始变量为常数项要求加权转换，权数为残差项标准误差系数。由于残差标准误差依赖于fj，并且fj在不断地改变，相关残差项方差具有不同的假设条件。如果无法使这种异方差问题得到解决，相关参数估计显著性建设是无效的。为了对异方差性进行修正，要在模型估计前对数据进行转换。

该文列出和成绩相关指标，分别为高考成绩、平均成绩、分级成绩和期末卷面成绩，通过Excel 得出影响因素和英语四级考试成绩散点分布图[6]，详见图1～4。表2 为高考英语成绩小于103 分的学生的四级成绩表和高考英语成绩大于等于103 分的学生的四级成绩统计表。

表2 高考成绩和四级成绩统计表

图1 分班成绩散点分布图

通过图1 可知，分班成绩为学生刚进入到学校的成绩，也是对学生过完假期之后的英语水平。分班成绩和四级考试成绩线性关系优于高考成绩，关系点在线性曲线附近分布，并且存在个别关系点和线性关系距离比较远的问题。由此可知，分班成绩能够成为对学生四级考试成绩影响的主要因素[7]。

通过图2 可知，英语平时成绩和四级考试成绩没有线性关系，表示平时成绩并不会影响到学生的四级考试成绩，能够将其剔除。

图2 英语平时成绩散点分布图

通过图3 可知，高考成绩关系点在线性关系曲线附近分布，因为受其他因素影响，部分关系点距离线性关系曲线比较远，但仍为线性关系[8]。

图3 英语高考成绩散点分布图

通过图4 可知，期末卷面成绩和四级考试成绩具有良好线性关系，关系点都处于关系曲线附近，表示期末卷面成绩为主要影响因素[9]。

图4 英语期末卷面成绩散点分布图

通过上述分析可知，四级考试成绩和分班成绩、高考成绩与期末卷面成绩具有良好线性关系，通过SPSS 软件实现收集数据的回归分析处理，能够得出处理后的数据。表3 为模型系数分析（Sig.代表显著性，B代表组间差异，T代表单样本校验），通过表3 可以看出期末卷面成绩偏相关系数是最大的，也就是表示期末卷面成绩对于四级考试成绩影响最大[10]。

表3 模型系数分析

3 多元线性回归模型显著性校验

如何实现回归方程显著性校验，假设：

式（4）中，假如接收H0，那么多元线性回归模型无法满足自变量关系需求。从而创建H0 校验统计量，取合适的考试成绩和人数，校验统计量。表4 为方差分析数值表，可以看出，回归方程显著[11]。

表4 方差分析数值表

已知学生3 个学期期末考试成绩，对数据进行初步处理。使用已经创建的模型对学生在英语四级考试中的成绩进行预测[12]。首先，分析成绩并且说明；另外，对成绩合理可靠性进行分析；最后，对比四级成绩考试预测成绩和实际成绩，图5 为英语四级考试成绩对比图。通过图5 可以看出来，两条折线基本吻合[13]。部分学生预测过程中存在不在预测模型的情况，从而使学生成绩出现偏差。观察折线图，对可校验模型有效性进行对比分析，预测成绩可靠合理[14-18]。

图5 英语四级考试成绩对比图

4 结束语

该文研究表明，利用回归分析模型能够对考试成绩进行评价，并且可合理预测成绩。利用模型显著性校验能够对模型合理性进行判断，通过模型回归系数显著性校验，能够寻找到对因变量影响比较弱的自变量后剔除，从而简化模型，便于模型的使用。在实际预测过程中，需考虑多因素的影响，最大程度地减小误差。