基于多元概化理论的高考数学文理科试卷质量分析与对比研究①

2018-07-13 09:37任子朝

数学通报 2018年1期

赵　轩　任子朝　陈　昂

(教育部考试中心　100084)

2013年，党的十八届三中全会审议通过的《中共中央关于全面深化改革若干重大问题的决定》中提出了考试招生制度改革的目标和任务，明确指出要“探索全国统考减少科目、不分文理科、外语等科目社会化考试一年多考[1].” 2014年，《国务院关于深化考试招生制度改革的实施意见》中进一步明确了在高考综合改革试点中，“保持统一高考的语文、数学、外语科目不变、分值不变，不分文理科[2]”.新高考改革后，数学科将不再分文理科，这给高考命题和中学教学都提出了新的任务和挑战.为应对这一挑战，需要对现行文理科试卷进行结构、信度、区分效果等相关的质量研究，重新构建数学新高考学科考试的知识和能力体系.

概化理论(GT，Generalizability Theory)是一种通过方差分析的方法研究测验信度的现代测量理论[3].多元概化理论(MGT，Multivariate Generalizability Theory)在概化理论的基础之上，可进一步研究测验分解为多个分测验时，分测验的信度以及分测验题量变化对于总测验信度的影响.近年来，这一理论被广泛应用于考试评价.应用多元概化理论模型对高考试卷的测试结果进行分析，可定量比较各内容模块以及各种题型的区分度与内部一致性，并为有关试卷结构、考试信度等方面的研究建立理论框架.相关研究结果可为修订考试大纲说明，分析试卷质量及各题型区分功能提供参考，进而对提升命题质量给出合理化建议.

1　多元概化理论简介

概化理论重点探讨测验分数差异和与其相关的影响因素(如考生个体水平、题目难度等)之间的关系，并运用方差分析的技术，以方差作为指标分别描述每个因素对分数总变异的影响与各个因素之间的交互作用[4].概化理论的一个主要功能是可以在各种条件下估计测验信度，并给出各影响因素与信度的相关性.在该理论中，测量信度的概念用概化系数或可靠性系数来代替[5].

概化理论分为G研究和D研究两部分，G研究是通过理论计算估计各方差成分相对大小的过程.D研究是在G研究的基础上，通过实验性研究，进一步考察不同测验设计条件下概化系数的变化状况，从而寻找最佳的误差控制方法，为改进测验内容、方式方法等提供设计方案的过程[6].D研究的研究对象和样本可看作是G研究的子集.G研究确定测量对象、测量模式并对各项因素的变异进行总体估计，D研究可根据研究目的的需要，对测量对象样本容量、测量模式等条件进行调整，进而在调整后的特定条件下估计各项测量误差与指标，为改进测量质量提供信息参考[7].

多元概化理论在概化理论的基础上，研究测量目标具有多个全域分数(如总测验可以分解为多个不同维度的分测验，可按照不同内容模块、不同题型等维度拆分)的有关问题.主要可应用于测试多个模块知识或多种能力的综合性测验[5].近年来，这一理论被广泛应用于高考、研究生考试等大规模教育考试中，丰富了传统的信度检验方式[8][9].

2　研究目的与方法

2.1　研究目的

本文应用多元概化理论模型对2017年高考数学文、理科全国Ⅰ卷进行质量分析与对比研究，主要比较了文理科试卷各题型的方差贡献度与其对试卷信度的影响.并在现行文、理科试卷结构的基础上，针对相关分析结果对改进试卷质量，提升试卷信度与区分效果提出建议，为文理合卷后试卷结构的构建提供数据支撑.

2.2　研究样本说明

本研究从参加2017年高考数学文、理科全国Ⅰ卷考试的9个省全体考生中各随机抽取3000名考生作为样本，有效试卷共6000份.本文中的数据分析与讨论均基于此6000份样本数据.高考数学科试卷包含选择题、填空题、解答题三种题型.因此对其测验信度进行研究适宜采用多元概化理论的原理和方法.本研究中多元概化理论模型相关参数的计算使用了mGENOVA程序[10].

2.3　G研究设计

现行高考文、理科数学试卷题型结构相同.按照试卷题型结构，将全部试题划分为“单项选择题”、“填空题”和“解答题”三个部分.全卷共23道题目，满分150分.选择题部分包含12道题目，共60分；填空题部分包含4道题目，共20分；解答题部分包含7道题目(其中有两题为选做题，考生在这两题中任选一题作答，进行数据分析时将两题按照考生的作答分数合并为一题处理)，共70分.

三种题型对于考生能力的考查虽各有侧重，但试题通常综合考核考生的多种能力，故各分测验在测量考生能力方面存在一定相关[11][12].每位考生都需作答全部试题，因此本研究选用三因子单面交叉设计p×i多元概化模型，p代表考生(测量目标)，i代表试题(测量侧面).分别计算了各模块和全卷的概化系数(信度)，并根据有关信息评价各题型对于考试区分能力的贡献程度.

2.4　D研究设计

为了探讨各个分测验对于估计测验总分可靠性的贡献程度，本研究考察了各题型题量变化对于各自测量信度及总分测量信度的影响情况，以期为优化试卷内容和结构提供建议和参考.

3　研究结果与分析

3.1　三因子概化模型的G研究

根据G研究设计，通过mGENOVA软件分别计算得到文、理科卷考生(p)、试题(i)以及考生和试题之间的交互效应(pi)在选择题、填空题和解答题三个因子上的方差与协方差分量的估计矩阵.如表1所示.

表1　G研究中文、理卷各效应在三因子上方差与协方差分量对比

(注：效应p的矩阵中主对角线上的元素为相应因子上的方差分量估计，主对角线以下元素为不同因子间协方差分量的估计，主对角线以上元素为不同因子间相关系数的估计.)

从中可见，文、理科卷三因子中考生效应(p)方差分量最小的因子均为选择题模块(分别是1.01403和0.55492)，其次均为填空题模块(分别是2.41438和1.25856)，方差分量最大的因子均为解答题模块(分别是6.99742和7.03841).这说明在此次考试的文、理科卷中，区分作用最大的题型均为解答题，其次是填空题，而选择题的区分作用与其他题型相比相对较小.其原因可能有二，其一是解答题总分值较高，且所含各小题分值高于填空题和选择题；其二是填空题和选择题是两级赋分的题型，解答题是多级赋分的题型，对考生的区分更加精细，因此其方差分量要高于填空题和选择题.此外，理科卷在选择题、填空题上的方差分量均小于文科卷，在解答题上的方差分量大于文科卷，其原因是选择题、填空题难度较低，更适合文科考生水平.说明文科卷选择题、填空题的区分效果相对于理科卷略好，理科卷解答题的区分效果相对于文科卷略好.

此外，两套试卷中三因子之间的相关系数均大于0.8，这表示考生在各题型中的得分相关性很高，说明文、理两套试题的整卷内部一致性、试卷信度与各题型的区分度均良好.

考生效应(p)反映了考生水平差异造成的成绩变异大小，试题效应(i)反映试题难度差异造成的成绩变异大小，而交互效应(pi)反映考生和试题因素交互影响产生的误差，不同效应之间方差分量值不可直接比较[6].从表1试题效应(i)部分中可看出解答题模块由试题难度差异造成的成绩变异最大，说明该题型中试题难度跨度相对较大.

3.2　三因子概化模型的D研究

(1)各因子全域分数的测量精度研究

使用mGENOVA软件计算出考生在三种题型中全域分数与相应误差估计的方差分量，以及概化系数、可靠性系数和信噪比等指标，结果如表2所示.

表2　D研究中三因子上全域分方差分量等指标估计

从表2中可见，文、理科试卷各题型的概化系数(信度)均较高，所有模块都在0.5以上，文科卷选择题、填空题、解答题分别为0.75228、0.77343、0.88823，理科卷选择题、填空题、解答题分别为0.68210、0.59803、0.88754.这说明此次考试试卷质量很高，各题型的测量精度均良好，测量误差较小，且考生各题目得分之间的内部一致性较高.

(2)全域总分的测量精度研究

按照各模块题量所占比重来决定权系数，对三因子全域分数进行合成，可得到全域总分与其相应误差估计的方差分量，以及全域总分的概化系数、可靠性系数和信噪比等指标的估计值，结果见表3.

表3　D研究中合成全域总分的方差分量等指标估计

从表3中可见，文、理科试卷全域总分的概化系数均较高，分别为0.92268和0.90830；且相对误差不大，因此相对信噪比高，分别为11.93279和9.90533.这说明此次考试的总体测量信度与测量精度良好.

(3)各因子对总方差贡献度的研究

用各模块全域分数与相应误差估计的方差分量，可计算出三个因子对总方差的贡献度，见表4.

由表4可见，各模块对全域分数方差的贡献比例与考试大纲说明规定的赋分比例差距不大.理科卷中，选择题的方差贡献度比其赋分比例低10个百分点左右，填空题的方差贡献度与赋分比例相近，解答题的方差贡献度比赋分比例高8个百分点；文科卷中，选择题的方差贡献度比赋分比例低6个百分点左右，填空题的方差贡献度比赋分比例高5个百分点左右，解答题的方差贡献度与赋分比例相近.这说明理科卷中，解答题在区分考生能力上的功能最好，即试题区分度最高；文、理科试卷中选择题的区分功能均低于填空题和选择题.解答题在理科卷的区分效果好于文科卷，其原因在于理科卷考生在解答题上的平均分高于文科卷考生，这说明解答题对数学水平较高的考生群体的区分效果要更好.从数据结果来看，文理合卷后增加填空题和解答题的比重，都有助于提高试卷对于考生的区分能力，进而提升考试信度.

表4　各模块方差分量对总方差贡献度与试卷赋分比例比较

(4)各模块题目容量对测量精度的影响研究

为研究进一步提高考试测量精度的方法，我们在文、理科卷中分别改变各题型所含题目数量，并观察测验信度随之产生的变化，具体结果见表5、表6.

表5　理科卷各模块题目容量变化对总分概化系数的影响

续表

表6　文科卷各模块题目容量变化对总分概化系数的影响

从中可见，各因子样本容量增加为2倍和3倍时，测量信度将会提高，单独增加每个因子的样本容量，都会提高测量信度，但提升的幅度不同.这说明各题型题量与测试信度都是正相关的，增加考试题量可以提高考试信度，这一结论和经典测量理论的结论是一致的.在文、理卷中分别固定三个模块中两个模块的样本容量，变化其中一个模块的样本容量时发现，各题型题量按倍数增加时，对应的概化系数(信度)提升幅度从大到小均为：解答题、填空题、选择题，这与前文的分析是一致的.

数据分析结果说明增加题量可提升考试信度，尽管受到考试时间的限制，大幅度增加题量是不现实的，但文理合卷后仍可通过题型调整等技术手段达到同样效果.如将一部分单项选择题变为多项选择题以增加部分答对的中间分，填空题增加设空数量以增加中间分，解答题进一步细分得分点等方式，均可以增加整卷的分数档，从而提高试卷的信度与区分效果.

4　结论与思考

本研究应用多元概化理论对高考数学文、理科试卷进行分析，得到如下结论：

(1)文、理科试卷全域概化系数均较高，分别为0.92268和0.90830，相对误差不大，各部分试题区分度良好，试卷整体质量较好.

(2)文、理科试卷各部分试题的方差贡献度与考试大纲说明赋分比例基本相符，说明现有试卷结构较合理.

(3)文、理科试卷之间相比，解答题在理科卷中的区分效果好于文科卷，填空题在文科卷中的区分效果好于理科卷，说明各题型在不同水平层次的考生群体中的区分效果存在差异.文理合卷后应根据各题型在不同水平考生群体中的区分度配置题型结构，进一步发挥各种题型的功能，合理控制难度和题型比例，以提高试卷区分能力.

(4)选择题、填空题和解答题三种题型中，解答题对总方差的贡献度最高，且增加解答题的题量对于测量信度的提升最大，填空题次之.因此，文理合卷后在考试时间和总题量不变的前提下，可通过适当增加解答题与填空题考核比重的方式来实现进一步提高考试测量信度的目的.但应综合考虑试卷的覆盖面、考试时间、阅卷工作量等因素的影响，合理控制各题型题量，保持试卷结构合理稳定.

(5)各题型的题量均与测验信度正相关，因此可采取增加考试时间并适当增加题量，增加多选题，填空题增加中间分，大题拆分题目分数、增加得分点等技术手段提高试卷的信度与区分效果.

多元概化理论可以为探索高考的质量评价方式提供更多可能性.从研究结果来看，对于试卷结构的调整，虽受限于考试时间等确定性要求，但对试卷的质量分析能够提供在现有结构下的精细化调整方案.此外，将多元概化理论与经典测量理论的评价结果相结合，可以得到更为准确的试题单题质量和试卷整体质量改进方案.

总的来说，通过引入多元概化理论对试卷质量进行分析和评测，可以为新高考完善考核内容、调整试卷结构提供参考，为提高试题试卷质量提供依据.随着高考内容与形式改革的推进，进一步加强基于统计数据的实证性研究，对于提升考试命题的专业化、规范化和科学化水平具有重要意义.

基于多元概化理论的高考数学文理科试卷质量分析与对比研究①

1 多元概化理论简介

2 研究目的与方法

2.1 研究目的

2.2 研究样本说明

2.3 G研究设计

2.4 D研究设计

3 研究结果与分析

3.1 三因子概化模型的G研究

3.2 三因子概化模型的D研究

4 结论与思考