“人—机对抗”视域下主观题评分误差控制策略探究

2013-11-08 08:06王文成

中国考试 2013年9期

王文成

近年来，网上阅卷以其高效便捷、经济节约、误差易控等优势，被广泛运用于高考、公务员招录、公开选拔领导干部等大规模考试阅卷工作中。但与传统人工阅卷相比，网上阅卷技术使得对阅卷人员评分一致性即时控制成为现实，其造成的严重后果之一，便是阅卷人员在主观性试题评分上规避双评阅卷员评分不一致的风险，把通过计算机的一致性检验成为阅卷的价值首选，即“人—机对抗”现象。过分追求双评阅卷员之间评分的一致性，客观上容易导致评分背离考生的真实能力素质，进而产生符合评分一致性检验的“合法性”评分误差。这对于竞争性选拔考试非常危险。因此，从源头上探明主观题网上阅卷评分误差的产生因素及其控制策略，对于有效控制考试误差，维护考试公平，成为维护考试信用的当务之急。

1 “人—机对抗”：网上阅卷主观题评分误差的合法性掩盖

1.1 网上阅卷的实质与评分误差的再审视

所谓网上阅卷，是指一种与传统人工纸质阅卷不同的阅卷方式，它以计算机网络技术和电子扫描、图片裁切技术为依托，把考生的答卷通过扫描转化为电子图片编码储存，通过计算机网络将考生电子试卷按要求随机分发给阅卷员，其中客观题由计算机程序控制对考生填涂的信息点自动判分，主观题不是在考生的原始答卷上直接评分，而是由阅卷员在计算机网络终端浏览考生答题信息的电子图像进行评分，最后由计算机程序自动统计合成考生成绩库的阅卷方式。（见图1）主观题网上阅卷主要有以下关键环节。

一是双评。要求计算机将每个考生的每题作答呈现随机分发给两个阅卷员评阅，必须由不同的阅卷员评两遍。对于同一考生的同一答题，当两个阅卷员同题赋分之差小于规定的误差值时，计算机自动取两人的平均分作为该题最终得分。二是三评。如果两个阅卷员同题赋分差值超过规定的误差值时，计算机会自动把该题的答题图片随机发给第三人评阅；第三个阅卷员评阅完毕后，服务器再将三评结果与前两评结果进行两两比对，若满足误差控制条件，则取其平均值作为最后分数；如果都大于规定的误差值，系统将自动传至阅卷组长裁决。三是仲裁。阅卷组长根据前三个阅卷员的评分结果，最终确定一个合理的分数作为最终分数。四是成绩合成。当所有考生的所有答题都评阅完毕之后，计算机自动合成每个考生的所有分数。正是因为这种严格的主观题评分制度和程序性设计，让人们产生了一个错觉——在网上阅卷的技术体系中，不再有评分误差的存在空间。

果真如此？从上述分析可见，网上阅卷的实质是网络信息技术对人工阅卷辅助，把人工评卷积累的丰富经验和现代高新技术相结合，只是在技术手段上进行了升级改造，一方面使得传统阅卷以纸试卷为介质的传递变为以电子版面为介质的阅卷终端传递，便于阅卷员直接在计算机上对电子化答案进行评分；另一方面把数据统计技术嵌入阅卷系统内，加快了阅卷人员评分结果的统计分析与处理，实现了阅卷质量技术控制的便捷化、适时化。但是，从阅卷评分的本质上看，阅卷人员运用人工智慧通过考生作答介质对其能力素质的价值评判这一性质没有得到根本改变。

1.2 评分一致性检验催生的“人—机对抗”

图1 网上阅卷简明流程

评分误差，是指假定考生能力一定的条件下，在评分过程中由于试卷内容、评分环境、评分手段以及评分人员主观人为因素相互作用，使评分员对考生评分结果及其应用与被测考生在该考试时的真实能力之间的不一致现象的测量效应。

凡测量都有误差。网上阅卷的主观题评分误差与传统人工纸质阅卷所产生的主观题评分误差并无本质差别，但由于计算机技术的引进，通过自动屏蔽考生信息，根除了人为干预考试分数的可能性，确保评卷过程客观公正；通过双评、多评的误差控制机制，以及评卷结果的一致性检验等功能，增强了阅卷员的评分一致性，保证评卷科学准确；通过自动的加分、登分与统计分析，避免人工操作可能导致的粗大误差。所以，网上阅卷主观题的评分误差主要体现为评分标准与参考答案设置不科学所引起的工具误差、阅卷员业务水平差异所造成的人员误差等。

应该说，基于网上阅卷技术而实施的双评、多评的误差控制机制，以及单题评卷结果的一致性检验等功能，较好解决了阅卷员之间的评分一致性问题。但正是这一技术，却无法解决阅卷员之间的“宽宽严严”问题，而且在以阅卷员评分一致性为导向的评分质量评价制度设计下，催生了“人—机对抗”现象，致使主观题评分误差的控制出现了死角。在网上阅卷状态下，计算机能够实时提供阅卷员单题评阅结果的数据，质量分析系统通过比较阅卷员之间、阅卷员与阅卷小组之间的评分分布、平均分、标准差等数据之间的差异性，监控阅卷员之间的评分一致性。当某阅卷员评分偏离值大于评分偏离值上限或日评分均值与总体评分均值差异较大时，计算机自动发出警示信息，提示质检组对该阅卷员的评阅试题进行抽查。在大规模考试的阅卷的特定环境下，阅卷员为了通过计算机阅卷系统的评分一致性检验，在主观性试题评阅中选择了“打保险分”的下策，或者当两个阅卷员对同道主观题评分同严同宽时，这种评分的一致性很可能让评分误差得到了合法性的掩盖。

2 网上阅卷主观题评分误差因素探析

2.1 试题、参考答案与评分标准的自身性因素

所谓自身性因素，主要是指主观性试题及其参考答案和评分标准所具有的特性，以及试题命制、参考答案与评分标准设置的能否符合或反映这些特性要求，而所构成的误差因素。就目前我国笔试主观题的情况来看，如申论题、作文题、论述题、解答题等，其参考答案一般不是唯一结论，评分标准上下波动大、分数不等值；有的试题如扩张反应性试题的评分标准甚至体现为“评分要求”的形式，具有很强的概括性与抽象性，标准不易掌握。同时，被试者对试题的解答又不可能与评分标准完全一致，具有多样性的特点。这些因素的存在，致使阅卷员对评分标准的掌握具有很强的主观性，具有很大的自由裁量空间。

以2011年某省高考语文新课标卷作文评分标准为例（如表1所示）：在“评分要素”上规定了基础等级（包括内容和表达两项）和发展等级，对每个评分要素的评价标志作了原则性规定（如“基础等级”内容中的“符合题意、中心明确”等），对评价标度作了四级划分，其中每个等级之间的标度仅以程度区分描述为值阈。问题在于考生的作文在内容、表达、特征三方面究竟达到了哪一等级，只能由阅卷员根据自己的经验作出判断。具体来说，考生的作文在“发展等级·特征”方面是否“深刻”、“丰富”、“有文采”、“有创意”，需要阅卷员自行判断。所以，参考答案与评分标准是造成主观题评分误差的工具性因素，这一点无论是传统人工阅卷，还是网上阅卷，都无法避免。

赋分标准以分数段的形式出现，增大了阅卷员的自由裁量权。表1中的评分标度中，4个等级的级差均为5分，即同一等级的作文，仍有5分的浮动范围。这样的评分标准操作上赋予阅卷员很大的自由裁量权，如果不采取相应的控制措施，极易产生评分误差。随着基础教育课程改革的深入展开，类似这样的问题会更加突出，如果阅卷员不能科学把握试题特点和评分标准，则评分误差的控制问题将更加突出。

更为严重的是，近年来人数超过百万的公务员录用考试申论科目作文的评分标准，也出现上述类似问题：“一些地方参照高考作文，一些地方按议论文的评价标准来评价申论作文，这是对申论的误解，至少是理解不深刻。申论要求结合材料写作，而事实上，材料一旦给定，论点、论据、论证这三要素都将受到极大制约，因而写出来的优秀作文应当有很多规定之处。”[1]问题的严重之处在于，申论考试的作文题与高考作文题有着本质的不同，申论和高考作文虽然都比较关注“内容”、“表达”和“特征”等指标，但申论考试是模拟国家机关处置政务工作时的工作思路、站有立场、所持态度、主体观点、处事风格、对策举措等的一种行为，申论作文更加关注的是考生作为公务员，如何站在政府立场上表达对申论材料所指观点的理解与看法，一以贯之的是政治性和思想性。所以，公务员考试的阅卷员如果不能把握申论命题的特点，掌握考生写作的规律，尤其是在“由一些从高校抽调的青年教师（包括研究生）去阅申论试卷，在他们对申论的理解都成问题的情况下”，[2]其对作文的评分单凭一个框架性的“等级评分标准”，所产生的评分误差，恐怕要比高考作为评分有过之而无不及。

评分标准难以把握，也是网上阅卷评分误差不好控制的重要因素。这种情况有两种表现：一是参考答案设置过于简略，阅卷人员难以把握同一尺度，导致评分误差。这种情形多见于公务员招录考试申论科目的概括题和对策题：“在按点给分的情况下，答案要点不全面是一个非常严重的问题。如果考生根据材料写出了相对合理的答案要点，而参考答案和评分标准中都没有涉及，这样部分高素质考生将与公务员失之交臂。”[3]二是评分标准、细则设定过繁。如2011年高考文综第45题（15分）：

表1 2011年某省高考语文作文等级评分标准

材料:我国北方草原历史上是游牧民族的家园，他们以部落为基本的社会组织，时而因其共同利益结成部落联盟，各部落在草原上迁徙不定，往往为争夺草地、水源相互仇杀。清朝入关前，统一漠西蒙古，开始分定各地部界，严禁互相侵越；入关后仿八旗制度形式逐步改造蒙古社会，形成盟旗制度。蒙古各部大者被分为数旗，小者自为一旗，旗长由蒙古各部首领世袭担任。各旗有固定的牧地，不相统属，旗民不得越境放牧，日常往来亦受限制。合数旗为一盟，盟长、副盟长以及会盟地由朝廷指定，对各旗进行监督，处理各旗不能解决的纠纷，盟不是一级行政机构，盟长不得干涉各旗事务、发布政令。各旗直接受中央政府管理。一切重大事务的裁决权属于理藩院，各旗旗长有义务率旗下兵丁，应召出征。蒙古族旧有的部名义上保存下来，不具有行政功能。

——摘编自翁独健《中国民族关系史纲要》等

（1）指出旗、盟与草原传统部落、部落联盟的区别。（5分）

（2）简析盟旗制度的历史作用。（10分）

图2 第45题组评分分布曲线

图3 第45题组平均分曲线

而对于45题组评卷情况，从图2可以看出，首先是评分分布曲线是处于一种比较混乱的状态，特别是5分、9分、11分，组员所评的分数比重相差较大，如11分评卷员程的比重最小，为2.86%，而最高比重为评卷员陈，比重为26.18%，而全组此分比重在百分之十几，相差很大。5分、9分情况亦是如此。

从图3显示的平均分曲线上，亦可以看出有较大一部分评卷员与全体评卷员在平均分上是有一定的差距的。

第45题的评分细则是：

（1）旗、盟是清政府针对蒙古地区制定的一种管理体制；部落、部落联盟是草原游牧民族自身的社会政治组织（任意1句3分，两句5分）。

（2）在尊重蒙古族社会传统的基础上，改造了草原的社会政治面貌（2分）；削弱了蒙古贵族的权力，加强了对草原的影响（2分）；有利于当地社会稳定和经济发展（2分）；加强了清朝统治的基础（2分）；使统一多民族国家更为巩固（2分）。

从参考答案可以看出，这道题给分点多，共8个给分点、分值高（为15分），计分方法复杂，标准不好把握是其出现评分曲线不一致的重要原因。

2.2 组织与管控因素

在管理学看来，随着技术的进步，系统越来越自动化，越来越复杂，非但没有减少或控制人因失误的发生，反而人因误差发生的可能性及影响增大了。这其中很大的原因并不在于个人因素及技术设备等方面的原因，而在于系统中的那些潜在的管理错误，即组织与管控因素。英国曼彻斯特大学心理学家Reason认为，当没有发生其他技术失效或人误时，管理错误也是人误或人误的结果。在没有发生其他技术失效或人误差时，这些管理错误似乎并未对系统的安全构成威胁，因为往往不被觉察，或者是不被认为是错误。当事后追查事故的原因时，由于那些作为事故触发器的技术失效或人误最为明显，更易被人们认定为事故的直接原因，而潜在的管理错误的作用则往往被忽略了。Reason警告我们，正是这种过于简单的原因分析模型，使得人们难以发现那些引发误差的更重要的因素[4]。主观题网上阅卷误差控制同样面临这样的问题：阅卷员自身或阅卷环境的问题所带来的影响是有限的，而且在计算机系统的保障下是可控的；但是如果计算机系统或者管理上出了问题，那么等于说网上阅卷所带来的保障就成了一道“马其诺防线”，失去了应有的作用。

更为重要的是，组织和管控因素会对阅卷员产生影响，主要是因为阅卷员并不是作为孤立的个体，而是作为阅卷组的一员而存在的，不但受到自身心理、生理因素的约束，还受到环境、物质条件以及组织规程的约束，因此，阅卷员的评分误差都是在受到阅卷组织管理下发生的，因此势必会受到组织与管控因素的影响。组织与管控因素对阅卷员的影响主要反映在组织规范、组织沟通、组织功能、组织文化氛围等，具体表现在阅卷员的生理、心理、精神面貌等方面，最终体现在误差发生率上。在网上阅卷中，阅卷时间、阅卷速度与阅卷质量发生了碰撞，在此情况下，对阅卷质量的追求被固化在“又快又好”上。建构在网络信息技术上的网上阅卷系统在阅卷质量评价上的最大优势之一，就是使阅卷组织对阅卷员的评分一致性进行动态实时监控成为可能，评分一致性就成为阅卷组织评价阅卷员工作质量的重要指标。在注重组织管控因素中，弱化对真分数的追求，转而强化对评分一致性的渴望，成为通过阅卷组织监控的下意识选择。也正是在这种紧张的工作氛围中，阅卷员能够顺利通过组织评价的基本冲动，无形中消解了评分误差控制的重要环节。

2.3 阅卷人员因素

在主观题网上阅卷评分过程中，阅卷员的思想道德素质、业务素质与能力水平、身心素质的差异，是导致评分误差的主要因素。

思想道德素质影响。“评分人员的责任心、工作态度如何，对评卷的质量有很大的影响，同时也是造成误差的重要因素”[5]。如果评分者没有优良的思想政治素质和良好的职业道德，不能严格遵守评分纪律，认真履行工作职责，就会受单一任务观的支配，利用网上阅卷系统在阅卷员评分一致性检验的技术漏洞，赋“保险分”，即对主观题的评分不是以考生实际水平为依据，而是给“中间分”，结果导致评分误差。此种情况在统计学上体现为阅卷员个人评分分布在中间分数段的离散程度呈集中趋势。

业务能力影响。阅卷员良好的业务素质与能力是准确评分的关键，能否科学把握评分标准并合理赋分，是判断主观题阅卷员是否合格的基本标准。要做到这两点，阅卷员必须精通考试科目的基本理论、基本知识和所涉及的专业知识、业务技能，正确领会命题意图，把概括性、抽象性的评分标准转化为具体的可操作的标尺，形成对评分标准的科学把握，准确评判考生作答。否则，很可能出现单纯把考生的作答机械对照参考答案，导致那些不解题意、漫天撒网罗织答案要点的考生得分偏高，而能深入理解题意但解题思路不同于参考答案的考生得分较低。由于公务员录用考试“申论考试试题没有统一的标准答案，只有一个大概的参考答案，评分方式完全靠评卷人的主观判断。一般参加公务员考试的人数都很多，阅卷的时候只能够使多数人共同完成阅卷任务，由于阅卷人员在工作经历、文化水平、对事物的认识等方面都存在差异性。在阅卷过程中，阅卷人对同一份试卷的判定就会不同，即使是同一个阅卷人对不同试卷的判定标准也是很难做到一致性。”[6]其必然的结果是，对于业务能力不足的阅卷员，要么是局限参考答案要点，在阅卷中评分过严；要么是不理解参考答案要点，阅卷时打分忽高忽低，受到警示后转而打“保险分”。

心理素质影响。由于主观性试题的评分是对考生作答结果认知和进行主观判定的过程，评分者在评分时的心理状态和心理倾向，对于考生作答的认识和判断所产生的效应，必然不同程度地影响着他们对评分标准的把握，而产生评分误差。造成主观题评分误差的心理因素主要有：一是情绪效应。心理学研究表明，人们对事物的感知往往受到情绪的影响，这就是情绪效应。在网上阅卷中，评分者或喜悦、或抑郁，往往会直接地影响对考生答题正确程度的评判，以分数的形式体现出来。在好的情绪状态下，评分者对考生作答易于产生浓厚的兴趣，发现其中的新奇点、细微的长处或不足，给出较为精确的评价；反之，则难以集中精力，常出现凭印象给分的情况。一般来说，影响阅卷员情绪的主要因素有阅卷的环境、阅卷的进度以及由此产生的工作压力、突发事件和考生的试卷是否整洁等。二是投射效应。人们往往有一种倾向，总是假设他人与自己是相同的，以自己的认识水平、本身好恶为标准对人和事作出评价，心理学把这种现象称为“投射效应”。受此类心理效应的影响，尤其是在申论、策论和作文题或理工科计算题的评阅中，阅卷员常会设想存在一个理想化的评分模式，往往以“自己的理想标准”取代评分标准，来衡量考生的作答。这样一来，不同的评分人员由于彼此之间认识水平、个人好恶的差异，使得他们即使是面对同一试题，也可能做出不同甚至相去甚远的判断。三是首因效应和近因效应。在主观题网上阅卷评分中，阅卷员往往对首先获得的信息留有较鲜明的印象。如对语文科目中的作文题、竞争性选拔笔试中的论述题、策论题，就可能因为其精彩的开题而吸引阅卷员的注意，最后使得阅卷员的评分产生误差，这就是首因效应对主观题评分的影响。与首因效应相反，最后给人留下的信息也往往能给人以强烈的印象，这在心理学上称为“近因效应”。四是晕轮效应。即一俊遮百丑、片面评价。这种心理效应在评判写作题时容易造成评分误差，如一篇作文由于或主题、或选材、或结构、或语言、或书写等某一个方面比较突出，而其他方面平平，甚至拙劣，但仍可能取得较高的分数；反之，一篇文章正是由于某一方面的不足，就可能使分数受到过分的压低。除此之外，定势效应、时差效应、比照效应等，都不同程度地影响着对评分标准的把握，致使所评分数不能很好地代表考生的实际水平。需要指出的是，阅卷员的身体健康状况，也会对评分的客观性产生影响，如果阅卷人员体质较差，长时间工作会因疲劳而使身心状态发生变化，影响评分的准确程度。

在主观题网上阅卷评分中，条件因素主要体现为方法、手段和技能，主要范围包括：评分者素质条件与资格认定规程，制定评分细则的技术规范，阅卷评分的程序与质量标准等，评分的时间安排与阅卷强度设置、网上阅卷相应设备的配置水平等。如果不能科学掌握与合理利用这些评分技术，无论按要点赋分或按测评要素赋分，分项分等评分还是综合评分，单评还是双评或者三评，都会对主观题网上阅卷评分产生直接的影响。

不仅如此，对评分质量的监控是否及时有效，也是评分误差产生的关键性因素之一。由于主观题网上阅卷评分误差的来源多样、类型复杂、难以控制等特性，单凭培训阅卷员、试评、制定评分细则等评前控制，无法避免评分过程中给分偏宽偏严的系统性误差和打分忽高忽低的随机性误差，如果没有评中控制，评分工作就会很可能处于失控状态，评分的准确性就难以保证。

3 主观题评分误差控制的策略选择

网上阅卷评分误差的控制，其实质仍然是规范阅卷员的评分行为，提升阅卷员的思想素质和业务能力。但对于网上阅卷“人—机对抗”背景下产生的主观题评分误差的控制，在综合运用组建阅卷组织、建立阅卷队伍、加强业务培训、制定规则程序等方式方法的基础上，应更加注重阅卷过程中的技术控制，其具体着力点在于：

3.1 评分标准掌握情况检验

主要有两种方法进行评价，其一，把专家组所评样卷让阅卷员进行评阅，计算每一样卷阅卷员与专家组的差值，判定是否在误差允许范围之内，计算出样卷符合要求的百分比，评定评卷教师评分标准把握程度是否准确。其二，计算专家组和阅卷员在样卷得分的相关系数，评定阅卷员和专家组在样卷评分上的一致性。通过上述两种技术控制，检验阅卷员对评分标准的掌握情况，实现对主观题评分误差的有效控制。

3.2 控制“宽宽严严”

对宽宽严严的技术控制，可通过两种方法：一是比较不同时段，本人阅卷标准差、平均分、有效度和阅卷速度；比较复评的标准差、平均分、有效度和阅卷速度，评价评卷员掌握评分标准的严宽程度，始终如一，是否随意性大。不同时段和复评相关系数越大越好，具体数值达到0.9以上。二是计算集中程度。在阅卷过程中，集中程度反映了阅卷员评分的稳定性，即对考生作答情况的评定是偏松或是偏严。其评价指标是每道题目上每个阅卷员给分的算术平均数。以每道题考生最终成绩的总平均数为参照点，阅卷员给分的平均数越接近考生最终成绩的总平均数，说明评分误差越小。

3.3 计算离散程度

在实际阅卷中，离散程度主要有两种倾向：一是趋中性，即朝着平均数打分，表现为或者尽量多给中间档次的分数，或者确定档次之后，给各档次的中间分。二是发散性，即趋向于给高分或低分，两极分化严重。从试卷的随机分发以及考生得分的正态分布曲线来说，过于高度的趋中或过分的发散倾向，对阅卷的准确性和公平性都是不利的。对此，可主要通过计算各个阅卷员评分的方差和标准差来度量其离散程度。采用的参照点有两个：一是群体中方差的中值，通过差异检验值信度越高的表示阅卷评分误差越小；二是把阅卷员的标准差作为一个分布来看待，用该分布的均值作为参照点，离分布的均值越远表示评分误差越大。

3.4 提高评分有效度

评分有效度是指每道题目上每个阅卷员评阅的有效试卷量占所评试卷量的比例。数值越大，表示阅卷质量越好，评分误差控制的越好。阅卷员对某份试卷的评分与考生最终得分的差值的绝对值小于本题目允许的最大误差的1/2，则这份试卷属于有效阅卷。一般而言，有效度越高的阅卷员，个人尺度越接近标准尺度。阅卷员评分的有效度有下面几种情况：一是双评差值未超出差值阈限，则两位评分员的评分都记为有效；二是三评给出的分数和与之相近的双评中的一位阅卷员的评分，如果没有超出差值阈限，则此二位阅卷员共同决定了该试题的最终得分，该二位阅卷员的评分都记为有效。三是如果与三评分数相差较大的另一个评卷员给出的分数，小于本题目允许的最大误差的1/2，则该评分也被记为有效。

[1][2][3]郭五林.申论命题与阅卷中存在的问题分析[J].秘书之友，2009（11）：31-34.

[4]彭澎，黄曙东.组织管理因素对人因事故的作用与影响[J].人类工效学，2001（2）：34-38.

[5]梁其健，葛为民.考试管理的理论与技术[M].武汉：华中师范大学出版社.2002.

[6]吴梅.湖南省公务员录用考试测评体系研究[D].长沙：湖南大学硕士学位论文，2010.