新一代智能网上评卷系统的技术实现及在高考网评中的应用实例分析

2019-05-29 11:43何屹松孙媛媛储林林

中国考试 2019年1期

何屹松徐飞刘惠孙媛媛竺博储林林

（1.安徽省教育招生考试院，合肥 230001；2.科大讯飞股份有限公司，合肥 230001）

2014年9 月国务院颁布的《关于深化考试招生制度改革的实施意见》提出“改进评分方式，加强评卷管理，完善成绩报告”[1]。2015年国家发展改革委、科技部等颁布的《“互联网+”人工智能三年行动实施方案》以及2018年国务院颁布的《新一代人工智能发展规划》提出了人工智能在各行业应用的总体思路与主要任务。探索将人工智能评分技术与网上评卷方式进行深度融合，更好实现对阅卷过程的质量监控和考试成绩的定量分析，是考试机构的一项重要研究课题。

1 网上评卷方式与人工智能评测技术概要分析

目前普通高考网上评卷方式是将扫描后的答题卡切分为图像，以计算机为载体，组织评卷教师在网上阅卷。评卷过程中评卷教师根据计算机上呈现的考生答题信息，依照评分细则对考生的答题内容进行评分，由系统实时将成绩传送至中心机房服务器中，并自动调取下一位考生答题信息继续评阅。网上评卷方式从2005年开始规模化应用以来，在各类国家教育考试阅卷工作中发挥了重要作用。

现行网上评卷所遵循的技术规范是教育部2008年颁布的《国家教育考试网上评卷暂行实施办法》《国家教育考试网上评卷技术暂行规范》《国家教育考试网上评卷统计测量暂行规范》。随着技术和考试需求的发展，这些技术规范目前已经不能完全满足考试发展的需要，其评卷模式存在的一些问题，如评卷教师打保险分的现象并不能完全发现和得到及时纠正，对评卷结果的质量评价也很难做到更加精准的定量分析。因此，需要开发新一代智能网上评卷系统。

对人工智能评分技术的研究，国外经历了一个发展过程。美国教育考试服务中心（ETS）从2005年开始将计算机评分系统（E-Rater）应用于托福和GMAT考试的作文评分，该系统的机器评分与评卷员的一致率达到97%，高于2名评卷员通常的一致率95%～97%；对于人机大分差的分歧样本由第三人进行仲裁评分[2]。这种人工加机器、再加仲裁的评分模式，一经公布便引起各国考试机构的高度关注。2010年后，随着以深度神经网络为代表的新一代机器学习算法的发展，以及文档图像识别、自然语言理解等技术的突破，推动了人工智能评测技术在考试领域的研究应用。

人工智能用于辅助评分的3大技术要点有：一是文档图像识别技术。包括手写体识别、公式识别、图形识别等，最终将识别后的文字、字符、公式等转换成文本格式，用于评分分析，要求识别准确率在95%以上，从而满足辅助评分的需要。二是基于深度神经网络建模的评分模型训练。这类自然语言技术用于评测算法，具备了处理文本信息的能力，并且可以科学全面地挑选样本用于人工专家定标集合、学习和拟合人工专家评分，以训练机器评分模型。三是多维度计算机智能评分算法。在该算法中，各个评分维度建立在海量数据分析处理的基础上，并综合考虑课程标准、评分标准、不同学科知识图谱等多方面因素，以提高评分的准确性。目前，基于全连接的卷积神经网络（Fully Connected Convolutional Neural Networks）的图像文档版面分析理解和文字识别技术核心算法[3]，使得智能阅卷评分系统已经形成了一套完整的从图片输入端到文字输出端的识别处理方案，对汉字和英文字符的识别率能够达到一个较高的水平。在多维度评分方面，可将待评样本按照某种算法进行特征向量提取，并对定标集合样本进行同样的特征提取，然后以定标样本的专家评分作为目标，通过基于注意力编解码机制的循环迭代神经网络（Attention Based Encoder-Decoder Recurrent Neural Networks）建模[4]，形成基于当次考试精准的评分模型，进行计算机智能辅助评分。

与人工评卷方式相比，计算机智能辅助评分具有较高的效率、良好的评分准确性、多方位的辅助质检功能，能够克服网上评卷中评卷教师易受自身主观因素影响等不足，有效保证评卷质量，可以提供更客观的第三方质量评价。

2 新一代人工智能网上评卷系统的技术实现

2.1 设计思想

新一代智能网上评卷系统的设计思想是围绕人工智能测评技术与网上评卷技术相结合的应用研究，实现网上评卷系统和人工智能测评系统在网络层面的相互访问和数据层面的实时共享。在千兆局域网条件下，通过相关数据接口，实现对1 000万级别的扫描图像和计算机智能测评结果的访问和应用，既充分发挥人工阅卷在学科先导、教师评阅、专家仲裁和社会接受程度方面的特点，又充分发挥人工智能的高效率、高准确度和高可靠性的特点，以人机结合的方式全面加强对评分过程的数据分析和监管。

2.2 系统结构

新一代智能网上评卷系统以现有阅卷组织管理模式为基础，主要包括答题卡扫描系统、智能评分系统和网上阅卷系统3个部分。本文主要讨论智能评分系统和网上评卷系统的融合问题，融合后的系统结构见图1。

从图1可知，该方案的核心是在保留原有网上评卷系统和人工智能评分系统各自主体功能和操作方式不变的情况下，通过评卷辅助控制决策系统平台（以下简称“评卷辅助平台”）进行系统升级，将新增功能嵌入到原有系统当中，以平滑过渡的方式构造新一代智能网上评卷系统，为后期拓展应用以及系统的进一步融合和升级奠定基础。

图1 高考网上评卷系统和人工智能辅助评分系统融合的系统结构示意图

表1 评卷辅助平台所需服务器配置

评卷辅助平台为WEB架构，采用JAVA面向对象语言开发，关键业务数据的传输和存储均进行加密处理。硬件方面，主要由数据库服务器、文件服务器、应用服务器和网络设备组成，服务器参考配置见表1。网上评卷系统和人工智能评分系统之间不能进行直接访问，需各自与评卷辅助平台进行连接，完成数据交换。在访问策略控制方面，数据库服务器的用户和权限单独设置，网上评卷系统和人工智能系统都不能访问数据库服务器，网上评卷系统只能访问平台的应用服务器，人工智能评分系统只能访问平台的应用服务器和文件服务器，见图2。

评卷辅助平台包括数据交换子系统和监控、统计、处理子系统2个部分，其中：数据交换子系统通过Web service接口技术，提供数据交换服务；监控、统计、处理子系统对交换过程进行监控，对数据进行处理、统计、分析、决策。

图2 评卷辅助平台设备连接示意图

监控、统计、处理子系统主要监控考生图像数据的上传下载、定标集图像信息及专家评分结果的上传下载、样卷、机器评分、空白题给分卷、抄袭题干卷、抄袭范文卷、相似卷（疑似雷同卷）、复核卷等接口数据的接收与下发情况。对人工智能评分结果进行数据导入，对机评成绩和人评成绩进行质检比对。管理人员可根据条件设定，对大分差评分生成需要进行复核的试题信息，通过网上评卷系统发放给学科组进行复核，计入仲裁成绩，并将复核结果反馈至评卷辅助平台，供进一步统计分析使用。监控、统计、处理子系统及其程序设计，可根据智能网上评卷系统的功能设计进行不断升级和完善。

与评卷辅助平台相对应，原有网上评卷系统需进行升级后才能满足新一代智能网上评卷系统的应用需要。基于上述技术方案，对新增功能采用服务引擎方式进行设计。服务引擎主要完成网上评卷系统与评卷辅助平台的交互，包括上传扫描完成考生的图像信息、接收人工智能系统的辅助定标样卷及分数、上传人评最终成绩、接收复核数据（包括人评与机评评分差值较大的考生数据、抄袭题干、抄袭范文、空白卷有分的考生数据、相似考生数据等）、上传复核反馈结果等。服务引擎设计遵循新增模块不能影响原有系统主体结构，新增功能不修改或少修改原有功能的设计思路。既保证原有网上评卷系统稳定运行，又确保新增业务（如人工智能辅助网上评卷质量控制）能够以实时在线方式应用。

2.3 新一代智能网上评卷系统的技术特点

新一代智能网上评卷系统具有5个特点：一是系统的独立性。评卷辅助平台通过对数据接口的定义和网络访问的控制，保证自身的独立性，使其既不依赖于特定的人工智能系统，又不依附于特定的网上评卷系统，可与国内现行主流的网上评卷系统、人工智能评分系统对接，开放而兼容。二是数据交互的灵活性。扫描图像数据通过评卷辅助平台提供给人工智能评分系统，人工智能评分系统的计算机自动评分结果又通过评卷辅助平台提供给网上评卷系统，数据的导入导出交换能力安全高效，过程可追溯，日志可审计。三是在线控制的实时性。例如，安徽省2018年在高考网评过程中实现了对高考语文作文题和高考英语作文题评分结果的定时定点比对，人工评分结果和计算机智能评分结果可以随时在系统控制端进行实时动态分析，对人机大分差样本、抄写题干等异常答题样本等情况进行精准质检反馈，质量监控的针对性大大提高。四是对离线方式的包容性。2018年安徽省增加了对高考语文简答题、文科综合能力测试简答题、数学证明题的智能评分和实验验证，方法是通过评卷辅助平台将机评结果导入网评系统当中，经过监控、统计、处理子系统和服务引擎进行质检反馈，结果显示对多科目、多题型的辅助质量监控高效有序。五是系统的可扩展性。通过评卷辅助平台这种中间双向介入模式，可以将人工智能评分系统的评分结果作为一评直接提交给网上评卷系统，为智能评分替代人工一评提供了更好的解决方案，也为人工智能评分技术在非高利害性考试阅卷组织管理中的推广应用提供了思路。

3 人工智能网上评卷系统在高考评卷中的应用

评卷辅助平台在安徽省2018年高考评卷中进行了试验，试验内容包括：一是对高考英语作文题、高考语文作文题以在线方式实现智能评分，并将评分结果应用于辅助质量监控；二是对高考语文简答题、高考数学证明/计算题、高考文科综合能力测试政治简答题以离线方式验证智能评分效果，探索人工智能评卷技术在多科目、多题型上应用的可行性。

3.1 硬件环境准备

2018年安徽省实际参加高考统考人数为42万，统考科目为语文、数学、英语和文科/理科综合能力测试。扫描及评卷用各类服务器40台，采用虚拟化技术对H3C UIS8000刀片服务器进行物理和逻辑划分。评卷辅助平台使用的3台服务器单独部署，按照特定的网络连接方案与网评系统和人工智能评分系统进行连接。人工智能评分系统安排在独立场地，由6台高配置服务器及2台操作终端进行处理。各服务器、交换机（千兆）、网络安全设备、控制终端和移动硬盘等少量外设组成局域网，与外网进行物理隔离。人工智能评分系统用到的服务器主要配置要求CPU为Intel Xeon V3 12核24线程；内存≥64GB，4通道及以上；千兆网口；高性能GPU显卡4块（显存大小≥16GB）；操作系统为Windows Server 2008R2 64位。

3.2 人工智能阅卷整体数据情况统计

此次试验语文作文题、英语作文题、语文简答题（第6题）各扫描图像419 119份，其中定标样本：语文作文601份，英语作文542份，语文简答题（第6题）500份；文科综合能力测试简答题（第38题）、数学文科证明题（第18题）各扫描图像175 863份，其中定标样本：文科综合能力测试第38题571份，数学文科第18题1 996份，见表2。

从表2可以看出，人工智能评分系统对除定标集、异常作答（包括特殊异常作答和非准确识别）2部分以外的样本进行了计算机评分，语文作文389 299份，占全部样本量的92.89%；英语作文390 701份，占全部样本量的93.22%；语文第6题413 232份，占全部样本量的98.60%；文科综合能力测试第38题171 881份，占全部样本量的97.74%；数学文科第18题125 773份，占全部样本量的71.52%。所有样本的评分结果均经阅卷系统完整性、准确性检查。

表2 试验用样本数量

人工智能评分检测出的特殊异常作答样本，包括与范文库中文本内容相似度高、与当次考试试卷题干相似度高、考生之间作答内容相似度高3种情况，语文作文共有237份，英语作文共有2 557份，语文第6题10份，文科综合能力测试第38题40份，见表3。

人工智能评分系统还对样本的机评平均分和标准差进行统计分析，见表4。

此外，在人工智能评分系统检测出的各类异常作答样本以及定标数据集中，随机挑选语文作文和英语作文各100份图片进行识别率的统计对比，结果为：语文中文字符的识别准确率为96.93%，英语单词的识别准确率为98.88%，这说明系统已经达到了一个较高的水平。根据智能评分得到的数据，通过评卷辅助平台将相应结果与评卷教师的评分情况（报道分）进行了比对，并对以上各类异常作答样本以及人机（报道分和机评分）产生大分差样本进行标注，通过条件控制，将这些大分差样本数据下发给各学科组评卷专家进行复核，各题型复核结果见表5至表8。

从上述复核情况看，人工智能评分系统对辅助质量监控起到精准定位、精细复核、精确评分的作用。

4 启示与思考

目前，基于人工智能的计算机自动评分系统在评分过程的智能程度、算法的先进性、结果的准确性和极高的效率方面等已经得到证明[5]；同时，还具有强大的数据处理能力，完备的辅助质检功能，能够提供客观的质量评价标准，从而能够在更大程度上保证评分的客观公正。在实际应用过程中，如何更好地将人工智能技术与网上评卷技术结合起来，实现二者完美对接与深度融合，解决现有评卷组织管理模式中的一些深层次问题，依然有很长的路要走。

表3 人工智能评分系统检测出特殊异常作答样本数量

表4 人工智能评分样本集合的平均分和标准差

表5 高考语文作文题复核结果份

表6 高考英语作文题复核结果份

表7 高考文科综合能力测试第38题复核结果份

表8 高考数学文科第18题复核结果份

4.1 加强人工智能技术本身和在评卷工作中的应用研究

蓬勃发展的图像识别和字符识别技术，使人工智能在各类考试中的测评应用成为可能；但是，一旦到了应用层面，人们所关心的就不仅仅是结果如何，而是新技术所涉及的全部内容。如何做到让考生、家长和社会接受，需要一个长期的、认识上的转变过程和技术本身的不断进步。要扩大人工智能在更多科目、更多题型上的处理能力，推动人工智能测评技术的发展，要加强对转写识别、智能评分等核心算法的研究，提升人工智能在识别精度和评分准确度方面的能力。例如，经过对比发现，考生在方格内书写作文和在开放区域内书写作文、在有下划线的区域内作答简答题和在开放区域内作答简答题、在开放区域内作答数学证明题和计算题等，其转写识别的精度都不尽相同，前者会高于后者，这些都是摆在考试管理者面前需要考虑的问题。在评分准确度方面，在人机大分差的样本中，尤其是机器评分大于人工评分的样本中，人工评分的准确度要高于智能评分。对于经智能阅卷系统检出的抄写题干、相似作答等异常样本，其分数经复核后无一例外都是向下修正。因此，在人工智能全面参与高利害性考试的阅卷过程中，依然有很多的关键技术需要突破。

4.2 加强人工智能技术应用于网上评卷的规范性研究

随着人工智能技术以及其他新技术的突破，将会有更多企业参与到教育考试及评卷工作中来，也必将对现有网上评卷技术服务商提出更多更高的要求。因此，克服现有网评系统中的固有弊端，加强对人工智能辅助网上评卷的规范性研究，成为一个紧迫的研究课题。就网上评卷的流程而言，无论是人工阅卷还是计算机智能评卷，或是将二者结合起来形成的人工智能网上评卷系统，其流程可以归纳为图3。由图3可知，这一流程在保留了二者独立性的同时，进行了关联融合，其目的是将智能评分结果及时反馈到人工评分的过程中，同步对分数进行比对、分析、计算，从而形成有针对性的应用方案，比如质量控制方案等。

图3 人工智能评分系统深度融合网评系统实施流程示意图

目前的问题是如何进一步加强对人工智能与网上评卷相结合的规范性研究，从而形成一套有效的人机结合的智能网上评卷标准化实施流程。安徽省在2017年、2018年高考阅卷过程中对这一流程进行了积极探索，增加了人工智能辅助网上评卷质量监控功能，第二步将要实现的是在评卷过程中对考生异常答题信息的动态提示，包括对教师阅卷界面的调整等，第三步是人机融合后对网上评卷组织管理模式的改革创新。在应用上，只有实现了二者的融合，才能利用智能阅卷系统的文字转写功能和自主学习能力，更有针对性地为学科评卷组挑选专家样卷；才能实现机器评分和人工评分相结合的新的双评模式，节省人力和提高效率；才能使评卷系统具备及时发现人工评分偏差的能力，动态实现对机器评分与人工评分分差较大的样本进行有针对性的质检反馈；才能使计算机智能阅卷系统通过不断地数据挖掘和自主学习，在某种程度上达到专家水平。

4.3 人工智能评分替代一评或部分替代人工评卷是未来的发展方向

人工智能评分系统在文字转写识别上的高识别率和建立在自然语义理解等核心算法上的多维度智能评分的高准确度和高效率，使其有着非常广阔的发展空间。可以预见：在某些人工智能技术瓶颈得到突破后，其能够在更多科目、更多题型上进行精准评分；在阅卷组织和管理模式上形成规范化和程序化的操作之后，以智能评分替代一评或部分替代人工评卷，将成为一种可能。未来在学业水平考试、自学考试及社会化考试等相对低利害的考试中，可以考虑用计算机智能评分替代多评模式下的人工一评，甚至可以直接替代某些高可信度分数段内的人工评分。这种人机结合的智能阅卷组织管理模式，将成为未来考试阅卷智能化应用的发展方向。