同伴评分反馈应用于大学英语口语形成性评估的实证研究

2015-03-17 15:48史天化
关键词:互评英语口语

史天化

(福建工程学院 人文学院,福建 福州 350118)



同伴评分反馈应用于大学英语口语形成性评估的实证研究

史天化

(福建工程学院 人文学院,福建 福州 350118)

E-mail:shitianhua2006@126.com

摘要:采用定量和定性分析相结合的方法,探讨了评分反馈对教师评分、学生自评与同伴互评一致性的影响,分析学生评分过程中的具体思维报告数据并总结引起评分偏差的原因。结果表明,评分反馈能有效提高学生对同伴口语表达的评判能力。同伴互评与教师评分高度相关,是教师评分的有益补充。而学生自评具有“劫富济贫”的倾向,与教师评分的线性关系较弱。

关键词:评分反馈;自评;互评;英语口语;形成性评估

口语能力在所有语言能力中最为显著,经常被认为是衡量学习者能否熟练使用语言的重要标志之一。但是,如何公平、公正、科学地测试学习者的口语能力一直是个未彻底解决的课题。教育主管部门、各级院校、教师以及学生也一直没有给予应有的重视。我国语言教学一直采用总结性评价模式,其弊端显而易见,正如张文忠、郭晶晶指出,在百分制的口语测试中评分者却经常痛苦地纠结于上下0.5的评分选择[1]。因此,科学性、多样化的口语测试模式成为一个亟须解决的研究课题。

通过探讨评分反馈在大学英语口语测试中的作用,包括以下两方面的研究:第一,从整体和个体层面分析学生自评、同伴互评和教师评分三者间的异同以及评分反馈能否有效提高学生对自己或同伴口语表达的评判能力。第二,定性分析学生评分过程中的具体思维报告数据并总结产生评分偏差的原因。

一、文献回顾

评估模式根据评分员身份常分为学生自评(self-assessment)、同伴互评(peer-assessment)和教师评分(teacher-assessment)三种模式。目前,测试领域对学习者能否科学准确地评价自己尚未达成共识,尤其是自评的信度和效度研究呈现出相互矛盾的结果。Bachman & Palmer认为,自我评估具有较高的信度和效度, 与教师评价高度相关(r=0.93)[2]; 而Oldfield and Macalpine的研究结果显示其相关系数r值仅为0.30,其相关性甚微,可忽略不计[3]。Mrudula Patri把受试分为控制组和实验组,实验组每次评分之后进行小组讨论和评分反馈,结果控制组和实验组与教师评分的相关系数(r=0.50 and 0.49)较低[4]。同伴互评通过观察同伴的学习行为以及了解评价标准来促使反思式学习的形成,是小组成员对同伴的学习状况如质量、效果、语言产出或其他方面基于一定标准而做出的判断和评价。同伴互评是教师课堂评估的有效补充,不仅帮助教师减轻工作负担,而且更重要的是培养学生的探索和创新精神,促进学生间的合作学习和交流。Matsuno Sumie 使用多面Rasch模型检验自评、互评和教师评分之间的宽严度,发现学生互评时最为宽容;互评比自评以及教师评分的内部一致性都要高且偏差更小[5]。Cho和MacArthur指出,同伴评估的反馈意见比教师反馈更容易被学生接受并理解;同伴评估给出的多为非命令式的评语,能转化为更多复杂的和微观层面上意义的修改,操作性更强[6]。

国内自20世纪80年代开始也有一些学者对形成性评估在外语教学中的作用进行了探索。曹荣平研究了自评与互评对非英语专业大学生写作自主能力的影响[7]。陈美华、徐小燕[8],陈旭红[9]对大学英语口语能力形成性评估进行实证研究,建立一套形成性评估和总结性评估相结合的口语能力评估体系。李清华将社会文化理论应用于形成性评估理论的建构,提出了“形成性的效度验证框架”[10]。文秋芳认为,形成性评估的基本特征可归纳为以下三点:目标驱动、过程导向和师生共同参与[11]。上述研究不仅对语言测试及教学起到了一定的促进作用,也对本研究提供了理论和实践的有益借鉴。通过文献解读发现已有研究的四点局限:

(1)虽然大量的研究都暗示自评和互评促学效果明显,但很少有研究者探索学生作为评分者如何科学、有效地进行评分;

(2)自评与互评的信度、效度以及是否能作为正式课堂评价的一部分仍然存在两种对立观点;

(3)之前大多数研究都是针对写作评分,由于声音不方便记录、传阅、修改等特征以及录音、播放设备等的限制,有关口语评分尤其是同伴互评研究屈指可数;

(4)之前形成性评估的研究过多地专注于评估能否促学,即评估的效用(an efficacy argument of assessment)方面,而忽略了“评估形式本身”所必备的效度。

二、研究设计

(一)研究对象

本研究从福建省某高校英语专业中随机选取两个自然班,进行五周的对比实验,其中,控制组23人,实验组25人,共48人,平均年龄为19岁。课程均由同一名教师承担,教学大纲、教学计划、教材和进度相同。授课时间为每周两学时,共计17周,选取前五周数据进行分析。为了降低不同英语水平的干扰作用,用上学期期末成绩进行对比。结果显示两个班的平均分为76.640 0和75.760 0,相对应的方差为6.755 18和6.989 75,因此,无显著性差异,符合实验要求。

(二)研究工具

自评及互评问卷:包括两部分,共计28个问题。第一部分五大项18个问题:内容和组织(1~6),语言使用(7~10),流利性(11~13),方式态度(13~15)以及与听众互动(16~18)。评分量表采用里克特量表(Likert Scale)。第二部分10个问题依据有声思维设计,收集评分过程中的详细思维数据,如“你觉得自评有困难吗?为什么?”;“你接受同伴给你的分数或评语吗?为什么?”。该问卷同时也适用于同伴互评和教师评分,不同在于问卷说明中的“自己” 、“同伴” 和“教师”三个单词。

(三)评分培训

为了尽量减少评分员因素对评分的负面影响,评分前对学生进行两课时的培训。首先,给学生15分钟熟悉评分标准,教师就问卷中18个项目仔细讲解在自评和同伴互评过程中的注意事项。教师仔细解读流利性、发音、自信心、眼神交流与观众互动每一项细节。然后进入试评训练,事先准备好典型试评材料,学生按照评分细项开始评分,如出现评分差异或疑问,立刻解释并与大家共同讨论。教师尽可能地提供具体的、方便操作的评分细则。

(四)实验程序

(1)第一周:实验组。实验组25人分成六小组,进行试评分训练。教师把事先设计好的自评表、同伴互评表以及同伴反馈表人手一份发给学生。学生根据指定话题进行口头演讲,限时三分钟。教师和所有学生根据评估表对演讲学生分项评分,并填写反馈表。随后,分组讨论评分和反馈情况,直到所有学生都熟练掌握评分规则和方法。最后,布置随后四周的口头演讲话题。

(2)第一周:控制组。控制组按完全相同的程序和方法进行试评分训练,但是没有最后的小组讨论和反馈环节,口头演讲结束后直接布置新任务。每周小组更换新组员,确保最大范围的互动与交流。

三、结果与讨论

搜集五周内的全部数据,列出教师评分、学生自评和互评在实验组和控制组中的均分和标准误差。通过SPSS(18.0)进一步对p值和显著性水平进行比较,显著性水平分别为0.01和0.05的情况下,比较由评分方式和组别构成的七种组合的评分是否存在显著差异。

(一)整体层面分析

对教师评价、学生评价和同伴互评表的数据进行统计,计算出每个学生回答评分表中18个问题所得分数。通过SPSS(18.0)对不同形式评分的均分和标准误差进行分析。这七种组合分别为控制组对比实验组的TA(teacher-assessment),SA(self-assessment)和PA(peer-assessment)三种类型;学生自评对比教师评分的CG(control group)和EG(experimental group)两种类型;以及同伴互评对比教师评分的CG和EG两种类型。在显著性水平为0.05的情况下,七种组合中的PA(t=2.37), CG(t=3.18)和EG(t=2.51)均大于临界值,零假设被拒绝;而在显著性水平为0.01的情况下,只有同伴互评对比教师评分的CG(t=3.18,p<0.01)存在统计意义上的差别。其原因显然是由样本本身的相似性而导致,受试选自同一所高校外语学院的两个平行班级,具有相同的背景和语言能力水平。T检验结果表明,教师评分和学生自评的平均分无论在控制组(无评分反馈)和实验组(有评分反馈)均无显著差异。而在教师评分和同伴互评中,情况有所不同:在显著性水平为0.01的情况下,两者的均分在控制组中存在显著差异;而在显著性水平为0.05的情况下,教师评分与同伴互评的均分对比在控制组和实验组都存在显著性差异;同伴互评在控制组和实验组的均分对比也存在统计意义上的差别。从以上t检验结果,我们可以得出以下结论:

(1)学生在评价同伴时采用与自评时不同的评分模式;

(2)评分反馈在评分过程中起作用,对同伴互评中的评分行为有影响。

(二)个体层面分析

为了获取更详细的评分差异信息,比如学生自评和互评中的评分倾向,进一步了解学生自评、同伴互评和教师评分的变量关系,引入线性回归并建立回归方程。借助社科统计软件SPSS(18.0)建立线性回归模型,其中,研究者感兴趣的是标准系数,也被称为多元相关系数R以及RSquare。标准系数R是教师评分、学生自评以及同伴互评三种不同评分类型间的皮尔逊相关系数的绝对值(R取值范围为0~1)。在语言测试领域,通常相关系数在0.70~0.90认为高度相关,0.40~0.70相关性中等或有实质性关系,而低于0.40则相关性低,可以忽略不计。实验组(r= 0.336,p>0.05)和控制组(r=0.630,p<0.005)的T-S(teacher-self)系数都小于0.70,两变量间具有较弱的线性关系,说明学生自评与教师评分存在正相关,但线性关系较弱,学生在自评过程中不能始终如一地对自己的表现作出准确判断。控制组和实验组按完全相同的程序和方法进行评分,唯一差别在于控制组没有最后的小组讨论和反馈。结果显示小组讨论和反馈反而极大地削弱了二者线性关系的紧密程度。原因在于学生通过评分反馈了解到具体的评分标准、评分要求和评分结果等信息后,自评时反而会变得不知所措,打乱了先前较为统一的评分习惯,评分变得混乱,不可预测。而在教师评分与同伴互评中,控制组和实验组的相关系数都比较高,尤其是实验组的T-P(teacher-self)相关系数达到0.884,表明学生在评价小组成员时与教师的评分高度相关。实验组的相关系数0.884略大于控制组的0.773,说明小组讨论和反馈不但没有削弱反而提高了同伴互评与教师评分的相关性。小组讨论和反馈在学生自评和同伴互评中产生了两种截然相反的效果。RSquare是R的平方,当乘以100%时,理解为因变量的总变异性被自变量解释的百分比。T-P (EG)中0.782的R2值表示学生口语能力总变异的78.2%,即T-P (EG) 78.2%地预测了学生口语能力水平,说明同伴评分的准确可信。T-P中 EG(78.2%)远高于CG(59.7%),评分后的小组讨论和反馈提高了18.5个百分点,即学生对同伴口语表达的评判能力通过小组讨论和评分反馈得到提升,评分准确性提高了18.5个百分点。TP(EG)的显著性系数大于0.7,具备了较高的校标关联度。T-S对学生口语能力的预测程度较低,T-S (CG)为39.7 %,而T-S (EG)只有11%,其p值为0.147,大于0.05,认为回归系数没有显著意义。说明学生自评与教师评分的相关性较弱,校标关联度偏低。

回归系数表提供了构造回归方程所必需的值以及检验学生自评和互评是否是显著的预测变量。非标准化系数包括B(回归方程中的Y轴截距和斜率) 标准误差(自变量不能预测因变量值的程度)。把这些数据代入方程Y=a+bX,得到如下四个回归方程:

(1)Y(学生自评控制组) = 2.093 + 0.627(教师评分)

(2)Y(学生自评实验组) = 2.924 + 0.265(教师评分)

(3)Y(学生互评控制组) = 1.888 + 0.448(教师评分)

(4)Y(学生互评实验组) = 1.176 + 0.735(教师评分)

回归方程中,a为截距,即常量,b为回归系数,表明自变量对因变量的影响程度。理想或完美的系数为1,截距为0,说明回归方程对样本数据点的拟合度完全一致。以上四组方程中,第二组Y轴截距为2.924, 斜率为0.265,表明学生自评实验组与教师评分的拟合度最低;而第四组Y轴截距为1.176, 斜率为0.735,最接近完美线性正相关(a=0,b=1),因此,学生互评实验组与教师评分的拟合度最高。以上回归方程非常直观的反映出教师与学生的具体评分偏差,对语言能力水平低的学生,学生评分总体低于教师评分;而对象为语言能力水平较高的学生时,学生评分略高于教师评分,具有“劫富济贫”的倾向特征。例如,拟合度最高的实验组同伴互评与教师评分方程Y= 1.176 + 0.735X,当X为4.438,两者评分完全相同,该回归线与完美回归线相交。在0~4.438区间,同伴评分高于教师评分;而均分高于4.438时,学生评分开始低于教师评分,分数越高,差距越大。

(三)定性分析

为了进一步获取学生评分过程中的大脑思维情况,了解学生自评和互评时差异产生的具体原因,研究者对评分过程的心理活动进行分析。评分反馈表的数据使用话语分析这种传统的定性方法,而分析的框架采用对文本内容进行归类指导(coding scheme)。

(1)针对学生自评反馈表中问题:你觉得自评有困难吗?有65%的学生选择了“是”,只有35%选择了 “否”,理由如下:

S3:“我太紧张了,完全不记得刚才说了什么”

S8:“我也不知道我自己说得好不好,之前没有什么评分经验”

S10:“自己水平有限,无法给出准确分数”

S11:“客观评价自己应该是很有难度的,过高或过低都感觉很不好,过高会使老师或同学感觉不谦虚,过低自己也很没面子”

S15:“评分时主要依靠自己主观感觉和印象,不太会使用评分标准,有点复杂”

S5:“对自己还是比较了解,按照评分标准打分不是很难”

S6:“对自己很有信心,打分很容易”

S13:“之前有评分训练,做多了就熟悉了,只是有时会忘掉评分标准”

(2)在同伴互评中,只有24%的学生认为评分有难度,76%都选择了“否”,给出的理由如下:

S2:“评价别人要比自己简单多了,根据语速、内容及准确性等要点进行打分,熟悉了就很容易判断他(她)说得好不好”

S19:“即便有时对内容不是很确定,也可以根据他的流利性、停顿以及平时印象打分,往往整体感觉要比那些具体细节更容易操作,分数也更准确”

S7:“虽然我自己口语不好,但是基本的判断能力还是有的”

S23:“评判他人有点难,尤其是成绩比自己好很多的”

S4:“要是能匿名评分会更准确,给熟悉的人打低分感觉很不好, 低了会影响彼此感情”

S1:“对评分标准不熟悉,经常会忘记参照标准,就按照整体感觉打分”

S20:“很难始终如一地严格按照评分标准,往往会受到很多干扰,比如之前分数的影响,同一段内容出现在很好的或很差的后面,会得到完全不同的,差异很大的分数”

(3)通过对学生评分过程中心理活动的表述以及反馈表中的问题进行定性分析,总结评分偏差产生的七个因素:

第一,学生对评分重要性的认识不足,评分比较随意,通常不严格按照评分标准进行。

第二,学生没有很好地理解评分标准,也不能够严格按照准确性、流利性、灵活性和适当性等语言特征进行评分。所有的评分者都会不同程度地根据自身的主观感受和经验,加入评分量表中没有提及的非语言特征进行评分,评分信度和效度较差。

第三,评分者受自身语言能力水平限制,无法对口语水平高于自己的同伴给予准确评分。

第四,彼此间的熟悉程度及颜面问题很难使评分客观准确。

第五,90后学生自我、自信的性格特征也是导致评分偏差的原因之一。

第六,口语评分量表中很多因素,比如流利性、准确性、连贯性、适切性等本身很难科学量化,实际操作困难。

第七,学习者过多关注于分数,或是在玩一场评分的“游戏”而不是从这些活动中获取知识、提升能力。

综上所述,学生自评更容易受到个体特点、经验阅历、语言能力以及颜面等因素的影响,具有“劫富济贫”的倾向,即对语言能力水平低的评分偏高,对语言能力水平高的评分偏低。而同伴互评能比较客观地参照评分标准进行评分,与教师评分高度相关。

四、微信在形成性评估中的应用展望

近年来,随着智能手机的普及,微信已经成为校园生活不可或缺的应用软件。2014年中国社会科学院发布的新媒体蓝皮书中明确指出,截止到2014年微信注册用户量已突破6亿,月活跃用户超过2.7亿[12]。微信拥有“朋友圈”、 “语音输入”、“多人群聊”以及“视频分享”等功能,学生可以发送免费语音短信、视频、图片以及文字等。针对口语形成性评估,微信具有其他介质的档案袋无法比拟的天然优越性,即通过朋友圈创建一个属于个人的小型社交圈这种特有功能,而且可以自由地语音聊天、视频以及文字分享。借助手机微信电子档案袋,教师不仅可以随时掌握学生口语课程后的学习活动、学习成果、学习付出,以及学业进步等有价值的信息,而且可以轻松地追踪学生的学习状况,并与学生随时随地进行有效地互动。手机微信完美匹配了口语评分特点和电子档案袋发展的趋势。手机微信用于同伴口语评估具有以下优点:第一,便捷性,无论在宿舍或是在图书馆,只要有手机和WIFI,就能够随时随地把口语学习的过程记录下来;第二,交互性,也是微信最为强大的功能和特征。教师可以在任何时间,地点,帮助、指导、鼓励、以及评估学生的口语学习进程;第三,实用性,通过微信来创建学生个人学习档案袋,不需要其他复杂的专业知识,简单易学,便于操作;第四,持久性,传统的学生个人学习档案袋很难记录口语表达,而微信“语音输入”、“多人群聊”、“视频分享”等功能非常适合口语形成性评估的要求,而且便于永久性保存;第五,个体性,既可以共享又具有私人的个性特点。学生非常乐意通过手机收集口语学习材料、管理学习进程并最终有效提升口语学习效果。因此,借助手机微信平台构建的学习环境和学习资源不仅能够模拟真实情境的交际体验,而且便于建立口语电子学习档案袋,有利于所有相关材料上传到微信平台,进行教师评价、学生自评和同伴互评,提供评语等各种形式的反馈,为学生提供协商交际的机会,体现动态的语言学习过程。

五、研究的局限性

口语形成性评估是对学生能力的推断,但是这种推断基于对学生口语表达的观察,本身就存在一定的偏差。其次,受试没有一起参与评分标准的制定。以往传统的做法都是由专家或教师制定评分细则,然而在学生自评和互评中,评分主体变成学生,需要学生参与制定评分标准以及每一个标准不同的权重等问题。学生在参与制定评分标准时,由于视角不同,有可能提出有建设性的提议,或教师以前忽略的因素,从而制定出更为全面的适合学生评分的标准,从而提高评分的效度和信度。通过微信平台学生互评并自然地出现“纠正”行为,但评价过程中多数针对词汇和句法层面的错误,很少出现学生为了提高同伴的元语言和元认知能力的评估行为。元认知能力是认知活动得以顺利、高效进行的最为关键的核心因素,与学习者的学业成绩高度相关。因此,在评分过程中如何加强训练元认知策略,提高学生自主使用的意识,并有效地管理和调控评估过程值得未来深入研究。最后,如果在前期能充分地做好思想动员和评分培训工作,学生在自评和同伴互评时会更认真、更客观、更从容、更信心,从而有效提高学生对自己和同伴口语表达的评判能力。

六、结论

小组讨论和反馈对评分有着积极的影响,能有效提高学生对同伴口语表达的评判能力。学生自评会受到个体特点、经验阅历、语言能力以及颜面等因素的影响,无法像教师始终如一地按照评分量表给出相对信度、效度较高的评分,评分内部一致性较差。而同伴互评有助于增进彼此了解并分享学习过程和成功标准,鼓励学生成为彼此的学习资源,激发学生自主学习和主动探索的创新能力,使学生成为学习的主人。同伴评估还有助于培养学生相互合作的意识,帮助学生建立和谐的人际关系。因此,同伴互评不仅是促进学生自主学习的有效手段,还是课堂形成性评估的重要组成部分。正如Brookhart 所说:“形成性评估是教室里沉睡的巨人,是到唤醒他的时候了。”[13]

参考文献:

[1]张文忠, 郭晶晶.模糊评分:外语口语测试评分新思路[J].现代外语,2002(1) :99-103.

[2]BACHMAN L F,PALMER A S.The construct validation of self ratings of communicative language ability[J].Language Testing , 1989, 6: 14-29.

[3]OLDFIELD K A,MACALPINE M K.Peer and self-assessment at tertiary level: An experimental report[J].Assessment & Evaluation in Higher Education, 1995, 20 (1) : 125-132.

[4]MRUDULA PATRI. The influence of peer feedback on self- and peer-assessment of oral skills[J].Language Testing, 2002, 19 (2) : 109-131.

[5]MATSUNO S. Self-, peer-, and teacher-assessments in Japanese university EFL writing classrooms[J].Language Testing, 2009, 26 (1) : 75-100.

[6]CHO K, MACARTHUR C.Student revision with peer and expert reviewing[J].Learning and Instruction, 2010, 98 (4) : 891-901.

[7]曹荣平,张文霞,周燕.形成性评估在中国大学非英语专业英语写作中的运用[J].外语教学,2004(5) :82-87.

[8]陈美华,徐小燕.大学英语口语能力形成性评估实证研究[J].东南大学学报, 2008(3) :119-123.

[9]陈旭红.形成性评估应用于大学英语课程口语测试的实证研究[J].外语与外语教学,2009(7): 22-25.

[10] 李清华.形成性评估的现状与未来[J].外语测试与教学, 2012(3) :1-7,26.

[11] 文秋芳.《文献阅读与评价》课程的形成性评估[J].外语测试与教学,2011(3) :39-49.

[12] 李杨.新媒体蓝皮书[DB/OL].(2014-06-26)[2015-05-08].http://www.pishu.cn/zxzx/mtjj/78098.shtml.

[13] BROOKHART S M.Assessment theory for college classrooms[J].New Directions for Teaching and Learning, 2004,100: 5-14.

[责任编辑曹琪]

An Empirical Study of Applying Peer Feedback to Formative Assessment

in College Oral Testing

SHI Tianhua

(SchoolofHumanities,FujianUniversityofTechnology,Fuzhou350118,Fujian,China)

Abstract:This paper, adopting quantitative and qualitative study, investigates the influence of feedback upon the agreement amongst teacher-, self-, and peer-assessment, analyzes the data of students’ thinking and summarizes the causes of assessing bias. Results show that feedback enhances students’ ability of peer-assessing effectively. Peer-assessment is a beneficial supplement and highly related to teacher-assessment. However, self-assessing tends to overrate low performance and underrate high performance, which has weaker linear relationship with teacher-assessment.

Key words:feedback; self-assessment; peer-assessment; oral English; formative assessment

中图分类号:G642.475

文献标识码:A

文章编号:1673-9779(2015)04-0523-06

作者简介:史天化(1974—),男,江苏溧阳人,讲师,主要从事二语习得和语言测试研究。

基金项目:福建省中青年教师教育科研项目(JBS14118);福建工程学院教育科学规划课题(GB-K-15-32)。

收稿日期:2015-09-08

猜你喜欢
互评英语口语
小学英语口语教学探析
辩论赛在高中英语口语教学中的运用
初中生的我们怎么训练英语口语?
小学英语口语教学研究
协作式学习在英语写作教学中的实践
生生互评 共同进步——小学生习作互评的实践探究
高职数学课堂中的师生互动研究
浅谈小班化语文教学
浅谈加强高中英语口语教学
英语口语常见谚语(二)