MOOC学习者特征聚类分析研究综述

2018-11-10 13:52王梦倩范逸洲郭文革汪琼

中国远程教育 2018年7期

王梦倩范逸洲郭文革汪琼

【摘要】

在当前MOOC教学中，学习者普遍按照是否完成课程为标准被分为两大类：完成与未完成。但是，这种二元分类具有一些局限，如忽视了只选择部分参与课程的学习者和积极参与课程但对课程证书没有需求的学习者，不利于解释未完成课程者中途辍学的原因，难以有效捕获具有高度异质性的MOOC学习者真实复杂的学习特点。考虑到MOOC学习者的大规模特征，通过人工方法从多个维度对学习者进行识别和分类存在难度，因此有必要采用技术手段作为一种补充，聚类分析被视为一种有效的探索性技巧来识别和刻画MOOC学习者更多元的特征。本文通过对16篇采用聚类分析技术分析MOOC学习者特征的英文文献进行综述，试图回答三个问题：哪些特征指标被应用于聚类？哪些聚类算法被采用？学习者被分为哪些类别？希望能以此呈现该主題研究的全貌，为国内研究者应用聚类分析技术刻画学习者特征提供思路，并对如何确定合适的聚类指标、聚类算法以及阐释聚类结果提供方法性的指导。最后，本文指出了聚类分析技术的情境依赖性和方法局限性，并对未来应用聚类分析技术分析学习者特征进行了研究展望。

【关键词】慕课；聚类分析；学习者；学习分析；数据挖掘；在线学习

【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x（2018）7-0009-11

一、引言

MOOC（Massive Open Online Course，慕课）即大规模开放在线课程，其创新之处在于向全世界学习者提供了自由的在线学习机会，因此MOOC学习者数量众多。在当前MOOC教学中，学习者普遍按照是否完成课程为标准被分为两大类：近5%完成，约95%未完成（Yousef， Chatti， Wosnitza， & Schroeder， 2015）。这是对MOOC学习者群体的初步画像，然而这种二元分类无法解释导致绝大多数MOOC学习者辍学的复杂原因。例如，有的学习者只对一门课程的部分内容感兴趣，只参与了部分课程，自认为学完了，但是从传统的学分赋予单位的角度看他们是“未完成”；有的学习者积极参与课程，但对课程证书没有需求，也被划分到“未完成”群体（Kizilcec， Piech， & Schneider， 2013， pp. 170-179）。此外，也难以有效地捕获具有高度异质性的MOOC学习者真实复杂的学习特点（Arora， Goel， Sabitha， & Mehrotra， 2017）。考虑到MOOC学习者的大规模特点，仅通过人工方法从文化来源、人口学特征、修课动机、学习特征等多个方面（Yousef， et al.， 2015）对学习者群体的特征进行识别和分类存在难度，有必要借助技术手段以更多元的视角刻画学习者特征。

聚类分析（clustering analysis）作为一种数据挖掘方法，被视为一种有效的探索性技巧用来识别和刻画MOOC学习者特征（Cabedo， Edmundo & Castro， 2016），也常作为其他深入研究、教学干预和研发适应性功能的起点（Kizilcec， et al.， 2013， pp. 170-179；孙洪涛，等， 2016），如分析学习者需求、进行个性化推荐、识别危机学生等。典型的聚类过程一般包括数据准备、特征选择、特征提取、聚类过程、聚类结果评估五步（孙吉贵，等， 2008）。从输入输出的角度来看，聚类分析包括三个核心部分：一是选取恰当的特征指标作为输入变量，二是选取合适的聚类算法执行相似度的度量，三是对输出结果进行类别分析。聚类分析运用数学的方法来研究类的划分以及各类之间的亲疏程度（方开泰，等， 1982， p.1），属于数据挖掘领域中的无监督模式识别方法，在没有先验信息的指导下从数据集中发现潜在的结构，以提供客观和稳定的分类（Everitt， Landau， Leese， & Stahl， 2013， pp .4-9），并使得同类间的相似性尽可能大，而不同类之间的差异性尽可能大（周开乐，等， 2014）。

在当前MOOC学习者分析研究中，通过聚类分析方法刻画MOOC学习者特征的研究主要来自国外，被用来揭示学习者在课程参与、视频观看、资源获取、动机、感兴趣话题等方面的特征，以提供对学习者群体的全面解读（Khalil & Ebner， 2017）。我们从聚类指标、聚类算法和聚类结果三个方面对近五年内有关MOOC学习者聚类分析的英文文献进行梳理，试图回答：

（1）哪些特征指标被应用于聚类？

（2）哪些聚类算法被采用？

（3）学习者被分为哪些类别？

通过回答这三个问题，以呈现该主题研究的全貌，并对当前研究的不足进行反思，以期为国内研究者应用聚类分析刻画学习者特征提供思路，并对如何确定合适的聚类指标、聚类算法以及如何阐释聚类结果提供方法性的指导。

二、综述方法

本文最初计划对国内外采用聚类分析方法刻画MOOC学习者特征的研究进行综述，然而在文献搜集过程中发现相关中文文献极少，仅有的文献描述的聚类过程不够规范严谨，没有说明被聚类的学习者对象人数。因此，我们决定缩小研究范围，聚焦于英文文献。英文语境中，聚类（clustering）和分类（classification）虽是两种不同的数据挖掘技术，前者属于无监督模式识别，后者属于有监督模式识别，但聚类常常作为分类研究的预步骤，两种技术的使用存在交叉的情况，因此我们在文献检索时采纳了“clustering”和“classification” 这两个关键词，以求在尽量宽泛的范围内搜寻有关MOOC学习者聚类研究的文献，而在后续的文献阅读中再进行人工筛选。最终本文以“MOOC”“MOOCs”“clustering”“classification”为关键词，在Web of Science、ERIC数据库中检索了近5年内的英文文献，并在之后阅读文献的过程中对参考文献中相关主题的文章进行检索，最终共得到58篇相关文献。

为了保证主题的聚焦与分析的信效度，我们对检索到的文献进行了进一步的筛选。筛选的标准主要包括：

（1）MOOC的课程信息是否明确？

（2）研究对象是否聚焦于学习者？

（3）研究方法是否为聚类分析？

从筛选的步骤上，首先剔除了不是聚焦于MOOC学习情境或没有介绍课程信息及数据来源的文章；其次剔除了聚类对象不是MOOC学习者的文章（如对MOOC、教学者的聚类分析）；最后剔除了不是应用聚类分析方法进行分类的文章（如人工分类、描述统计等）。经过上述筛选，我们最终从58篇文献中筛选出了16篇英文文献，可见当前采用聚类分析方法刻画学习者特征的研究成果并不多。相关文献信息如表1所示。

三、研究发现

（一）哪些特征指标被應用于聚类？

用于MOOC学习者聚类分析的数据集可能包含数以百计的特征属性，其中大部分属性与聚类分析目的不相关，研究者需从中选择或设计一组能够表征研究主题的特征指标作为输入到聚类算法中的原始参数（孙洪涛，等， 2016）。针对不同的聚类目标，特征指标的选取和数据来源会有所不同。在本文综述的16篇文献中，绝大部分聚类研究的数据来源为课程日志，如旨在识别学习者课程参与、视频观看和资源获取等方面特征的聚类研究主要以课程日志为数据来源。

从课程日志中抽取的特征指标可以按照倾向性指标、人机交互指标、人际交互指标和学习绩效指标四类标准进行分类，我们对这些指标作了梳理，如表2所示。其中，倾向性指标主要是指学习者进入学习环境时自身已经带有的一些属性，包括他/她的固有指标（如性别、年龄、种族）和过去的经历（如社会经济背景、初始知识等）（范逸洲，等， 2018）。随后，我们将再从特征指标的选取数目、提取方式和粒度层次三个方面进行分析。

1. 指标数目：与情境有关

另外，有11篇文献都关注学习者课程参与模式的识别，但不同研究者对于“参与”的含义理解不同，因此在特征指标的选择上存在较大差别。Anderson等人采纳的特征指标数目最少，仅包括浏览视频数目和提交作业数目这两个特征指标（Anderson， et al.， 2014， pp. 687-698）；Rodrigues等人采纳的指标最多，他们对“参与”的理解更加宽泛，把论坛发帖、视频观看、测验等在内的共14个特征指标都包括进来（Rodrigues， et al.， 2016， pp. 232-233）；Hicks等人则直接将学习者点击流数据作为聚类分析的输入变量（Hicks， et al.， 2016， pp. 1-9）。剩余的2篇文献由于采用的聚类算法较特殊，没有明确说明所选择的特征指标数目（Hecking， et al.， 2014； Hecking， et al.， 2015， pp. 114-121）。

在学习者特征聚类分析研究中，对于应该选择哪些特征指标和选择多少个特征指标没有定论，需要结合研究情境和聚类目的具体分析。此外，需要注意的是遗漏相关特征或留下不相关的特征对聚类过程都有影响，会导致发现的聚类模式质量降低（韩家炜，等， 2001， p. 79）。而且，不相关或冗余的特征会增加待分析的数据量，可能会减慢聚类进程（韩家炜，等， 2001， p. 79）。

2. 提取方式：直接与间接

另一种间接的特征指标提取方式是通过对课程日志中筛选得到的特征进行转换形成新的突出特征（孙吉贵，等， 2008），再将其输入到聚类过程中，这个过程被称为“属性构造”或“特征构造”，有助于提高聚类精度和对高维数据结构的理解（韩家炜，等， 2001， pp. 76-77）。

我们发现在当前MOOC学习者聚类分析文献中，特征构造过程实际上是降维的过程，将视频观看、任务完成等多维度特征整合为单一维度，如Kizilcec 和Ferguson等人将多维度特征转化为单维的标称变量。Kizilcec等人以学习者在MOOC平台上观看视频和完成测验的行为数据为基础，设定了4个标记值用以标记学习者每周的学习状态，其中0为“out”，表示完全未参与课程；1为“auditing”，表示观看了视频，但没有完成测验；2为“behind”，表示在指定时间之后完成测验；3为“on track”，表示按时完成测验（Kizilcec， et al.， 2013， pp. 170-179）。Ferguson等人在两篇文献中均针对是否浏览学习内容、是否参与讨论、是否按时参与测验三个标准制定了一套评分标准，浏览学习内容记1分，参与讨论记2分，推迟完成测验记4分，按时完成测验记8分，然后将每周内各项活动的得分值累加，每位学习者每周的得分值在0-11分之间（Ferguson， et al.， 2015a， pp. 51-58）。Anderson等人将多维度特征转化为区间标度变量（韩家炜，等， 2001， pp. 225-230），设定了一个“任务分数”来标记学习者观看视频（记为“l”）和提交任务（记为“a”）的行为。学习者的任务分数计算公式为a/（a+l），其值在0到1之间（Anderson， et al.， 2014， pp. 687-698）。Baker认为“特征构造”将领域知识引入以数据驱动的聚类技术，将大量低层级、不规范的数据指标有效地转化为更加合理的具有实际意义和解释力的特征指标（Baker， Carvalho， Raspat， Aleven， Corbett， & Koedinger， 2009）。

3. 粒度层次：粗粒度为主

通过分析所选取的文献，我们发现不同研究所选取的特征指标在粒度层次上也体现出差异。“粒度”（granularity）是数据库名词，是指记录数据或对数据进行综合时所使用的时间段参数，它决定了所存储的数据单元在时间上的详细程度和级别。时间段参数越小，粒度级别越低，数据越详细、具体；反之，时间段参数越大，粒度级别越高，就意味着数据综合度高，同时细节的损失就越多（苏新宁，等， 2006， p.53）。

当前MOOC学习者聚类研究中普遍选取的特征指标时间跨度长、粒度较高，大多数研究（共10篇）以整个课程持续周期为时间段参数，这些高粒度级别的特征指标往往是对低粒度级别特征指标的汇总。例如，Khalil等人基于德国格拉茨技术大学（Graz University of Technology）开设的一门MOOC，刻画学习者在课程过程中的参与情况，选取的4项指标均以整个课程周期为时间段参数，指的是学习者在课程10周时间内分别阅读帖子、发帖、观看视频和尝试测验的总次数（Khalil， et al.， 2017）。有3篇研究选取的特征指标粒度级别较低，以每周为时间段参数（Kizilcec， et al.， 2013， pp. 170-179； Ferguson， et al.， 2015a， pp. 51-58； Ferguson et al.， 2015b）。例如，Kizilcec等人以0至3四个数值分别代表out、auditing、behind和on track四个属性值，标记学习者每周内的课程完成属性（Kizilcec， et al.， 2013， pp. 170-179），那么整个课程周期内某个学习者的特征值就可以用一组0至3的数字组成的集合表示。Hicks等人选取的特征指标粒度最低，他们直接采用课程日志中的学习者点击流数据作为聚类的输入变量（Hicks， et al.， 2016， pp. 1-9），以每执行一项行为的时间节点为时间段参数。

（二）哪些聚类算法被采用？

1. 类型分布：K均值为主

此外，Hecking等人分析的数据来源是论坛中的讨论文本，属于非结构化数据。分析非结构化数据难度更大，他们采用了关键词抽取、网络分析和二分聚类分析相结合，在文本数据的聚类方面做出了尝试。他们依据文档主题生成模型（Latent Dirichilet Allocation）从论坛数据流中抽取学习者的话语关键词，并将这些关键词与对应学习者建立关联，由此形成了一个二分网络，采用二分聚类算法（bipartite clustering）对该网络进行分析，识别出有共同兴趣主题的学习者分类以及学习者感兴趣的相关主题分类，进而分析有共同兴趣主题的学习者与无共同兴趣主题的学习者之间的特征差别，分析课程周期内学习者感兴趣主题的动态变化趋势（Hecking， et al.， 2015， pp. 114-121）。

2. 性度度量：内部与外部

在当前MOOC学习者聚类研究中，大多数研究者都只采用了一种聚类算法，但也有少数研究者对同样的数据尝试了多种聚类算法，以发现数据可能揭示的结果并从中选取最优解。如Gallén等人采用了包括层次化聚类算法和划分式聚类算法在内的9种算法（Gallén et al.， 2017， pp. 1600-1605）、Rodrigues等人采用了2种聚类算法（Rodrigues， et al.， 2016， pp. 232-233）。不同聚类方法获得的结果有所不同，因此需要对聚类结果的性能进行度量，度量的途径大致有两种：其一，将聚类结果与领域内普遍受到认可的“参考模型”进行比较，称为“外部指标”，如Khalil等人将聚类结果和Elton1996年提出的Cryers Scheme进行比较（Khalil， et al.， 2017）；其二，利用數据集的固有特征和量值直接考察聚类结果而不利用任何参考模型，如通过计算簇内平均相似度、簇间平均相似度或整体相似度等，被称为“内部指标”（周志华， 2017， pp. 197-198；李春葆，等， 2014， p. 273）。

当前MOOC学习者聚类研究普遍采用的是后一种方法，通过计算一系列内部指标来验证聚类结果的有效性。例如，Kizilcec等人、Ferguson等人采用轮廓系数对K均值算法的有效性进行评估，轮廓系数通过对聚类簇的凝聚度和分离度进行整合，衡量聚类结果里同类别中对象之间的相似度以及不同类别之间对象的差异度，以反映聚类结果的总体质量（Chen， et al.， 2002）。轮廓系数的最大值为 1，其值越接近 1，聚类效果越好（Kizilcec， et al.， 2013， pp. 170-179； Ferguson， et al.， 2015a， pp. 51-58）。而对于基于人工神经网络模型的SOMs算法，Cabedo等人采用了拓扑精确指数和平均失真指数来验证其有效性（Cabedo， et al.， 2016）。需要说明的是，很难找到一个独立于算法的质量评价指标来同时评价多种聚类算法（Chen， et al.， 2002），因此聚类算法的有效性评估非常依赖专家通过领域知识进行解读（Cabedo， et al.， 2016）。

（三）学习者被分为哪些类别？

1. 类别数目：确定与不确定

在所分析的16篇文章中，大多数研究得到了确定数目的聚类结果，其中Hecking等人识别出的学习者类别数目最少，仅包括2类，分别是与他人存在共同兴趣关键词的学习者类和不存在共同兴趣关键词的学习者类，前者发帖数量更多且帖子主题分布更广泛，同样也收到更多回应，这类学习者在整个学习者网络中更有影响力，是更重要的节点（Hecking， et al.， 2015， pp. 114-121）。Li等人聚焦学习者视频交互行为，识别出的学习者类别数目最多，包括9类（Li， et al.， 2015， pp. 197-210）。其他大部分研究发现的类别数目在3至6之间。由于聚类方法和目的的不同，类别数目的多少并不能直接与聚类效度挂钩，但是较多的聚类数目也能在一定程度上反映该研究对于识别数据集中不同类别的敏感性。

另有4篇研究中聚类结果因聚类过程中的某些因素影响而呈现出多种类别。Kizilcec是最早进行MOOC学习者聚类研究的学者，他基于Coursera平台上三门xMOOC学习者数据，识别出4类学习者：完成者、试听者、旁观者、退出者（Kizilcec， et al.， 2013， pp. 170-179）。Ferguson等人采用与Kizilcec相似的特征提取方法，分析了FutureLearn平台上的5门课程时长不一、学习设计方式不一的cMOOC，试图对Kizilcec的研究进行检验。但相比Kizilcec的聚类结果，Ferguson等人只识别出前两种类别：完成者、试听者。Ferguson对此的解释是xMOOC强调学习者观看课程视频并参与课程测验，而cMOOC在此之外更强调通过讨论进行社会建构知识，两种MOOC的理论基础和教学法方面存在差异，影响到学习者的聚类结果（Ferguson， et al.， 2015a， pp. 51-58）。

随后Ferguson等人根据FutureLearn课程平台的特点，重新设计了特征指标的选取方式，对5门课程时长不一、学习设计方式不一的cMOOC分别进行聚类，结果发现课程时长和课程设计都会影响到学习者聚类结果。在他们研究的5门cMOOC中，有2门时长较长（持续7-8周）的MOOC、2门时长较短（持续3周）的MOOC以及1门以讨论活动为主且不含测试的MOOC（Talk MOOC）。在时长较长的两门MOOC中，学习者被分为7类：抽样学习者（Samplers）、虎头蛇尾者（Strong Starters）、回归者（Returners）、中期辍学者（Mid-way Dropouts）、全程参与者（Nearly There）、拖延的完成者（Late Completers）和敏锐的完成者（Keen Completers）；在另外两门时长较短的MOOC中学习者被分为4类和5类；在Talk MOOC中学习者被分为3类：沉默的学习者（Quiet）、贡献者（Contributors）、持续参与者（Consistent Engagers）。因此，Ferguson等人认为一门MOOC中的学习者聚类结果并不总是能够适用于其他MOOC（Ferguson， et al.， 2015a， pp. 51-58）。

此外，Khalil等人发现学习者的自身特点会影响聚类结果。他们的研究情境是一门持续10周的MOOC，该课程的注册者包括459名来自认证大学的本科生和379名校外人员，本科生被要求强制参加课程，并在完成课程后会得到2.5ECTS学分，而校外人员则基于自愿进行学习。研究者分别对两类学习者进行聚类分析，结果发现：校外人员组的聚类结果为3类，包括欺骗系统者（Gaming the System）、完美学习者（Perfect Students）、退学者（Dropout）。相比校外人员，本科生学习者多了一个类别——社交者（Social），只有社交者在MOOC论坛中发过帖子（Khalil， et al.， 2017）。

2. 概念描述：枚舉与特征化

聚类结果是几类细节数据的集合，这些细节数据并不能给人直观的印象，应当灵活地以不同的粒度、从不同的角度进行描述，这种描述性数据挖掘的过程称为概念描述（韩家炜， 2001， p.119）。大多数MOOC学习者聚类结果的概念描述都体现出了课程参与程度的高低差别，如Rodrigues等人分析一门MOOC论坛中的学习者参与情况，将学习者划分为参与者、偶尔参与者和不参与者（Rodrigues， et al.， 2016， pp. 232-233）；Hicks等人对学习者在课程周期内的点击流数据进行聚类，将学习者分为完全参与的学习者、始终如一的学习者、参与了两周的学习者、参与了一周的学习者、偶尔参与的学习者（Hicks， et al.， 2016， pp. 1-9）。这两个研究中的概念描述从定量的维度反映了学习者参与程度的高低。

另一些研究更进一步，不仅是数据的简单枚举，还产出了对数据的特征化和比较描述，特征化旨在提供给定数据汇集的简洁汇总，而比较描述则是对不同的概念或类进行比较（韩家炜， 2001， p. 119）。Anderson等人将学习者划分为五类，包括观看者、解决者、多面手、收集者、旁观者（Anderson， et al.， 2014， pp. 687-698）；Arora等人识别出5类学习者，包括非正式学习者、不感兴趣的学习者、执行者、探索者、完成者（Arora， et al.， 2017）；Chen等人识别出4类学习者，包括视频观看者（Video Viewers）、资料收集者（Handout Collectors）、追求成绩者（Point Seekers）和其他（Chen， et al.， 2017， pp. 542-543）。以上研究在特征化之后，均对不同类别进行了比较分析，例如Hicks等人从学习者的个人特征（包括教育层次、相关先修课经历、微积分水平等）、学习者与课程有关的情况（包括期待和注册动机等方面）、学习者目标等方面对5类学习者进行比较（Hicks， et al.， 2016， pp. 1-9）。

通过分析上述聚类结果可以发现，概念描述的过程是结合教学过程对数据集进行深入解读，以体现研究者对数据驱动的聚类结果的主观解释。这是在数据驱动的基础上增加领域知识的成分，能够促进对学习者特征的内部结构之间的潜在关系的识别。

3. 对比分析：共性与特殊性

通过对16篇文献中的聚类结果进行梳理，我们发现了一些共同的学习者类别。完成者、退学者、课程浏览者、低参与者、报名者这5类学习者在16篇研究中被识别出的频次最多，如表3所示。除课程浏览者之外的4类均描述的是学习者课程完成度的高低，可见当前MOOC学习者聚类研究普遍关注的是学习者完成度情况。共有9项研究识别出了“完成者”这一类别，明显多于退学者、低参与者和报名者，原因在于一些研究中对退学、参与程度低的学习者类别做了更细致的划分，以致“退学”“低参与”这类特征在文字描述上有所分化。例如，Kizilcec等人和Ferguson等人识别出了试听者（Samplers），这类学习者只在课程的前一至两周浏览过课程视频，而后退出了课程（Kizilcec， et al.， 2013， pp. 170-179）；Ferguson等人识别出了虎头蛇尾者（Strong Starters）和“蛇头蛇尾者”（Very Weak Starters）（Ferguson et al.， 2015b）；Hicks 等人识别出了参与一周和两周的学习者（One/Two-Week Engaged Learners）（Hicks， et al.， 2016）。以上这些学习者类别均是对“退学者”“低参与者”的进一步细致分类。之所以Kizilcec、Ferguson和Hicks 等人能够做出更进一步的分析，是因为他们选取的特征指标粒度更细，所关注的时间段参数更小。表3中的另外一类被识别频次较高的学习者是课程浏览者，描述的是学习者的学习特点而非完成情况，这说明在较多MOOC中普遍存在着只浏览课程内容，而不参与测验、作业的学习者群体，他们把MOOC当作一种“教材”或“参考书”进行浏览。

同时，我们也发现了一些独特的学习者群体，如表4所示。这些独特的学习者群体与其对应的MOOC教学情境、研究情境存在着一定的相关性。拖延的完成者、“蛇头蛇尾者”、进步者等学习者群体描述的是学习者学习过程中随时间变化的特点，这反映出研究者选取的特征指标粒度较细。在英国伯明翰大学开设的持续3周的生命科学主题的MOOC中，Ferguson等人识别出了进步者（Improvers）这一群体，这类学习者在学习过程中的参与程度逐渐提高；但在另一门同样时长和主题的由英国利兹大学开设的MOOC中，Ferguson等人却没有类似的发现。其他研究者也没有识别出进步者。这说明MOOC中的进步者群体极为少见，另外在课程时长较短的MOOC中出现进步者的可能性更高（Ferguson et al.， 2015b）；Anderson等人选取的特征指标聚焦在浏览视频和提交作业，因此识别出了课程浏览者（普遍只看视频）、解决任务者（普遍只提交作业）、多面手（既看视频又提交作业）（Anderson， et al.， 2014， pp. 687-698）；Talk MOOC是以社会知识建构为教学法而设计的，教学活动没有测验而是一系列结构化讨论，Talk MOOC中的学习者同时也可以是知识生产者。Ferguson等人发现沉默者（Quiet）和贡献者（Contributors）是Talk MOOC中独有的学习者群体，沉默者仅在课程初有过发帖，贡献者在课程中发帖较多（Ferguson et al.， 2015b）。Kovanovi等人和Khalil等人识别出了社交者群体，但两个研究中社交者所占的比例都极少，均小于1%（Kovanovi， et al.， 2016， pp. 269-272； Khalil， et al.， 2017）。在德國格拉茨技术大学（Graz University of Technology）开设的MOOC中，Khalil等人在本科生群体里识别出了社交者，而在外校人员中没有识别出社交者。这说明社交者群体在MOOC中并不常见，特别是由陌生人组成的大规模学习者群体中，而在具有关联性或者相熟的群体中社交者出现的可能性更大。另外，Khalil等人在本科生中识别的欺骗系统者（Gaming the system）和完成者（Perfect students）占比均远高于校外人员（Khalil， et al.， 2017），说明学校对于本科生MOOC的课程学分要求一方面提高学生优秀率，另一方面也导致了诚信问题。

另外，Gallén等人关注的是学习者动机，识别出了信任课程（Convinced）、对课程谨慎（Cautious）和不相关的（Irrelevant）三类学习者（Gallén et al.， 2017， pp. 1600-1605）。关于学习者兴趣特点，Hecking等人只识别出了两类学习者（Hecking， et al.， 2015， pp. 114-121），但与他人是否存在共同感兴趣关键词这一特征，蕴含了与他人的关系，因此特征含义更为复杂，所采用的聚类方法也更加复杂。

4. 聚类结果：受多因素影响

除了前文所述中发现的课程时长、课程设计和学习者自身特点对聚类结果造成影响之外，聚类的结果还会受到数据样本、特征指标的选择以及数据算法的影响（Cabedo， et al.， 2016）。

在所关注的MOOC学习者聚类研究中，有8项研究明确说明了确定的特征指标数目和聚类类别数目，将二者进行比较，如图1所示，从中可以看出，当选取的聚类指标数目超过一定程度后聚类结果数目呈现出明显的减少趋势，尤其是当聚类特征数目非常多时反而聚类结果中识别出的学习者类别更少（Rodrigues， et al.， 2016； Gallén， et al.， 2017， pp. 1600-1605）。相反，Anderson、Kizilcec、Arora等人对于特征指标经过了细致的筛选，反而识别出了更多的学习者类别，挖掘出的学习者特征也更加深入。由此可以看出，当进行聚类研究时选取的特征指标不在于数量多，而在于是否能精确地反映学习者特征。当聚类特征指标过多时，会对算法处理高维数据空间的能力提出更高要求，这对算法造成了挑战，尤其当数据稀疏、高度倾斜时更是如此（李雄飞，等， 2013， p. 139）。因此，在选取特征指标时建议过滤掉高度相关、产生二阶效应的指标。

聚类特征指标的提取方式对聚类结果也有影响。分析发现，相比直接从数据来源中选择特征指标，经过特征构造而设计新特征指标的聚类研究的聚类结果的概念描述更加深入细致。例如，Ferguson对5门特点不一的cMOOC学习者数据分析得到多种聚类结果，发现了影响聚类结果的多种因素；Kizilcec识别出了旁观者（Auditing）和抽样学习者（Sampling）这两个有鲜明特点的类；在Anderson的研究结果中，多面手（All-Rounders）、收集者（Collectors）这两个类很有特点（Kizilcec， et al.， 2013， pp. 170-179； Anderson， et al.， 2014， pp. 687-698； Ferguson et al.， 2015b）。

聚类指标的粒度层次对聚类结果也有一定影响。Hicks等人选取的特征指标粒度层次最低，他们注意到了学习者的参与程度在时间上的细节性变化（Hicks， et al.， 2016， pp. 1-9），也正因为如此，在对学习者的综合特征进行概括性解释方面稍有忽视。而另一方面，当采用粒度较高的特征指标来识别和解释学习者行为时，存在的问题是无法反映出对应行为的持续时间长度方面的特征（Li， et al.， 2015， pp. 197-210）。因此，当选取聚类研究的特征指标时，应结合实际需要综合考虑特征指标粒度的综合性和细节性。

四、讨论及未来研究展望

（一）聚类分析的情境依赖

通过上述分析，可以发现采用聚类分析刻画MOOC学习者特征在很大程度上受到课程因素的影响，如课程时长、课程设计、教学理论、学习者来源等（Ferguson， et al.， 2015b； Khalil， et al.， 2017），也受到聚类分析过程本身的影响，如特征指标的选取、聚类算法的选取、聚类结果的阐释。总的来说，MOOC学习者聚类分析具有很强的情境依赖性，这种情境依赖在一定程度上来源于教育和学习过程本身的复杂性，但是目前少有研究讨论研究情境和聚类结果之间的关系（孙洪涛，等， 2016）。因此，我们认为对于MOOC学习者聚类结果的推广和应用应当保持谨慎，当描述MOOC学习者聚类结果时对MOOC教学情境进行具体说明，是使研究结果令人信服的前提。

由于MOOC教学情境和研究情境的差异，聚类过程中特征指标的选择应符合具体情境特点和研究目标，可以从自身倾向性、人机交互、人际交互、学习绩效四个维度（如表2所示）思考，有所侧重地选取合适的特征指标。对于基于不同教学法的MOOC，分析xMOOC学习者应着重获取他们在视频观看、测验、提交任务方面的指标，而分析cMOOC学习者则应着重获取他们在发帖、回帖等社会交互方面的指标（Ferguson， et al.， 2015b）。关于特征指标的提取，首先应符合聚类研究的需求和目的。此外，相比直接提取特征指标，在原始特征指标的基础上进行整合并构造新的特征指标，这种提取方法更具优势。关于特征指标的粒度层次，应结合聚类目的，是希望识别出具有宏观视野的模式表征，还是希望反映出类别中的细节性，从而在粒度的选择上在综合性和细致性之间做好平衡。

（二）聚类分析的方法局限

目前，在线学习研究中聚类分析尚处于探索阶段。聚类分析方法适合对大规模数据进行解释，而当数据量较小时难以获得有效的分类。MOOC学习者聚类研究中处理的数据多是结构化数据，如果在聚类开始前能够确定聚类数目的大致范围，那么可以采用K均值算法；如果无法确定最佳聚类数目的范围，那么可采用SOMs、Neural Gas等算法。聚类算法对于分析网络数据、文本数据这类非结构化数据存在难度，因此当分析对象为文本数据时可以首先对非结构化数据进行关键词抽取；如果分析对象为网络数据，那么可以采用二分聚类算法。同时，聚类算法对于处理高维数据也存在压力（李雄飞，等， 2013， p. 139），因此特征指标的数目不宜过多。当数据对象的特征指标过多时，在聚类分析之前可以先对其进行降维处理。此外，聚类分析本质上是一种具有相对性的分析方法，研究者往往需要对聚类的类别个数和聚类变量等进行不断调整，才能最终获得具有教学意义的有效解释（孙洪涛，等， 2016），很难找到一个独立于算法的质量评价指标来同时评价多种聚类算法（Chen， et al.， 2002），此时可以通过将聚类结果与领域内普遍认可的“参考模型”进行比较，进而分析聚类结果的有效性。

（三）聚类分析的研究展望

当前，通过聚类分析方法刻画学习者特征的数据来源主要是课程日志，普遍关注的是学习者课程参与程度的高低，日后可以整合课程前后测问卷、成绩数据、论坛讨论数据等多种数据来源（Ezen-Can， Boyer， Kellogg， & Booth， 2015），进一步关注学习者在自身倾向性、人际交互、学习绩效等方面的特征。Kizilcec也指出MOOC学习者的学习动机、时间管理、坚毅程度、自信心等非认知特征有待挖掘（Kizilcec， et al.， 2013， pp. 170-179）。此外，当前MOOC学习者聚类分析不太关注学习者在课程周期内随时间变化和发展的特点，未来可以通过降低特征指标粒度以增加时间维度下对学习者特征的考察，如考察学习者在课程周期内学习状态的转变（Coffrin， Corrin， Barba， & Kennedy， 2014）。

最后，聚类分析作为一种数据挖掘技术，是对海量学习者数据的基本模式识别，常作为其他研究的预研究（Kizilcec， et al.， 2013， pp. 170-179），不僅适用于分析MOOC学习者数据，也适用于其他学习者数量较多的在线学习情境。我们在前期的在线教学实践中积累了体量较大的学习者行为数据，计划在本篇综述的基础上开展学习者聚类实证分析，并在模式识别的基础上结合相关学习者模型或质性研究方法，将“底层数据挖掘”和“顶层模型设计”相结合，以发掘学习者特征及其背后的深层解释。

[参考文献]

范逸洲，汪琼. 2018. 学业成就与学业风险的预测——基于学习分析领域中预测指标的文献综述[J]. 中国远程教育（1）：5-15.

方开泰，潘恩沛. 1982. 聚类分析[M]. 北京：地质出版社.

韩家炜，坎伯. 2001. 数据挖掘：概念与技术[M]. 范明，孟小峰，等，译. 北京：机械工业出版社.

李春葆，李石君，李筱驰. 2014. 数据仓库和数据挖掘实践[M]. 北京：电子工业出版社.

李雄飞，杜钦生，吴昊. 2013. 数据仓库与数据挖掘[M]. 北京：机械工业出版社.

苏新宁，杨建林，江念南，栗湘. 2006. 数据仓库和数据挖掘[M]. 北京：清华大学出版社.

孙洪涛，李秋劼，郑勤华. 2016. MOOCs交互模式聚类研究[J]. 中国远程教育（3）：33-38.

孙吉贵，刘杰，赵连宇. 2008. 聚类算法研究[J]. 软件学报，19（1）：48-61.

周开乐，杨善林，丁帅，罗贺. 2014. 聚类有效性研究综述[J]. 系统工程理论与实践（9）：2417-2431.

周志华. 2017. 机器学习[M]. 北京：清华大学出版社.

Anderson， A.， Huttenlocher， D.， Kleinberg， J.， & Leskovec， J. （2014）. Engaging with massive online courses. International World Wide Web Conference. （pp. 687-698）. New York： ACM.

Arora， S.， Goel， M.， Sabitha， A. S.， & Mehrotra， D. （2017）. Learner groups in massive open online courses. American Journal of Distance Education， 31（2）， 80-97.

Baker， R. S. J. D.， Carvalho， A. M. J. B.， Raspat， J.， Aleven， V.， Corbett， A. T.， & Koedinger， K. R. （2004）. Educational software features that encourage and discourage "gaming the system". Proceedings of the International Conference on Artificial Intelligence in Education， 200（1）.

Cabedo， R.， & Edmundo， T. C.， & Castro， M. （2016）. A Benchmarking Study of Clustering Techniques Applied to a Set of Characteristics of MOOC Participants. 2016 ASEE Annual Conference & Exposition， New Orleans， Louisiana.

Chen， B.， Fan， Y.， Zhang， G.， & Wang， Q. （2017）. Examining motivations and self-regulated learning strategies of returning MOOCs learners. International Learning Analytics & Knowledge Conference （pp.542-543）. New York： ACM.

Chen， G.， Jaradat， S. A.， Banerjee， N.， Tanaka， T. S.， Ko， M. S. H.， & Zhang， M. Q. （2002）. Evaluation and comparison of clustering algorithms in analyzing ES cell gene expression data. Statistica Sinica， 12（1）， 241-262.

Coffrin， C.， Corrin， L.， Barba， P. D.， & Kennedy， G. （2014）. Visualizing patterns of student engagement and performance in MOOCs. International Conference on Learning Analytics and Knowledge （pp.83-92）. New York： ACM.

Everitt， B. S.， Landau， S.， Leese， M.， & Stahl， D. （2011）. Cluster analysis （5th ed）. United Kingdom： Wiley.

Ezen-Can， A.， Boyer， K. E.， Kellogg， S.， & Booth， S. （2015）. Unsupervised modeling for understanding MOOC discussion forums： a learning analytics approach. International Conference on Learning Analytics and Knowledge （pp.146-150）. New York： ACM.

Ferguson， R.， & Clow， D. （2015a）. Examining engagement： analyzing learner subpopulations in massive open online courses （MOOCs）. International Conference on Learning Analytics & Knowledge （pp. 51-58）. New York： ACM.

Ferguson， R.， Clow， D.， Beale， R.， Cooper， A. J.， Morris， N.， & Bayne， S.， et al. （2015）. Moving Through MOOCS： Pedagogy， Learning Design and Patterns of Engagement. European Conference on Technology Enhanced Learning，（Vol.9307， pp.70-84）. Switzerland： Springer.

Gallén， R. C.， & Caro， E. T. （2017）. An exploratory analysis of why a person enrolls in a Massive Open Online Course within MOOCKnowledge data collection. Global Engineering Education Conference （pp.1600-1605）. IEEE.

Hecking， T.， Ziebarth， S.， & Hoppe， H. U. （2014）. Analysis of Dynamic Resource Access Patterns in a Blended Learning Course. International Learning Analytics & Knowledge Conference （pp.173-182）. New York： ACM.

Hecking， T.， Chounta， I. A.， & Hoppe， H. U. （2015）. Analysis of User Roles and the Emergence of Themes in Discussion Forums. Network Intelligence Conference （Vol.30， pp.114-121）. IEEE.

Hicks， N. M.， Roy， D.， Shah， S.， Douglas， K. A.， Bermel， P.， & Diefesdux， H. A.， et al. （2016）. Integrating analytics and surveys to understand fully engaged learners in a highly-technical STEM MOOC. Frontiers in Education Conference （pp.1-9）. IEEE.

Khalil， M.， Kastl， C.， & Ebner， M. （2016）. Portraying MOOCs Learners： A Clustering Experience Using Learning Analytics. European MOOCs Stakeholders Summit （pp. 265-278）.

Khalil， M.， & Ebner， M. （2017）. Clustering patterns of engagement in massive open online courses （moocs）： the use of learning analytics to reveal student categories. Journal of Computing in Higher Education，29（1）， 1-19.

Kizilcec， R. F.， Piech， C.， & Schneider， E. （2013）. Deconstructing disengagement： analyzing learner subpopulations in massive open online courses. International Conference on Learning Analytics and Knowledge， 170-179.

Kovanovi?， V.， Joksimovi?， S.， Ga?evi?， D.， Owers， J.， Scott， A. M.， & Woodgate， A. （2016）. Profiling mooc course returners： how does student behavior change between two course enrollments？. Third Annual ACM Conference on Learning at Scale （pp. 269-272）. New York： ACM.

Li， N.， ?ukasz Kidziński， Jermann， P.， & Dillenbourg， P. （2015）. MOOC Video Interaction Patterns： What Do They Tell Us？. Design for Teaching and Learning in a Networked World （pp. 197-210）. Springer International Publishing.

Rodrigues， R. L.， Ramos， J. L. C.， Silva， J. C. S.， Gomes， A. S.， Souza， F. D. F. D.， & Maciel， A. M. A. （2016）. Discovering Level of Participation in MOOCs through Clusters Analysis. 2016 IEEE 16th International Conference on Advanced Learning Technologies （ICALT）（pp.232-233）. Austin： ICALT.

Seaton， D. T.， Bergner， Y.， Chuang， I.， Mitros， P.， & Pritchard， D. E. （2014）. Who does what in a massive open online course？. Communications of the ACM， 57（4）， 58-65.

Yousef， A. M. F.， Chatti， M. A.， Wosnitza， M.， & Schroeder， U. （2015）. A cluster analysis of mooc stakeholder perspectives. Revista De Universidad Y Sociedad Del Conocimiento， 12（1）， 74-90.

收稿日期：2018-01-06

定稿日期：2018-03-16

作者簡介：王梦倩，博士研究生；范逸洲，博士研究生；郭文革，副教授，博士生导师；汪琼，教授，博士生导师。北京大学教育学院（100871）。

责任编辑郝丹