基于核典型相关分析的教学资源推荐算法

2021-05-07 10:39吴昌钱
辽宁科技大学学报 2021年1期
关键词:典型准确率教学资源

吴昌钱,刘 敏

(1.闽南科技学院 计算机科学与技术系,福建 泉州 362332;2.西南石油大学 信息学院,四川 成都 610599)

随着互联网高速发展,网络教学资源共享频次提高,同时在线学习平台展示出新的活力,用户可以通过电子设备获取大量学习资源,在线学习成为课堂外的重要学习模式。但是在线学习发展也遇到了难题,面对大量的教学资源,用户选择难度提升,即使通过关键词搜索能够获得部分相关资源,但有时还是无法避免搜索结果与用户需要的匹配程度不高的问题。用户迫切希望登陆到在线学习平台就能够获得自己需要的资源,而不需要频繁搜索选择资源而耗费时间[1]。因此,教学资源的精准推荐成为在线学习平台必须具备的功能,通过用户在平台学习的习惯及偏好,运用数据挖掘,为用户提供个性化教学资源。

目前,关于在线教学资源推荐的研究成果较多,韩怡[2]采用主题词作为教学资源推荐的核心标定来实现教学资源推荐,但推荐的弱相关资源数量较多。包昊罡等[3]采用关联规则对大规模用户进行资源推荐,但推荐的时间较长。此外,基于学习产出的教育模式(Outcomes-based education,OBE)最早出现于美国和澳大利亚的基础教育改革,现在已成为基础类课程网络教学的主流模式之一。OBE平台中基础类课程面向的专业方向较多,基于典型相关分析的教学资源推荐存在适用性较低的问题。因此,本文将典型相关分析与核函数方法相结合,以进一步提高教学资源推荐的有效性及效率。

1 教学资源推荐结构

教学资源推荐主要是通过记录用户访问在线学习平台习惯及在平台上的操作记录,运用数据挖掘算法对在线学习平台所有教学资源进行分类及特征整理,然后将用户习惯与资源特征进行充分比对,为用户实现个性化学习资源推荐服务。教学资源推荐流程如图1所示[4]。

教学资源推荐的核心内容是用户数据和教学资源的特征提取以及两者特征的分析或规则关联。特征提取通过数据挖掘对在线教学平台的用户数据和教学资源的属性特征分别进行量化和数字化,对用户特征和教学资源特征组成的用户特征库和资源特征库进行相关性分析或关联分析,实现教学资源的精准匹配与推荐。根据在线教学平台的特点,选择用户特征及资源特征分别如表1和2所示[5]。

表1 用户特征Tab.1 User characteristics

表2 教学资源特征Tab.2 Characteristics of teaching resources

在教学资源特征中,设定关键词的数量,对资源包含的关键词进行标注,并按重要度进行降序排列,添加至资源属性库中。关键词量的多少决定了资源属性量,同时也决定了用户特征量的多少。用户对关键词的数目依赖性强,而教学资源的关键词属性也是推荐算法需要重点关注的特征,因此定义合适的关键词数量非常重要。

2 教学资源推荐算法

2.1 典型相关分析算法

典型相关分析(Canonical correlation analysis,CCA)常用于两个多维数据的相关性量化分析,主要结构如图2所示。

图2 典型相关分析示意图Fig.2 Schematic diagram of canonical correlation analysis

设有一组经过均值归0处理的样本X=(x1,x2,…,xM),Y=(y1,y2,…,yM)。典型变量X的相关性x*和典型变量Y的相关性y*分别为

式中:φx和φy为满足相关性最大值所对应的系数;T为转置符号。

CCA方法的目标是对等式(1)和(2)进行组合,找出两者间相关性最大值[6-7]。

设X和Y的协方差矩阵分别为Cxx和Cyy,互协方差矩阵为Cxy,则最大相关系数ρ为[8-9]

式中:E()表示期望求解;cov()表示求协方差。

上述计算的约束条件为

通过拉格朗日函数法求解式(7),获得最佳φx和φy[10]。

2.2 核典型相关分析算法

在CCA基础上引入核函数,构建核典型相关分析(Kernel canonical correlation analysis,KCCA)方法,解决两种不同维数特征之间的相关分析[11]。主要结构如图3所示。

设有映射函数φ(x)满足K(x,y)=φ(x),φ(y),则称K(x,y)为核函数,对归0化的样本X=(x1,x2,…,xN),Y=(y1,y2,…,yN)进行φ函数映射,再根据式(1)求解样本X和Y的相关系数。式(3)变为[12]

上述计算的约束条件为

图3 核典型相关分析示意图Fig.3 Schematic diagram of kernal canonical correlation analysis

3 实例仿真

为了验证核典型相关分析算法在教学资源个性化推荐中的性能,结合大型在线教学平台的OBE教学资源,根据用户对此平台推荐的教学资源的评分值来验证,高于9分则表示推荐正确。仿真数据来源为某知名在线教育学习平台,分别按时间段选择了4周的教学资源推荐服务,每一周抽样针对1 000个用户的推荐服务,组成4个教学资源推荐数据集。

3.1 不同核函数的推荐性能

分别采用不同的核函数与相关性分析算法结合,计算结果见表3。对于4个数据集,高斯核和Sigmoid核的教学资源推荐准确度比多项式核高。而且在多数情况下,高斯核典型相关分析算法的推荐性能更优,特别是对数据集3的推荐准确度最高,但对数据集2的推荐准确度较低。这可能是由于管理类教学资源特征更容易分类,而工科类资源专业相关度高,不容易分类。核算法对推荐时间影响较小,多种数据集的不同核算法推荐时间相差不到1 s。

3.2 不同关键词量的推荐性能

为了验证关键词量对教学资源推荐的有效性,差异化设置关键词个数,采用高斯核相关性分析算法,计算结果如图4所示。

图4 不同关键词条件下的推荐准确率和推荐时间Fig.4 Recommendation accuracy and time under different keyword conditions

教学资源推荐准确率随着关键词数的增加呈现先增加后减小的趋势。数据集2在关键词为5个时获得了最高推荐准确率,而数据集1和数据集4在关键词数为6个时获得了最高推荐准确率,数据集3在关键词数目为7时获得最高准确率。综合比较,若要同时满足4个数据集,关键词设置为6时较为合适。当关键词数目继续增加,准确率不升反降。这说明过度细化资源属性,造成对非重要关键词过于敏感,导致推荐资源不准。

随着关键词数目增加,4个数据集的推荐时间均在增加。在关键词个数超过7个后,推荐时间快速增加。因此,从教学资源推荐性能方面看,适合4个数据集的关键词数目最好小于7。

3.3 常用推荐算法性能对比

分别采用协同过滤算法[13]、Apriori算法[14]、关联规则算法[15]和本文的高斯核典型相关分析算法对数据集1进行性能仿真。关键词数目为6,仿真结果见图5。本文算法准确率最高,关联规则算法次之,协同过滤算法最差。本文算法与协同过滤算法的时间最短,关联规则算法最长。因此,综合推荐准确率和推荐时间,本文算法表现最优。

图5 不同算法推荐性能Fig.5 Recommendation performanceof different algorithms

4 结论

将核典型相关分析算法用于OBE教学资源推荐,恰当选择核函数和关键词数目,能够获得较好的资源推荐性能。实例仿真结果表明,相比采用Sigmoid核或者多项式核,采用高斯核的典型相关分析算法的推荐性能更优;相比现有推荐算法,高斯核典型相关分析算法推荐准确率更高,推荐时间更短。后期研究将考虑引入混合核函数方法,以进一步提高教学资源推荐性能。

猜你喜欢
典型准确率教学资源
新能源汽车技术专业教学资源开发
新媒体环境下江苏省高职院校教学资源的整合利用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
《圆》典型易错题
40年,我们宣传推介的典型经验
新型教学资源在语文教学中的应用
高校冰上教学资源社会开放的意义及管理模式