基于深度神经网络的继续教育信息智能推送技术研究

2021-07-30 07:57罗小楠
电子设计工程 2021年14期
关键词:特征向量神经网络文本

胡 悦,罗小楠,王 彬,张 伟

(空军军医大学教学考评中心,陕西西安 710032)

微课程(MOOC)发展给继续教育带来的便利的同时,海量内容环境下的信息冗余也是不容忽视的现象。在信息量较大的情况下,学生需要大量的时间进行分类甄别以找寻自身想要的内容。由于大部分课程均是视频内容,所以需要对视频进行预览才可以判断是否对自己有用,这样就浪费了大量的时间。而解决此类问题最优的方法就是加入内容个性化推荐算法,因此课程内容平台加入个性化推荐算法与数据挖掘工具是必要的[2-3]。

在个性化推荐算法领域,目前深度学习和神经网络的方法在文本分析、音视频处理等方面呈现出了较大优势。因此使用深度神经网络构建个性化推荐算法的性能较为出色,对于具体的构建方法研究人员也进行了各种尝试。目前的深度神经推荐基本算法就是采用深度学习的特征提取学习能力对系统特征进行提取,同时解决了抓取数据过程中遇到的稀疏问题;而传统的深度学习与个性化推荐算法相结合的例子对计算机性能要求较高。因此该文在目前主流算法的基础上,将神经网络与协同推荐算法相结合,有效地提取了课程网站的文本内容,做到对用户精准推荐[4]。

1 结合神经网络的深度信息推送模型

个性化学习资源推荐模型的根本原理就是要对学生与资源之间的数据关联进行分析、判断[5],这其中的关键问题即是对平台的课程进行数据挖掘和数据采集。同时使用合适的模型进行分析和预测,这样才能为每位学生提供个性化的课程推荐服务。个性化课程推荐模型使用的最重要的数据就是历史数据,模型如图1 所示。在历史学习矩阵中,L、R分别表示学生和课程资源,黑色部分表示学生观看过的课程资源。推送模型的关键就是从黑色模块中提取信息,将此信息应用到白色未学习的课程中,从新的课程中挑选出与学生所提复合要求相匹配的资源。该文的重点即是建立提取信息,并设计空白资源推荐的深度神经模型。

图1 推送模型示意图

1.1 神经网络基础推送模型介绍

基于内容的协同推荐模型的核心就是深度学习,该模型将数据的内容和数据的属性信息相结合,对于提取出来的数据内容,使用卷积神经网络进行数据文本特征识别;对于数据的属性信息,使用深度学习对学生的喜好以及数据本身的特性信息进行训练、提取。最终结合数据的内容向量特征和数据的属性信息特征,通过加权分数预测系统,使用该加权分数将数据进行排列并按照排名推荐给用户[6-8]。该基础推送模型旨在将特征指标量化,使用多个神经网络进行组合,增强特征提取的能力,进而对学生的深层次特征进行发掘,最终确定推荐顺序。模型示意图如图2 所示。

图2 基于内容的协同推荐模型

由图2 可以看出,基于内容的协同推荐模型根据学生的本身特征和资源特征进行课程推荐。对于刚入学的学生而言,模型可以分析该学生的属性特征,例如爱好、专业、时间及目标等与学生自身相关的属性,这可以有效解决传统算法中存在的数据匮乏问题。但该模型在进行预估测评阶段使用卷积相乘的方式进行计算,因此对计算机的计算性能要求较高,会影响最终的模型结果且浪费时间。

1.2 使用多层感知机的改进推送模型

由上文中提到的协同模型缺点,该文使用多层感知算法进行改进。多层感知模型是感知算法的改进模型,即拥有多个神经网络元胞层,而多层所带来的优点是可以对数据中的非线性部分进行处理[9-12]。多层感知(MLP)模型由输入层、隐藏层及输出结构层组成,从宏观层面而言,该模型的连接部分可以分为全连接层和分类器。卷积相乘部分在时空层面资源消耗均较大,而多层感知模型在预测评分部分起着关键的作用。该模型代替了原协同推荐模型中预测评分的卷积相乘部分,节约了计算时间且提高了模型的运算效率。MLP的改进网络结构如图3所示。

图3 MLP改进网络示意图

1.3 推送模型框架

基于深度神经网络的继续教育信息推送模型框架如图4 所示。

①监测、管理化肥农药施用。采取一系列的养分管理技术、农药管理技术以及灌溉排水管理技术等,从源头减少来自农业活动的污染物产生量。

图4 模型框架示意图

该模型可以分为两个部分,分别是数据训练部分和推荐算法部分。数据训练部分为目标课程平台数据的抓取、整合与处理,以及抓取数据特征处理等。推荐算法为数据训练后,处理过程以及进行个性资源推荐的过程。在该文设计的模型框架中,输入部分为学习者信息、学习资源属性信息及学习资源文本信息。这3 种信息通过神经网络的输入层,文本信息使用词向量模型进行处理,然后可以得到3种信息对应特征向量。在学习评测阶段,使用上文所述的多层感知算法模型。该模型内部有多个神经网络元胞层,可以有效地提升模型的评测速度,最终由多层感知算法模型进行模型的评分。根据评分权重对课程资源进行推荐,可以向学生推荐符合学生信息特征的学习资源。模型执行过程如下所示:

1)信息输入过程。如图4 中最下部分所示,模型首先将学习者信息、学习资源属性信息及学习资源文本信息进行输入,并获取这3 种信息的特征向量。将学习者信息的特征向量设定为h={h1,h2,…,hn},hn为学习者信息中的某一组成部分,例如h1为学习者学历。同样,将学习资源属性信息设定为i={i1,i2,…,in}。

特征向量计算公式为:

在式(1)、(2)中,w1和w2是向量所占权重,a1和a2是向量的偏置量,f函数为激活函数。对以上的权重进行综合判定,特征向量为:

学习资源的特征向量为:

2)神经网络构建。在该文模型中,学习资源文本信息要通过神经网络进行获取,该模型使用Word2vec 方法对词向量进行获取[13]。首先经过词矢量模型提取文本特征,再将文本特征数据作为输入层输入到神经网络中训练,神经网络模型包含输入层、卷积计算层及池化连接层三层。其中,输入层激活函数使用线性单元激活函数:

此外,模型在训练过程中会出现过度使用训练样本现象,该现象可能会使新数据的识别效果变差。因此仍需构建代价函数,而使用二次函数模型可以加入正则算法,使函数实现适当拟合,拟合算法代价函数如下:

式(6)中,C为代价函数,x、y分别是样本值和实际值,L为使用到神经网络的层数。

在输出层设计中,使用最主流的回归函数进行构造。构造完成的神经网络模型结构,如图5所示。

图5 神经网络模型示意图

3)评价标准。该文使用统计学方法对算法实现的精确程度进行评估,使用绝对误差算法来评价推荐模型的性能,这也是目前推荐算法中最常用的评估方法。该算法通过对系统推荐数据指数和用户实际的喜好指数进行统计学分析,分析公式为[14]:

式中,E′为评价分数,E′的值越小,即绝对误差越低,模型的推荐性能也就越优。

2 实验与分析

2.1 测试方案

该节对构建的推荐模型进行测试,由于为课程推荐模型,因此测试集选择为平台课程数据以及学生在平台中使用的历史数据。该文选择公开数据集edX 进行数据训练,edX 数据集合中包含了数十种常见课程属性,也涵盖本模型训练所需的学习者信息[15-16]、学习资源属性信息及学习资源文本信息。验证集选择真实网课平台中国MOOC 网站及爱课程网站的学习数据集合,最终形成的数据集合为10 000个学生历史数据集合和800 个学习资源集合。其将这两种数据封装成集合形式作为神经网络的输入层数据,实验环境设置见表1 所示。

表1 实验环境设置说明

具体的训练流程如下:

1)输入学习者信息、学习资源属性信息及学习资源文本信息;

2)将流程1)中所需的信息输入到数据嵌入层,得到每个的特性向量;

3)将特征向量导入到连接层,构成特征向量;

4)使用词向量法对文本资源进行处理,得到文本特征向量;

5)将各个特征资源向量输入到改进评分模型进行评分;

6)对评分进行排序,向学习者按照分数排名进行资源推荐。

2.2 实验测试与结果分析

该节进行对比实验,实验使用目前流行的3 个算法与该文算法(分别是协同推荐算法(CBR)、聚类统计方法(KRCF)以及余弦相似度统计方法(CCF)与该文算法)进行综合对比。对比实验结果如表2所示。由表2 可直观看出,随着迭代次数的增加,绝对误差值不断减小,且该文提出算法的MAE值是所有算法中最小的。因此可以得出结论,文中算法在考虑用户信息属性及学习资源属性方面较全面,而传统统计学方法未考虑到推荐模型各个信息之间的关联性。因此,性能相较于其他对比算法有较大优势。

表2 对比实验结果

而该文模型除了性能有优势之外,在算法效率上同样具有优势。因此,文中进行了算法的时间效率对比,表3 反映的是当MAE 绝对误差稳定时算法的迭代次数。由表3 可以看出,该文提出的改进协同算法在MAE 稳定的情况下,迭代次数仅需要56 次,大幅领先于其他算法,这说明文中在评分模块部分提出的MLP 改进算法起到了作用[17-18]。

表3 算法效率测试结果

3 结束语

在线教育平台使用人数日益增多,而传统的课程推送算法对计算机性能要求较高,模型训练需要耗费大量的时间。该文针对传统课程推送模型算法的不足,将多层神经元模型算法与个性化推荐算法相结合,对课程数据进行训练验证。实验表明,文中建立的深度神经网络推荐模型的MAE 值相较于传统算法有较为明显的下降,同时训练迭代次数也大幅缩短。说明该文提出的算法模型可以有效缩短数据的训练时间,同时提高模型的推荐性能。

猜你喜欢
特征向量神经网络文本
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
神经网络抑制无线通信干扰探究
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于神经网络的拉矫机控制模型建立
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
复数神经网络在基于WiFi的室内LBS应用