关联规则在学生助学系统中的应用研究

2012-04-29 08:48周丽娜李剑
考试周刊 2012年62期
关键词:项集置信度助学

周丽娜 李剑

摘要: 高等教育体制改革的不断深入和发展促进了我国高等教育规模不断扩大,高校学生人数逐年增加,由此积累的大量助学信息亟须分析整合。关联规则是数据挖掘的一个重要分支,主要侧重于确定数据库中不同领域间的联系,找出满足给定支持度和置信度的多个域之间的依赖关系,能为帮困助学数据分析提供很好的技术支持。本文就是通过对数据挖掘和关联规则的研究,对家庭经济困难学生在校期间的综合表现与就业去向进行关联,从中得到辅助学校学工部门有针对性地开展帮困助学工作的建议。

关键词: 数据挖掘关联规则学生助学系统

1.引言

随着我国高等教育体制改革的不断深入和发展,全国高等教育在学总人数已逾千万,这标志着我国高等教育进入了国际公认的大众化发展阶段。在招生规模不断扩大的同时,家庭经济困难学生的问题日益突出。经济有困难的学生能否顺利入学并完成学业,已成为社会普遍关心的问题。

为解决家庭经济困难学生的学习问题,政府和高校经过多年的努力,建立起一套以国家助学贷款为主体的高校贫困学生资助政策体系。国家从2000年开始推行国家助学贷款制度,经过这些年的工作,各高校学生工作部门都积累了大量与贷款学生有关的原始数据,包括学生的基本信息、在校期间的文化课成绩信息、获奖助学金信息、参加学校的勤工助学的工作情况信息及就业去向信息等,而且这些数据会随着学校招生规模的不断扩大、办学时间的增长而继续增加。

2.关联规则

2.1数据挖掘与关联规则。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘最早出现在第11届国际联合人工智能学术会议上,它又被称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断,以进行预测。

数据挖掘在学生的招生与就业工作中发挥着作用。有学者通过对历年的招生信息的分析研究,提出了修改招生计划的指导意见,变被动招生为主动招生。在就业工作方面,也有人通过对历年学生的在校表现和就业情况进行综合分析,提出有相应的分类指导意见。

关联规则是数据挖掘的一个重要分支,最初其研究对象为交易数据库,主要目的就是发现交易数据库中交易项目之间是否存在某种关系,后来又推广到关系型数据库,主要目的是从数据库中挖掘出项集之间的关联规则。规则的支持度和置信度是规则兴趣度的两种度量。

关联规则的挖掘主要包括以下两个主要过程:首先是找出所有频繁项集,这些项集出现的频率至少和预定义的最小支持计数一样。其次是由频繁项集产生强关联规则:找出的关联规则必须满足最小支持度和最小置信度。

2.2关联规则分类。

根据分类的标准不同,关联规则可以有以下几种分类方式:基于规则中处理的变量类别分类、基于规则中数据的抽象层次分类和基于规则中涉及的数据维数分类。

根据规则中处理的变量的值,可以将规则分为布尔关联规则和量化关联规则。布尔型关联规则显示了这些变量之间的关系,而量化关联规则通常是在处理数值型数据时对数值进行分段量化得来的。根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则,两者的区别在于是否涉及不同层次的数据项。如果不涉及不同层次的数据项,得到的是单层关联规则。在不同抽象层次中挖掘出的关联规则称为多层关联规则。根据关联规则所涉及的数据维数不同,可以分为单维关联规则和多维关联规则。如果关联规则各项仅涉及一个维度,则称之为单维关联规则。如果关联规则涉及两个或两个以上维度,则称之为多维关联规则。

3.助学系统关联规则挖掘

通过开展助学工作,学校已基本形成了助学贷款、奖学金、困难补助、勤工助学和社会助学等五大帮困助学措施,同时也积累了相当多的与助学有关的信息。通过初步分析,可能影响学生就业的诸方面因素有:学生的奖学金获得情况、贷款额度、勤工助学表现、学历、专业,等等。助学系统关联规则挖掘就是希望对以上因素进行分析,找到一些有实际指导意义的规则。整个助学系统数据挖掘大体上分成数据的搜集、清理、集成、变换等预处理工作和关联规则挖掘工作。

3.1助学系统数据预处理。

3.1.1数据采集

助学系统涉及学校的多个部门,如学生处负责管理奖学金评定等;招生与就业指导办公室负责管理学生的生源信息和就业信息;财务处负责管理学生的助学贷款信息等;教务处负责管理学生的学籍信息和成绩信息等。勤工助学因为涉及多个部门,由设置勤工助学岗位的部门或学院负责对学生的日常考核,汇总工作则由学生处负责完成。

3.1.2数据清理

收集到的学校学生信息有其自身的特点:数据比较完整、数据值的可信度比较高,但是由于有些原始数据是由人工处理完成的,空值的出现不可避免。比如就业信息表中,就有部分记录信息不完整。通常正常毕业的学生采集的数据基本上比较完整,而对于休学、延学、参军、结业等不能按时完成学业的学生来说,就业系统中只会保存他们的一些最基本信息。对于这些空值可以考虑将这些信息从就业信息表中移除出去或用约定方法进行数据填充。

同时由于各部门处理数据的侧重点、操作人员的处理习惯等各有不同,造成即使是相同的信息也会出现不同表示。例如同样是表示专业名称信息,有些部门使用专业名称全称,而有些则使用简称。对于这样的情况,可以通过给出标准数据,将其他数据统一改写成标准数据形式。

3.1.3数据集成

数据集成则是将多个数据源中的数据结合、存放在一个一致的数据存储中。将多个数据源中的数据集成起来,能够减少或避免结果数据集中数据的冗余和不一致性。由于历史和技术普及等多方面的原因,造成数据存储有多种形式。比如就业信息多以DBF文件格式存储,而在学校内部,办公处理软件的使用率比较高,多数老师习惯于将数据以Excel电子表格或Word文档形式进行保存。助学系统数据挖掘所处理的数据也是以上述几种格式为主。在进行数据挖掘前需要对这些以不同形式存储的数据进行处理,转换成单一形式。

3.1.4数据转换

数据转换就是将数据转换或归并已构成一个适合数据挖掘的描述形式,用更抽象、更高层次的概念来取代低层次或数据层的数据对象,将有关属性数据按比例投影到特定小范围之中。助学系统的各数据表的属性通常有大量的不同的属性值,这时就应当进行进一步概化。

如学生贷款信息中“贷款金额”,该属性就存在大量不同的值,贷款金额在很大程度上反映了学生的家庭经济状况。为了使该信息适用于数据挖掘,就需要对年均贷款额进行概化。在助学系统数据挖掘中,要找出学生在校表现与就业信息的关联,就离不开就业单位信息。但是学生的就业单位重复率低,存在大量不同的就业单位信息。在挖掘中就不能直接使用就业单位信息,将就业单位按性质进行分类后该数据就比较适合进行数据挖掘了。除了上面提到的一些需要概化处理的信息外,还有勤工助学考核信息、专业信息、生源地、就业地、成绩、性别和本专科类别等也需要加以处理。

3.2生成关联规则。

对数据进行清理和转换后,再通过“学号”匹配可以将助学系统的各数据表连接成信息总表,这时的数据可以更为有效地进行关联规则数据挖掘。

关联规则的生成是整个系统的核心工作。应用数据挖掘技术对收集的助学系统数据进行挖掘分析,可以发现隐藏在数据中的有用的知识,并将其提取出来供学校和相关教师参考。经典Apriori算法的基本思想将关联规则的生成大体上划分成了两步:产生频繁集和生成强关联规则。

在搜索频繁k项集时,首先要找出频繁1项集。在完成对数据的预处理后,求取频繁1项集只需简单地扫描信息总表,对每个项的出现次数计数,生成候选1项集。再通过设置最小支持度计数,筛选生成频繁1项集。找到频繁1项集后,通过将频繁1项集与自己进行连接生成候选2项集。再对得到的候选2项集的出现进行计次,满足最小支持度计数的予以保留,生成频繁2项集。依此类推生成频繁k项集。当频繁k项集生成以后,对于任意一个频繁k项集,找出其中所有可能的真子集,作为关联规则的前件,计算相应规则的置信度。当某一规则的置信度大于给定的最小置信度时,输出该规则。

3.3规则分析。

通过挖掘系统生成的规则,首先需进行符号转换,将之前预处理时编码化的数据还原成原始信息。得到转换后的规则应该进行理解和分析。通过初步分析,挖掘出的规则大致可以分成符合预先设想的和之前未被发现的两类。

例如曾获得过奖学金并且贷款额度中等的学生比未获奖学金且贷款额度中的支持度小,说明前者的人数较后者少;同时前者的置信度高说明获得奖学金的同学有更多的就业机会。这些都符合先验知识。而有些规则无法用先验知识解释,比如同样是参加勤工助学活动,在宁波女生就业比例比男生高。这从一个侧面说明女生同男生相比,更倾向于在自己熟悉的环境中就业。

4.结语

本文以宁波工程学院助学系统为依托,深入开展了关联规则数据挖掘工作。首先,完成了助学系统的数据预处理。通过对原始数据的清理、集成和转换,将这些数据初步加工成适用于关联规则挖掘的数据。其次,完成关联规则挖掘算法的实现,建立针对以上预处理数据的关联规则挖掘系统,在引入挖掘原始数据后进行数据挖掘。最后,利用挖掘系统对收集的数据进行关联分析,生成关联规则。学生通过对关联规则的理解和分析,产生对贫困生就业有指导性价值的意见。

参考文献:

[1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.

[2]Jiawei Han,Micheline Kamber.范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3]王登.数据挖掘技术及其在高校素质教育应用中的探讨[J].现在电子技术,2007,4:95-97.

[4]刘鹏,孙莉,赵洁,等.数据挖掘技术在高校人力资源管理中的应用研究[J].计算机工程与应用,2008,44(10):201-233.

[5]康振华,赵燕丽,周金刚.数据挖掘在高校就业工作中的应用研究[J].中国科教创新导刊,2007,474:86-87.

基金项目:宁波市教育科学规划课题2009-46。

猜你喜欢
项集置信度助学
硼铝复合材料硼含量置信度临界安全分析研究
正负关联规则两级置信度阈值设置方法
关爱·帮扶·助学
置信度条件下轴承寿命的可靠度分析
为助学一诺千金
郭万里“三帮”助学子
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
扎实帮困助学造福贫困少年
多假设用于同一结论时综合置信度计算的新方法✴