基于关联规则挖掘算法的审计综合管理系统研究

2017-05-23 09:09张晓枫郭芳王利军李淼
电网与清洁能源 2017年12期
关键词:底稿国网关联

张晓枫,郭芳,王利军,李淼

(北京中电普华信息技术有限公司,北京 100085)

随着信息技术的不断发展,国网在各个领域建立了相关的管理系统。目前国网内部审计项目,大部分都会通过统一的审计综合管理系统开展作业,现系统内审计项目录入数已达到20万级[1]。项目成果信息的增多意味着国网建设在不断完善发展,但同时也带来了一系列问题:现有的审计综合管理系统不能及时完善项目发现问题的整改、确认、关闭等后续跟踪流程;不能有效地利用审计项目成果信息,使审计人员有针对性的开展后续审计工作,提高其工作效率;不能将审计底稿、审计报告、审计意见及建议同审计问题库的数据关联起来,为审计成果分析提供数据依据等。基于审计成果管控直接影响着审计监督职能的发挥,因此审计综合管理系统所提供的数据依据显得格外的重要[2]。

针对电力行业审计领域的研究相对较少。国网现阶段采用的主要是由普华公司建立的审计综合管理系统,该系统主要用于对审计项目进行全生命周期管理,2008年开始应用,2010年进行了一次升级优化,广泛应用于国网总部、分部、省(直辖市)、直属单位、地市、县级等公司。某些省电力公司的审计部也使用自行开发的审计成果管控系统,但会存在一定的局限性,未立足于整个国网公司考虑问题[3]。从电网的实际情况出发,以闭环管理理论为基础,建立了一种新型的审计管理体系。

本文阐述了标准审计问题库建立的意义,审计综合管理系统的组成部分及建立的意义。基于文中引入一种数据挖掘技术-关联规则,在审计作业过程中,将审计底稿、审计报告、审计意见及建议与审计问题库相关联,从而实现审计发现问题的实时追踪;同时引入基于位置的文本文件对比算法,以提高审计发现问题整改的效率。关联规则和文件对比算法在审计管理系统中的应用,可提高审计人员的工作效率,同时为审计结果分析提供数据支撑。

1 审计综合管理系统

1.1 国网审计综合管理系统的构成

建立完善的审计综合管理系统是实现审计成果管控的前提,各个行业均积极探索研究相关的审计综合管理系统。国家电网公司在加强技术发展的同时,也重点关注审计综合管理系统的应用和发展。国网审计综合管理系统主要包括审计管理子系统和审计作业子系统。将审计对象的相关信息与企业信息、数据库、办公自动化系统等进行组合,同时实现国家电网总部与各网省的审计业务数据交流,如图1所示。目前广泛应用于国网总部、分部、省(直辖市)、直属单位、地市、县级等公司[2]。

图1 国网审计综合管理系统Fig.1 The audit comprehensive management system of the SGCC

1.2 审计问题库的建立

国网的审计综合管理系统仍处于优化改进的过程中,存在着问题分类库标准不统一,且与各网省在实际工作中审计问题分类差距较大等问题;静态的问题库已不能满足实际应用的需求,为了按问题分类对审计成果进行综合统计分析,促进审计成果的深化应用,构建国网标准数据库具有重要的意义。国网审计数据库建立过程中,是以优秀审计项目中的发现审计问题类型为基准,同时结合国网现状以及各网省公司问题库建设的经验,如图2所示。

图2 动态扩展审计发现问题库Fig.2 The dynamic extension of the audit problem library

2 关联规则挖掘算法的应用

标准审计问题库的成功建立为审计结果分析提供了数据支撑,明确审计底稿、审计报告、审计意见及建议与审计问题库的关联,成为整个综合管理系统的关键。本文引入关联规则挖掘算法,在众多数据中探索数据间的关系,将其应用于审计综合管理系统中,以实现对审计发现问题高效实时地追踪。

2.1 关联规则挖掘的定义

关联规则挖掘[5]的实质是寻找一种事物同其他几种事物之间的相互依存性和关联性。关联规则挖掘在数据库、统计学、机器学习[6]中得到广泛应用。关联规则挖掘的任务就是在事务数据库中找出具有用户给定的最小支持度min sup和最小置信度min conf的强关联规则。

定义1:支持度support是指含有项目集的事物占整个事物数据库的百分比,记为sup(i)。

定义2:置信度confidence是指在整个事物数据库中找两个项目集的并集,记为。

关联规则挖掘问题[7]可分解为根据最小支持度阈值找出数据集中所有频繁项目集的问题和根据频繁项目集和最小置信度阈值产生所有关联规则的问题。在数据集中快速找到频繁项目集问题,是关联规则数据挖掘的核心,也是评价该算法效率的重要指标。目前的算法大多数以Apirori算法[8]为基础,进行一定的优化和改进。常用的有多循环搜索算法、数据集划分算法和抽样算法。而产生强规则的问题,同样也是关联规则数据挖掘关键。产生强规则的方法有很多,本文利用推论计算,如下图3所示,可提高规则产生的效率。

图3 推论计算流程Fig.3 The progress of inference calculation

2.2 关联规则挖掘算法的应用

基于上文中引用的关联规则算法,将其用于探索审计底稿、审计报告、审计意见及建议与审计问题库的关联分析探索中,具体实现步骤如图4所示。

图4 基于关联规则的应用Fig.4 The application of association rules

图4中:Q为审计问题库;A1为快速搜集频繁项目集的算法;A2为产生强关联规则的算法;R为经过数据挖掘后产生的关联规则,X为在审计作业过程中,产生的审计底稿、审计报告、审计意见及建议。通过审计管理需求,确定最小支持度minsup和最小置信度minconf,通过A1、A2,确定审计底稿、审计报告、审计意见及建议与审计发现问题库的一系列关系规则,根据管理系统分析,最终确定合理可靠的关系规则,即确定在审计作业过程中,产生的审计底稿、审计报告、审计意见及建议同审计发现问题库之间的关联。

3 文件比较算法在整改问题管理中的应用

基于上节中的关联规则挖掘算法,明确了审计发现问题库与审计底稿、审计报告、审计意见及建议之间的关系,进而能实现审计发现问题的及时跟踪,提高审计人员的效率。审计人员应对未进行整改的问题进行及时提醒监督,根据时间拖延的长短来采取相应的措施,从而实现对审计问题的实时跟踪和督办;同时对已整改的问题,审计人员应明确其整改方式,整理需要上传的佐证材料,最终经由主审或组长确认,结束该整改问题的一系列工作。

考虑到在实际的审计工作中,实时地对整改问题进行监督,记录整改问题完成与否的过程是很复杂的。本文将基于位置的文件比较算法引入审计综合管理系统中,自动地进行整改文件相关问题的记录,进一步提高审计过程的整体效率。

3.1 基于位置的文件比较算法

根据文件内容比较目标的不同,文件对比可分为定量的比较和定性的比较。定量的比较适用于比较前后文件的内容是否存在变化,并指出具体变化的内容。而定性的比较只能确定文件是否存在变化,适用于所有文件。因此本文采用定量的对比算法-基于位置的文件比较算法[9-10],对文件进行对比,从而实现实时监控。

基于位置的文件比较算法是一种将文件比较问题转化为对源文件各元素标记的问题,该算法遵循位置优先原则,即根据源文件各元素的位置赋予优先值,位置排在前面的元素优先得到匹配。当存在2个元素均可进行匹配,而不能同时匹配时,也同样遵循位置优先的原则。其具体步骤如下:

1)假设源文件有p个元素,目标文件有q个元素,分别设置两个数组ST(p)和 GT(q)用于各元素标志位的存放。

2)将源文件的第i个元素与目标文件对应位置的j元素进行比较,若 ST(i)=GT(j),则赋值ST(i)=GT(j)=1;若未找到与目标文件相对应的元素,即 ST(i)≠GT(j),则赋值 ST(i)=GT(j)=-1;对下 ST(i+1)元素进行赋值时,从前一元素匹配的位置后面进行查找。

3)分别记录ST(p)中每个元素作为起始元素时,判断其后的数值,并递增元素的个数。

4)比较(3)中各递增元素的个数,找出递增个数最多的元素,记为第k个元素。

5)将ST(k)前面的元素和后面非递增的元素赋值为-1。

6)定义 ST(i)=-1 的元素为“删除的元素”,定义 GT(j)=-1 的元素为“插入的元素”。

3.2 文件比较算法在整改问题管理中的应用

在审计综合管理系统中引入基于位置的文件比较算法,将需要进行整改的问题设置成一个个独立的文件,审计人员可根据每个整改问题文件内容的前后变化,确定该问题是否完成整改,并根据其明确指出的变化内容,分析整改的情况。若符合要求,则将相关资料上传进行最终的审核。审计人员可根据文件对比算法的,查找未完成整改的问题,对其进行定期的监督和管理。基于位置的文件对比算法,能准确地反映各个整改问题的情况,有利于审计人员简洁明了地对文件对比结果进行实时管理控制,从而提高工作效率。

4 结论

1)在审计综合管理系统中,审计问题库的建立是审计成果管控关键技术研究的前提,同时为后续研究工作奠定了基础。同时静态的问题库已不能满足实际需求,引入的ADO技术可动态扩展审计发现问题库,在现实应用中,不断增加、修正、维护问题库的内容,提高其实用性。

2)基于关联规则挖掘的算法,明确了审计作业过程中产生的审计底稿、审计报告、审计意见及建议同审计问题库地关系,从而实现审计系统对审计发现问题进行实时追踪的目标。

3)引入位置的文件比较算法,可自动地进行整改文件相关问题的记录,对未完成整改的问题进行定期的监督,对已完成整改的问题及时上传审核,为审计成果分析提供了可靠的数据依据。

参考文献

[1]李广森,王筱澜.大数据时代财务共享服务模式的审计研究[J].会计之友,2016(19):123-126.LI Guangsen,WANG Xiaolan.The research of big data era financial shared services model[J].Friends of the accounting,2016(12):123-126.

[2]张楠.基于Web Service的国网审计管理系统中数据交换平台的研究与设计[D].北京:华北电力大学,2008.

[3]李昂.经济责任审计闭环管理体系模型设计[C]//2011.全国内部审计理论研讨优秀论文集,2012:7.

[4]张旭涛.如何使用ADO对象技术动态创建数据库[J].信息与电脑,2010(9):112-112.ZHANG Xutao.How to use ADO object dynamically create database[J].Journalof Information and Computer,2010(9):112-112.

[5]李胜.基于关联规则的审计特征智能提取的应用研究[D].北京:北京交通大学,2007.

[6]许孝元.分类关联规则归纳算法及应用研究[D].广州:华南理工大学,2005.

[7]王芳.关系数据库中关联规则挖掘算法的研究与实现[D].北京:首都师范大学,2004.

[8]孙怡.IT审计中的关联规则算法改进及应用研究[D].北京:首都经济贸易大学,2014.

[9]熊华强,万勇,桂小智,等.智能变电站SCD文件可视化管理和分析决策系统的设计与实现[J].电力自动化设备,2015(5):166-171.XIONG Huaqiang,WAN Yong,GUI Xiaozhi,et al.Design and implementation of visual management and analytical decision system for smart substation SCD files[J].Electric Power Automation Equipment,2015(5):166-171.

[10]王艳清,王云维.监控文本文件内容变化的文本比较算法[J].计算机应用,2010(S1):133-134,142.WANG Yanqing,WANG Yunwei.Textcomparison algorithm for detecting content change in text files[J].Journal of Computer Applications 2010(S1):133-134,142.

猜你喜欢
底稿国网关联
国网甘肃省电力公司创新成果展示
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
220 Students Make Riverside Scene at Qinqming Festival Alive 齐心手绘《清明上河图》
“一带一路”递进,关联民生更紧
规范编制审计工作底稿提高审计质量
国网江西电力2017 回眸
奇趣搭配
智趣
特别感谢为本刊付出辛勤劳动的审稿专家(按姓氏拼音排序):
特别感谢为本刊付出辛勤劳动的审稿专家 (按姓氏拼音排序)