基于神经网络算法的数据预测与评估系统

2021-05-26 06:50孙熙泽王泽宇张婉婷罗裕梅
中国新技术新产品 2021年5期
关键词:该软件分类器公式

孙熙泽 唐 琦 王泽宇 张婉婷 罗裕梅

(云南大学,云南 昆明 650000)

1 数据预测评估系统的设计背景

目前,企业数据工程师的工作量较大,且由于数据分析的特性,会增加数据工程师对数据进行挖掘分析的时间成本,对工作任务的完成效率和企业的盈利有不利影响,甚至可能阻碍新算法的开发进程。因此,无论是对企业和工作者,还是对现在和未来的发展来说,优化提升现有的基础是十分重要的。

基于神经网络算法的数据预测与评估系统是一款可以快速、高效地完成数据预测与评估系统管理操作的软件,而且该系统还具备数据导入、数据训练和数据预测等功能,可以根据设置的配置参数完成基于神经网络算法的数据预测与评估系统等相关操作。该软件可以系统地对基于神经网络算法的数据预测与评估系统所产生的数据进行分析、归类和计算,再对数据进行智能化的统筹管理和保存备份。全新的登录账号系统让用户可以随时随地访问基于神经网络算法的数据预测与评估系统管理平台,让用户可以更便捷地管理该系统,也让用户更加安心。

2 研究现状

目前针对数据预测的系统有很多,许多学者从随机森林、灰色预测、神经网络、时间序列、组合处理、小波分解以及ANFIS模型等多个方面对数据预测系统展开了研究和开发工作,研究成果颇丰[1]。其中,灰色预测方法、神经网络和时间序列3个角度是学界研究的热点,学者对相关研究的兴趣一直维持在一个较高的水平。

在对使用时间序列方法进行数据预测的研究中,南国芳、周帅印、李敏强和寇纪淞在2013年通过对无线传感器网络的数据进行分析,引入多属性模糊时间序列预测模型,并提出了适合传感器网络的修正预测模型[2]。2010年,于重重、于蕾、谭励和段振刚基于时序算法对太阳能热水监测系统的使用率做出准确的评价[3]。2020年,潘点飞等人为了实现在轨道中采用生控系统进行故障预测的目的,对系统遥测数据的时间序列信息展开了研究。通过AIC与BIC相结合的方法确定了预测模型,并运用该模型对实际工程中的遥测数据进行预测验证[4]。

在以神经网络为基础的数据预测模型中,学者大多使用的是BP神经网络、LSTM神经网络和GRU神经网络;2020年,姬鹏飞、孟伟娜、杨北方和王丹丹提出了基于自适应粒子群算法(APSO)优化的误差方向传播(BP)神经网络预测方法,利用APSO算法优越的全局搜索能力更新 BP神经网络的权值和阈值,通过有效结合2种算法的优势,提高了某省农业机械数据预测的精度[5]。对于LSTM神经网络,王永志、刘博和李钰在Tensor Flow 框架下使用Python语言设计了1种基于长短期记忆(LSTM)神经网络的电力负荷预测模型,该模型可以准确地预测电力负荷数据的日变化、周变化规律[6]。2020年,孙宇航、刘洋从GRU神经网络出发,通过训练神经网络逼近横波的速度与储层参数之间的关系,利用纵波速度、密度和自然伽马等储层参数直接预测横波的速度[7]。

虽然目前对数据预测评估的研究量较大,以神经网络作为切入点的研究也不在少数;但是这些研究忽略了用户应用的问题,实用性不强。该文将以神经网络为着力点,以Java和Python语言为工具,为用户设计出简单易操作的数据预测软件,让更多的人感受到计算机技术为生活所带来的便利。

3 数据预测评估系统的研究方向

3.1 学术思路

该文考虑目前数据处理工作存在不够高效和不够完善的问题,以简化数据处理过程、方便人们生活为目标,依据Java、Python等理论与方法,以神经网络为主要思想,开发一款可以高效分析处理数据的软件。

3.2 技术特点

该软件使用最新的智能化管理分析算法,快速地在后台进行计算运行,以高效的方式对数据进行智能分析和管理,将数据预测、数值评估以及相应的管理操作呈现在用户面前,节省了大量人工计算数据的时间。而且完备的大数据信息都是经过多层加密处理的,保证了数据的安全性和可靠性,不用担心被窃取数据。

3.3 技术路线

在技术路线上,主要采用Java、Python2种方法分别完成界面设计和数据分析评估工作。采用Java完成对系统功能的设计,包括登录界面、首页、数据导入、数据训练、数据预测、数据评估和日志列表。采用Python完成数据分析工作。

3.3.1 Java 程序开发

框架设计中的 SSM 框架是 Spring MVC、Spring和MyBatis框架的整合,是标准的 MVC模式。该框架将整个系统划分为表现层、controller层、service层和DAO层,使用Spring MVC负责请求的转发和视图管理;Spring实现业务对象管理,MyBatis作为数据对象的持久化引擎。

整体设计思路如下:1) 先搭建整合的环境。2) 完成对 Spring 的配置的搭建工作。3) 使用 Spring 整合 Spring MVC 框架。4) 使用 Spring 整合 MyBatis 框架。5) 用Spring 整合 MyBatis框架的配置事务(Spring 的声明式事务管理) 。

3.3.2 Python 数据分析

3.3.2.1 算法的实现(包括但不限于下列2项)

3.3.2.1.1 KNN 算法

有多种度量方式可以计算空间中点的距离,例如常见的曼哈顿距离和欧式距离等。不过通常 KNN 算法中使用的是欧式距离,以二维平面为例,用欧式距离计算二维空间2个点的距离,如公式(1)所示。

拓展到多维空间,其公式如公式(2)所示。

式中:ρ为2个点间的距离;(x1,y1)为第一个坐标点的坐标; (x2,y2)为第二个坐标点的坐标;d(x,y)为各点之间的距离之和;i为当前取到的第i个样本;n为样本数量。

3.3.2.1.2 Logistic算法

与指数分布、高斯分布等分布一样,Logistic是一种变量的分布,它也有自己的概率分布函数和概率密度函数,其中概率分布函数如公式(3)所示。

对概率分布函数求导,就得到对应的概率密度函数,如公式(4)所示。

式中:F(x)为概率分布;f(x)为概率密度;x为样本;μ为分布对应的均值;γ为对应的形状参数;P为概率;X为实际的中点距离。

3.3.2.2 评估方法

3.3.2.2.1 集成算法(Bagging)

集成算法的原理是基于自助采样法(Bootstrap Sampling)随机得到一些样本集训练,分别训练不同的基学习器,再对不同基学习器得到的结果进行投票,从而得出最终的分类结果。在自助采样法得到的样本中,大概有63%的数据样本会被使用,剩下的可以用来做验证集。

3.3.2.2.2 提升算法(Boosting)

它通过反复学习得到一系列弱分类器,然后组合这些弱分类器得到1个强分类器,把弱分类器提升为强分类器的过程主要分为加法模型和向前分步。加法模型就是把一系列的弱分类器相加,串联为强分类器,如公式(5)所示。

式中:Fm为当前分类器的表示函数;P为最优参数的综合;h(x;am)为一系列的弱学习器;am为该学习器训练得到的最优参数;βm为对应的弱学习器在强学习器中所占比例的系数;m为当前取到的样本;n为样本数量。

向前分步是指本轮的学习器是通过在上一轮学习器的基础上迭代训练而得到的,如公式(6)所示。

3.3.2.3 评估指标

3.3.2.3.1 准确度(accuracy)、召回率(recall)和预测(precision)评估

图1为1个二分类的混淆矩阵(多分类同理,只需要把不属于当前类的其他类都考虑为负例),表格中的4个参数说明如下:1) True Positive(TP)。预测为正例,实际为正例。2) False Positive(FP)。预测为正例,实际为负例。3) True Negative (TN)。预测为负例,实际为负例。4) False Negative (FN)。预测为负例,实际为正例。

图1 二分类混淆矩阵

相关计算公式,如公式(7)、公式(8)、公式(9)、公式(10)、公式(11)和公式(12)所示。

式中:F得分为综合考虑预测与召回率得到的某个数值。

根据F的值来进行评估,F得分越大,那么表示当前的算法越准确。

3.3.2.3.2 均方误差(MSE)

该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别,其中SSE为和方差,MSE的计算公式如公式(13)所示。

式中:n为样本的个数;i为取到的当前样本;wi为权重参数;yi为当前样本的真实值;为当前样本的预测值。

3.3.2.3.3 统计参数(RMSE)

该统计参数(RMSE)也叫回归系统的拟合标准差,是MSE的平方根,计算公式如公式(14)所示。

式中:n为样本的个数;i为当前取到的样本;wi为权重参数;yi表为当前样本的真实值;为当前样本的预测值。

4 数据预测评估系统的特点与创新点

4.1 技术特点

该软件使用了最新的智能化管理分析算法,可以快速地在后台进行计算,并将数据预测、数值评估的结果以及相应的管理操作呈现在用户面前,节省了大量人工计算数据的时间。而且经过多层加密的完备的大数据信息的安全是有保障的。

4.2 技术创新点

4.2.1 基于神经网络算法建成

神经网络算法是1种通过模仿动物神经网络行为特征对信息进行分布式并行处理的算法数学模型。该网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。与传统算法不同,使用神经网络算法的人工智能将拥有自学能力,能够实现自我学习和自我改进[8]。

4.2.2 高效率、低错误率

与人工处理数据相比,通过该软件进行数据处理,其数据处理的精确度更高。直接节约了项目完成所需要的时间,间接地降低了企业的雇佣成本、时间成本和机会成本,使技术人员有更多的时间和精力投入创新算法的工作中。

4.2.3 技术先进

系统层次详细由多层架构组织而成,良好的分层决定了良好的系统基础。采用最新的智能化管理分析算法,能够快速地在后台进行计算。同时使用加密技术,不用担心被数据会被窃取。

5 数据预测评估系统的可行性分析

5.1 市场可行性

该软件可以为广大用户提供快速方便的数据预测与评估管理方法,而且具备了数据导入、数据训练和数据预测等功能。另外,该系统还有数据评估功能,可以根据设置的配置参数完成相关操作。该软件可以对数据进行系统的分析、归类和计算,然后对数据进行智能化的统筹管理和保存备份,全新的登录账号系统让用户可以随时随地访问智能化管理平台。该软件让用户完成数据保存、监测等操作的过程变得更加简单,各种完备的设置管理也让用户对系统的管理变得更加便捷。

5.2 技术可行性

该软件主要具备数据导入、评估数据、数据预测、日志管理及普通管理系统的其他基本功能。

5.3 经济可行性

该项目在技术领域有较大的利用空间,能够在经济上减少雇佣人员编写程序的开支,并且在软件推广期间不收取费用,一段时间后再采用合理的收费制度。

5.4 社会可行性

5.4.1 法律可行性

该产品没有侵权或者抄袭等违法情况,也没有被申请过专利。

5.4.2 政策可行性

没有国家政策限制,也没有地方政府(或其他机构)的限制。

5.4.3 运行可行性

使用该软件的用户可能会涉及各种类型的人群,部分人群可能会对操作比较生疏,但是该软件简洁明了的 UI 和快捷的操作特性,不会对用户有很高的要求,因此用户能够在短时间内借助简易的说明快速学会相关操作。并且为了提高系统的实用性,该软件也具备较强的可靠性和较大的吞吐量。

6 结语

创新是引领发展的第一动力,数据预测评估系统结合了多种科学技术,其中神经网络算法、最新管理分析算法等创新点最为突出,经过大量实验考证,笔者充分地确定了项目的可行性。团队将对该项目进行深层次研究,相信该产品很快就会打开相关市场,让更多的人体验到数据预测评估系统所带来的便利。

猜你喜欢
该软件分类器公式
组合数与组合数公式
排列数与排列数公式
简单灵活 控制Windows 10更新更方便
等差数列前2n-1及2n项和公式与应用
BP-GA光照分类器在车道线识别中的应用
Flashfxp Password Decryptor
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
牛津大学数据联盟应用软件