数据挖掘模型在股市预测中的应用综述

2017-11-04 17:45袁红
中国集体经济 2017年33期
关键词:数据挖掘综述

袁红

摘要:股市数据具有大数据特征、应用数据挖掘模型从海量的股市数据发现其潜在规律,预测未来发展趋势,对于降低投资者投资风险及辅助股市管理者做出有效决策具有重要意义。文章介绍几种当今比较流行的数据挖掘模型及其在股市中的应用。

关键词:股市预测;数据挖掘;综述;辅助决策

一、引言

股市波动存在非线性,传统的计量经济学模型大多属于线性模型,需要事先知道各种参数,这些参数在数据波动情况下不能自动修正,因此传统的计量经济学模型不能有效的拟合股市动态变化趋势。此外,股票市场价格波动瞬息万变,对于数据获取的实势性、数据模型计算的复杂度都有着苛刻的要求。数据挖掘是从大量随机、不完全、有噪声的数据中,提取隐含在数据中人们事先不知道、但又是潜在有用的信息和知识的过程。伴随第三次科技浪潮,互联网、云计算技术的发展突破了数据的实时获取、实时计算的瓶颈。如何应用数据挖掘模型从海量的股市数据中准确、高效的挖掘出有价值的信息辅助管理决策、规避风险成为当前研究的热点。

二、主要模型

(一)神经网络

人工神经网络由大量处理单元组成,其中处理单元也可以是一个神经网络,是一种自适应信息、非线性处理系统。网络处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据,输出单元实现系统处理结果的输出,隐单元是处在输入和输出单元之间,不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。人工神经网络具有非线性、非局限性、非常定性、非凸性四个基本特征。根据连接的拓扑结构,神经网络模型可以分前向网络、反馈网络。在股市中的应用中,BP神经网络常被用于股票价格预测。张秀艳等基于神经网络分别建立了基本数据模型、技术指标模型、宏观分析模型对股票选取、价格趋势进行了综合评价。

(二)支持向量机

支持向量机主要原理是通过学习训练集数据集,将数据映射到高维的特征空间X→M,然后再M中构造最优超平面,将数据空间切分为几个部分达到分类的目的。数据分类需要选择合适的核函数, 在股票预测中大部分是使用径向基函数、Guass 核函数,根据实际需求也有线性核函数、多项式核、傅里叶核、样条核、小波核函数、Sigmoid核函数可供选择。汤培培等人选取股东获利水平、公司盈利水平、风险状况、成长水平以及行业特点的相关财务指标作为输入向量,将径向基函数作为核函数挑选出了具有投資价值的股票。汤凌冰等对比了多层感知器、广义回归神经网络、支持向量机三种模型在预测股票收益率中的表现发现支持向量机表现最优。李坤等应用小波核构建支持向量机模型预测了不同类型的股票指数或大盘指数。

(三)随机森林

随机森林基本思想是以随机的方式建立一个森林,森林由许多棵决策树组成,随机森林的每一棵决策树之间是没有关联的。在创建完森林之后,当一个新的样本输入森林,就让森林中的每一棵决策树进行一次判断,看看这个样本应该属于哪一类。在股市的应用中,随机森林首先建立分类器从而描述因子池中各因子与下期收益表现的关系,根据各股历史下一期收益率划分类标准,利用历史当期因子数据对分类器进行训练得到相关参数。再代入当期各股因子数据对各股进行分类,得到各股的信任得分。从而达到选取优秀股的目的。李齐等应用随机森林以企业规模、盈利能力、偿债能力、股东获利能力、成长能力、营运能力等20多个因素作为决策因子选取优了秀股票,实现28%的年化收益,王领等基于决策树判断股票买点和卖点。

(四)关联规则

关联规则基本思想是找出数据集中高频出现几组数据,如果这几组数据之间存在某种关系就称其具有关联性。关联分析的目的是为了找出数据间隐藏的关联网。在股市的应用中主要用于找出各股票间的联动性,假设A 股票与B股票具有关联性,即A出现上涨趋势 B 股票也随之上涨,那么通过分析股票之间涨跌的时间关系可以对股票的涨跌进行预测。这些规律在投资者进行实际决策时有着重要的参考价值和指导意义。陈艳等基于关联规则预测了股票价格。

(五)时间序列

时间序列将已有历史数据按时间顺序排列,发现数据内在规律或模式,再根据历史数据的内在规律进行趋势拟合达到预测未来的目的。指数平滑预测法是时间序列中一种常用的方法,移动平均法做为该方法的基础,根据时间点相隔区间的大小赋予该节点对应的权重,该方法根据实际数据情况可以选择一次指数平滑 和多次指数平滑。ARMA预测方法是一种非线性时间序列预测方法,所以这种方法在股市预测应用中最为常用 ,该方法首先将非平稳的时间序列数据通过若干次差分运算变成平稳的时间序列数据,然后用合适的数学模型来近似描述该序列,当模型能够被接受后利用该模型根据时间序列的历史数据值和现在的值来预测未来值。时间序列数据挖掘模型在股票市场中主要用于预测股票价格走势、最佳交易时间确定。李奋华等建立了一种基于时间序列分析的股票走势预测模型,蒋倩仪研究了基于时间序列预测的股票交易决策建议系统,陈锦扬建立 ARIMA模型分析股票报酬率。

(六)方法评价

由于股市数据交易量、交易价格带有明显的时间属性,时间序列是股市数据挖掘的最基本模型。但当前预测模型预测准确度随时间的延续而降低,且预测模型随时间的变化需要不断调整以适应数据的变化,所以目前的挖掘模型生命周期较短、不具有普适性。神经网络预测股票已经取得了不错的成绩,但也存在不少问题,模型初始值确定比较困难,对突发事件的适应性差,学习过程较慢,容易陷入局部最优状态,参数难以控制等。在实际应用中支持向量机相对于神经网络而言,在泛化能力、全局最优、结构容易度等方面表现更加优秀。此外,大多数挖掘模型追求良好的稳健性,偏向于识别常规涨跌模式而忽略或者平滑了股票大幅飙升异常特征。这是模型在预测准确度和模型稳健性之间做出的一种折中妥协,虽降低了投资风险但也失去了发现高收益机会。endprint

三、未来发展方向

数据挖掘在股市中的发展方向主要体现在以下三种层面,一是搭建框架将多模型统一组织形成优势互补。机器学习模型众多,但在股市的实际应用中,往往是某种模型只在某一具体应用场景中表现良好。这就需要将各种模型组合起来满足实际的需求,如何搭建统一框架组织各种模型、实现模型优势组合是当前及未来的发展方向;二是通过机器学习,自动调整模型参数以适应股市的多波动特性。由于股票波动较快,基于股票市场指标的预测模型生命周期很短,需要不断校正模型参数、甚至更换模型,如何结合股市波动的根本成因,分析股票所具有的潜力并建立多尺度混合分析模型实现模型参数的自动修正是未来发展研究方向;三是结合网络爬虫自动获取网络情报,从网络情报分析出投资者信心舆情、宏观政策、企业经营状况、行业兴衰、利率变动等相关信息对股市进行综合评价,改变信息资源不对称,增强投资者在股市博弈中的筹码,也是未来研究和应用的发展方向。

参考文献:

[1]张秀艳,徐立本.基于神经网络集成系统的股市预测模型[J].系统工程理论与实践,2003(09).

[2]汤凌冰,盛焕烨,汤凌霄.股票收益预测模型的比较与选择[J].湖南科技大学学报(自然科学版),2009(02).

[3]李坤,谭梦羽.基于小波支持向量机回归的股票预测[J].统计与决策,2014(06).

[4]李齐,杨君岐.随机森林算法在多因子选股上的应用[J].经营管理者,2017(06).

[5]王领,胡扬.基于C4.5决策树的股票数据挖掘[J].计算机与现代化,2015(10).

[6]陈艳,褚光磊.关联规则挖掘算法在股票预测中的应用研究——基于遗传网络规划的方法[J].管理现代化,2014(03).

[7]李奋华,赵润林.一种基于时间序列分析的股票走勢预测模型[J].现代计算机,2016(20).

[8]张楠.基于时间序列的股票趋势预测研究及R语言应用[J].江苏商论,2016(23).

[9]蒋倩仪.基于时间序列预测的股票交易决策建议系统[J].计算机应用与软件,2017(04).

[10]陈锦扬.基于R软件对股票时间序列模型分析[J].财经界:学术版,2016(05).

(作者单位:四川师范大学经济与管理学院)endprint

猜你喜欢
数据挖掘综述
SAPHO综合征1例报道并文献综述
基于迁移学习模型的小样本学习综述
数据挖掘技术在内河航道维护管理中的应用研究
知识追踪综述
共指消解技术综述
面向自动问答的机器阅读理解综述
施工机群配置优化研究综述
施工机群配置优化研究综述
数据挖掘综述
软件工程领域中的异常数据挖掘算法