基于GARCH-SVM和AR-SVM的个股涨跌预测

2016-07-04 06:23刘淑环
关键词:投资者情绪

韩 瑜,刘淑环

(中国政法大学 a.商学院;b.科学技术教学部,北京 102200)

基于GARCH-SVM和AR-SVM的个股涨跌预测

韩瑜a,刘淑环b

(中国政法大学 a.商学院;b.科学技术教学部,北京102200)

摘要:提出一种基于GARCH-SVM、AR-SVM和投资者关注度及情绪指标的股票涨跌预测方法。结果表明,加入GARCH或AR等时间序列模型的初步预测结果可以提高SVM预测准确率,这种SVM预测算法既考虑到时间序列的特性,又解决了多变量非线性分类问题。同时,通过加入投资者关注度和投资者情绪的相关指标,可以进一步提高SVM预测的有效性。研究结果还表明,与牛市和熊市相比,投资者关注度和情绪指标在震荡市中对预测精度的影响更大。

关键词:SVM;GARCH;AR;投资者情绪;投资者关注度;股价涨跌预测

一、引言

股市是一个复杂多变、非线性和混沌的系统,对其作出科学的预测相当困难。国内外许多学者一直致力于这方面的研究,其中基于机器学习方法的预测模型是近十年的研究热点之一。神经网络等许多优秀的机器学习方法在股市预测方面的实际表现并不十分理想,一个重要原因是这些学习方法的理论基础是传统的统计学,以大数定律和中心极限定理为理论依据。

支持向量机(SVM)的理论基础是统计学习理论(statistical learning theory, SLT),其为解决有限样本学习问题提供了一个新的思路,它能有效融合多种现有方法,解决了许多原来难以解决的问题。 Kim(2003)[1]利用SVW模型对韩国综合股价指数(KOSPI)进行研究预测,结果表明SVM优于BPN和CBR。HUANG Wei等(2005)[2]提出结合多元分类的支持向量机模型,对S&P 500指数、日本NIKKEI 225指数进行研究分析,结果表明SVM是金融预测的有效工具,结合多元分类方法会提高预测性能。彭丽芳等(2006)[3]利用基于时间序列的SVM股票预测方法,对2002年3月14日到8月19日的沙河股份数据进行研究分析,结果表明,与神经网络方法以及时间序列方法相比,SVM的预测精度更高,在某些非线性时间序列的预测中有很好的表现,解决了传统时间序列预测模型无法解决的非线性问题。林琦等(2010)[4]利用基于相空间重构的LS-SVM模型对股票价格进行预测,发现利用相空间重构对数据进行预处理和贝叶斯优化参数后,再用最小二乘支持向量机进行股价预测可以取得更有效的结果。丁玲娟(2012)[5]用小波分析对原始时间序列进行去噪,并对去噪后的序列进行小波分解,得到平稳的小波序列和非平稳的尺度序列,然后对平稳的小波序列建立ARMA模型进行预测,对非平稳的尺度序列建立SVM模型进行预测,最后整合得到对原始数据的预测结果。研究表明,组合模型完全达到了预想的高精度标准。

近几年,投资者关注度和投资者情绪对股票市场的影响引起研究者的广泛关注。Dzielinski(2011)[6]的研究表明,以搜索量指数度量的投资者关注与整个股票市场之间的收益和波动存在显著的相关性。Yu等(2011)[7]发现在不同的波动率计算方法下,投资者情绪对风险收益关系的影响是一致的,在低情绪期,风险收益关系显著为正,而在高情绪期,风险收益关系会被削弱。田鑫(2012)[8]利用神经网络模型和情绪指数对上证指数进行预测,研究结果证明应用神经网络对上证指数进行预测具有一定的有效性,加入构造的情绪指数能够显著提高模型的预测精度。高大良(2013)[9]的研究结果说明,投资者情绪对市场波动的总体影响是通过影响平均相关性和平均方差同时实现的,影响股票平均方差在总体影响中占据着主导地位,而投资者情绪对平均相关性的影响对总体影响起到一定的反向修正作用。周胜臣等(2013)[10]基于微博搜索和SVM对股价进行预测,结果表明其构建的预测模型比传统的时间序列模型具有更好的预测性能和泛化能力。

综上所述,已有的基于SVM进行股价预测的相关文献通常从两个角度进行研究,一是SVM和其他算法的比较研究,二是与其他模型进行结合,但与其结合的模型大多是AR、MA、ARIMA等,并未对异方差的时间序列数据进行建模研究。为此,本文以东方航空为研究对象,选取的变量除股票本身和大盘的基本面信息外,还加入了利用GARCH模型对收盘价涨跌的初步预测结果,同时还加入了投资者关注度和投资者情绪的指标,对其股价的涨跌进行预测,力图找到一种更适合股价涨跌预测的SVM方法。

二、支持向量机

1.线性可分支持向量机

图1为线性可分情况下SVM。

图1 线性可分情况下SVM

如图1所示,有若干训练数据的正负样本,标记为

假设有一个超平面H:

(1)

可以把这些样本正确无误地分割开来,同时存在两个平行于H的超平面H1和H2:

(2)

(3)

使离H最近的正负样本刚好分别落在H1和H2上,这些样本即支持向量。其他所有的训练样本都将位于H1和H2之外,即满足如下约束:

(4)

(5)

写成统一的式子为

(6)

由超平面H1和H2的距离可知为

(7)

SVM的任务就是寻找一个超平面H把样本无误地分割成两部分,并且使H1和H2的距离最大。于是可以得到的拉格朗日方程如下:

(8)

式中:αi≥0。规划问题变为

(9)

2.线性不可分支持向量机

在线性不可分的情况下,支持向量机通过引入某种核函数将输入变量映射到一个高维特征空间,然后在这个特征空间中构造最优分类超平面。

引入核函数后的SVM的规划问题变为

(10)

常用的核函数类型有线性核函数、多项式核函数、高斯径向基核函数、多层感知器核函数等。本文选取金融领域最常用的高斯径向基核函数,利用SVM对股价涨跌进行研究。高斯径向基核函数的表达式为

(11)

三、预测方法

采用支持向量机为预测方法,按照个股价格的上涨、下跌和震荡阶段将研究时段划分不同的研究区间,分别建模进行如下三次预测:首先利用基本面信息作为输入变量对股价涨跌进行第一次预测;然后利用GARCH模型对每日收盘价进行拟合,得到初步预测结果,并将其加入输入变量中进行第二次预测;最后进一步加入投资者关注度和投资者情绪指标进行第三次预测。通过比较同一时段的三次预测精度,可以说明GARCH结果、投资者关注度和投资者情绪对预测精度的影响;通过比较不同时段利用相同指标建模的预测精度,可以说明这三种预测方法在不同时段的有效性。

本文选取LIBSVM工具箱进行预测,具体步骤如下:

(1)利用FormatDataLibsvm.xls将原始训练集和原始测试集转化为LIBSVM工具箱所需求的格式。

(2)利用LIBSVM对数据集进行归一化处理,消除变量间的量纲关系,使数据具有可比性。

(3)利用grid.py函数进行参数寻优,参数主要有c和g。其中c为损失参数,g是核函数中的gamma函数设置。

(4)利用svm-train对最优参数进行模型训练,输出参数,各参数含义如下。#iter:迭代次数;nu:核函数的参数;obj:二次规划的最小值;Rho:判决函数的偏置项b;nSV:标准支持向量的个数;nBSV:边界上的支持向量个数。

(5)利用svm-predict对测试集进行预测,输出预测精度。

四、实证分析

1.数据选取及预处理

为了使得所选取的个股更具代表性,本文选取同时在A股和H股上市的大盘股东方航空(600115)、中兴通讯(000063)、华能国际(600011)三只股票为研究对象,选取2015年1月8日至10月22日这三家上市公司的A股和H股以及沪深300的共同日交易数据分别共172组。按三只股票的涨跌趋势分别将其分为牛市、熊市和震荡市三个时间区间,每个时间区间选取后15组数据为测试集,其余为训练集,具体见表1。变量选择如表2所示。

表1 研究区间划分

注*:东方航空收盘价下跌区间均不超过10个交易日,本文将股灾时期该股的大幅波动归入震荡市。

表2 变量选择

从四个方面进行输入变量选择:A股和H股方面都分别选择当天的最高价和最低价之差、涨跌、成交额、换手率和市盈率5个指标。大盘方面选择沪深300当天的最高价和最低价之差、涨跌、成交额3个指标。投资者关注度方面利用网络爬虫抓取了当天的和讯指数。此外,本文还加入了投资者情绪的相关指标,即抓取了研究时段内每日微博上对东方航空股票的评论,若当天正向评论占比高,记为1,负向评论占比高,记为-1,正负相当或全为中性评价记为0。东方航空的部分正向评论和负向评论如下:

(1)东方航空一定是一只不错的股票,基本面太好了。(正向)

(2)手中三只股票:山东钢铁、青山纸业、东方航空今天涨停,京东方A、广深铁路表现也不错。明天加油!(正向)

(3)600115东方航空下跌趋势现在是补跌最好出局。(负向)

(4)600115东方航空,这只股票短期支撑7元附近,个人看跌,600119周线走得很凌乱,没有跌破25.6继续看好,大家手上还有什么股,可以讨论下。(负向)

输出变量为下一日的涨跌情况,涨记为1,跌记为-1。以上A股、H股和大盘数据来自Wind数据库,投资者关注度来自和讯网,情绪指标来自微博搜索。

2.股价涨跌预测

在第一次预测中,将A股和H股的每日最高价和最低价之差、涨跌、成交额、换手率和市盈率,以及沪深300每日的最高价和最低价之差、涨跌、成交额共13个基本面变量作为输入变量,将第二日的涨跌情况作为输出变量,利用SVM进行预测。

在第二次预测中,通过观察发现东方航空牛市期间的每日收益率具有集群性,并具有GARCH效应,因此利用GARCH对每日收益率进行拟合;中兴通讯和华能国际两只股票在牛市和熊市的每日收益率利用AR模型进行拟合;震荡市中三只股票的各期收益率相关性均不高,因此不建立AR、MA等传统的时间序列模型。当收益率大于0时,认为预期股价上涨,记为1,当收益率小于0时,认为预期股价下跌,记为-1,由此得到股价涨跌预期序列。将此序列和13个基本面变量作为输入变量,进行SVM预测。

在第三次预测中,除前两次预测涉及的14个变量外,进一步加入投资者关注度(和讯指数)和投资者情绪指标(微博搜索)作为输入变量,进行SVM预测。预测结果见图2、图3和图4,图中每只股票在震荡市中利用“基本面、GARCH和投资者关注度及情绪”和“基本面、AR和投资者关注度及情绪”的预测只包括利用基本面和投资者关注度及情绪进行预测。

图2 东方航空预测精度

图3 中兴通讯预测精度

图4 华能国际预测精度

3.预测结果分析

在牛市和熊市中加入GARCH、AR等时间序列模型的初步预测结果后,训练集和预测集的预测精度基本都有所提高。在牛市中,东方航空训练集和预测集精度分别提高了1.91%和6.67%,中兴通讯训练集和预测集精度分别增加了7.04%和13.34%,华能国际训练集和预测集精度分别增加了3.10%和6.66%;在熊市中,中兴通讯训练集精度提高7.57%,预测集精度未增加,华能国际训练集和预测集精度分别增加了1.68%和6.67%。这种SVM预测算法既考虑到时间序列的自相关性,又解决了多变量非线性分类问题,增强了SVM预测的有效性。

进一步加入投资者关注度及情绪指标使得预测精度有一定幅度的提高,但提高幅度在牛市、熊市和震荡市之间有所不同。在牛市中,加入投资者关注度及情绪指标使得东方航空、中兴通讯和华能国际三只股票的训练集精度分别增加2.55%、3.15%和6.90%,预测集精度分别增加6.66%、6.66%和0%;在熊市中,加入投资者关注度及情绪指标使得中兴通讯和华能国际的训练集精度分别增加10.26%和0.95%,预测集精度分别增加0%和6.67%;在震荡市中,加入投资者关注度及情绪指标使得三只股票的训练集精度分别增加10.91%、7.97%和5.00%,预测集精度分别增加13.33%、20.00%和2.53%。总体来看,震荡市期间预测精度提高的幅度明显高于在牛市和熊市的提高幅度,这说明震荡市中投资者关注度及情绪对股价涨跌预测的影响较大。在震荡市中,投资者对未来的市场行情不确定,更容易受到其他投资者预期的影响,羊群效应加剧,抓取的投资者关注度及情绪指标代表性更强,这从一定程度上可以解释为什么震荡市期间加入投资者关注度和投资者情绪的SVM预测算法更为有效。

五、结语

传统的SVM股价涨跌预测方法只涉及当期或近几期的数据,并未考虑时间序列数据可能具有自相关的特性,利用GARCH、AR等模型对原始的SVM分类预测算法进行改进,可以体现出时间序列的特性,更好地对股价涨跌进行预测。在选取输入变量方面,大多数的SVM股价涨跌预测方法只考虑股票基本面信息,但是股票市场并非完全是理性市场,人们对股价涨跌的预期会对涨跌产生影响,通过抓取和讯指数等投资者关注度指标和微博等网络平台上投资者情绪信息,加入SVM输入变量中去,可以更有效地对股价涨跌进行预测。

根据本文的预测结果,投资者关注度和投资者情绪在震荡市期间对股价涨跌预测的影响更大,这可能和震荡市给投资者带来的不确定性加剧有关,加剧的羊群效应增强了抓取的情绪指标的代表性。

支持向量机是一门新兴的边缘学科,发展极为迅速。其以坚实的数学基础和统计学习为根基,有着很好的拟合精度和泛化能力。但在股市涨跌预测方面,如何合理选择输入变量、如何对数据进行预处理、如何更有效地与其他模型结合、如何根据股市特有的规律改进核函数等,都是需要进一步研究和探讨的问题。

参考文献:

[1]KIMKJ.Financialtimeseriesforecastingusingsupportvectormachines[J].Neurocomputing, 2003, 55(1-2): 307-319.

[2]HUANGWei,NAKAMORIY,WANGShouyang.Forecastingstockmarketmovementdirectionwithsupportvectormachine[J].Computers&OperationsResearch, 2005, 32(10):2513-2522.

[3]彭丽芳,孟志青,姜华.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006(3):88-91.

[4]林琦,吴少雄.基于相空间重构的LS-SVM股票价格预测[J].福建工程学院学报,2010(3):300-303.

[5]丁玲娟.基于小波分析和ARMA-SVM模型的股票指数预测分析[D].上海:华东师范大学,2012.

[6]DZIELINSKIM.Measuringeconomicuncertaintyanditsimpactonthestockmarket[J].FinanceResearchLetters, 2011, 9(3): 167-175.

[7]YUJianfeng,YUANYu.Investorsentimentandthemean-variancerelation[J].JournalofFinancialEconomics, 2011, 100(2):367- 381.

[8]田鑫.基于情绪指数和神经网络的上证指数预测研究[D].哈尔滨:哈尔滨工业大学,2012.

[9]高大良.投资者情绪及其对股票市场收益的影响研究[D].长沙:湖南大学,2013.

[10]周胜臣,施询之,瞿文婷,等.基于微博搜索和SVM的股市时间序列预测研究[J].计算机与现代化,2013(4):22-26.

收稿日期:2016-03-04

基金项目:教育部人文社会科学研究一般项目-规划基金项目(14YJA630038)

作者简介:韩瑜(1995-),女;E-mail:hanyu1995@126.com

文章编号:1671-7031(2016)03-0025-06

中图分类号:F830.91

文献标志码:A

猜你喜欢
投资者情绪
投资者情绪对项目融资型定向增发公告效应影响
投资者情绪短期对股票市场的影响研究
投资者情绪与成交量:基于网络论坛证据的分析
投资者情绪与股票市场收益的相互影响分析
股价、投资者情绪与模型估值研究综述