支持向量机发展历程及其应用

2024-04-09 14:57李召桐
信息系统工程 2024年3期
关键词:支持向量机

李召桐

摘要:股票投资作为一种常见的投资方式,其投资方法也日新月异。越来越多的投资分析师利用计算机分析数据的优势来进行股票交易。支持向量机(Support Vector Machine,SVM)作为一种数据挖掘技术,在高维、非线性、过拟合等问题上具有较强处理能力,在股价预测方面表现出特有优势。系统论述了支持向量机的发展及其在预测领域中的应用,并构建SVM股票预测模型,运用股票数据对股票进行涨跌情况预测,通过选取核函数以及调整参数,并计算准确率、精确度、召回率、F1值等预测模型评估指标,分别进行SVM模型和SVM_RBF模型构建及模型效果评估。

关键词:支持向量机;股价预测;核函数

一、前言

作为一种新的机器学习方法,依据结构风险最小原理,支持向量机表现出独特的泛化和推广能力,已逐渐成为国内外机器学习研究的热点之一。20世纪90年代提出了支持向量机(SVM)的概念:支持向量机以统计学习理论(SLT)为基础,基于结构风险最小化(SRM)原理建立数据模型,为解决有限数据样本情况下的统计模式识别奠定了坚实的基础。与传统机器学习方法相比,该方法具有结构简单、适应性好、全局最优、训练速度快和泛化能力强等诸多优势。

股价预测是投资策略形成和风险管理模型发展的基础[1]。一个准确的股价预测可以为投资者提供更多在证券交易所获利的机会,但由于股价趋势的波动性、不规则性和高度不确定性,股价预测一直是极具挑战的问题[2]。

本文简要回顾了传统支持向量机的发展历史与基本理论,介绍了支持向量机的改进算法,系统总结了支持向量机在分类与回归问题中的具体应用实例及其优势,通過改进支持向量机预测模型,提高了股票涨跌预测准确率。

二、支持向量机理论发展历程

(一)传统支持向量机

支持向量机的基本思想如图1所示,实心点和空心点分别代表2类数据样本;H代表分类超平面;H1和H2分别代表数据样本中离H最近且平行于H的面,H1和H2之间的距离称为分类间隔(Margin)。H面不但能将H1和H2这2类样本正确分开,而且使H1和H2之间的分类距离最大,在确保结构风险最小化的情况下,真正降低了风险。H1和H2上的数据样本点就叫做支持向量(SupportVector)。

假设给定样本数据为(xi,yi),i=1,2,...,其中xi∈Rn,yi∈{-1,+1}。n维空间中的线性判别式为:

f(x)=(m*xi)+n

分类超平面方程为:

(m*xi)+n=0

其中,m为权重向量;n为偏置向量。

此时,2类样本到超平面的距离为1_||m||。为了使间隔距离最大,则需要||m||2最小,这样最优分类超平面问题就可以转化为满足上述条件的一个凸二次优化问题:

该约束条件可引入Lagrange(拉格朗日)函数:

则可得出对偶问题:

进而,可得到最优分类函数:

其中,ai≥0为Lagrange乘子;

以上解决的问题是线性可分的。但在实际应用中,遇到的大多数问题是非线性可分问题,因此支持向量机的主要思想就是通过非线性变换将样本数据映射到高维的特征向量空间(Hilbert空间)中,在高维特征向量空间中求得最优分类超平面,再用变换后的内积运算重复上述过程。依据统计学习理论,假设k(x,y)为内积函数,即核函数(KernelFunction),用核函数代替决策函数,即:

在求解过程中常用的算法有块算法、分解算法、增量算法、序列最小优化算法和多类分类算法等。

(二)改进支持向量机

随着数学其他领域的突破,传统的支持向量机理论和技术得以快速发展,出现了众多的改进支持向量机理论,例如模糊支持向量机、最小二乘支持向量机、KNN-支持向量机、BS-支持向量机等。

2002年提出了模糊支持向量机,该方法主要是根据样本输入不同导致分类效果不同以及惩罚系数会随样本隶属度的变化而变化等特点,进一步削弱孤立点或噪声对支持向量机分类结果的影响。具体做法是各样本点对应一个隶属度Si(0

式中,C为惩罚系数;ei为松弛变量;Siei表示不同样本被错分的程度。

引入Lagrange函数得出对偶问题:

即得到最优分类函数:

f(x)=sgn{(m*x)+n}

其中,SiC表示样本xi的重要程度。当SiC越大时,xi被错分的可能性就越低,分类间隔就越小;反之,分类间隔就越大。对于噪声或者孤立点而言,Si越小,对应的SiC就越小,从而提高了分类的准确度。

20世纪90年代末提出了最小二乘支持向量机,该算法遵循结构风险最小化的原则,将传统的支持向量机中的不等式约束问题转化为等式约束问题,将二次规划问题转化为线性方程组来求解:

式中,e为误差变量;γ为正则化参数,可平衡拟合精度和模型推广度。

最小二乘支持向量机在很大程度上降低了样本点在训练过程中的复杂度,运算速度方面也远远超过传统支持向量机。

李红莲等[3]提出了NN-支持向量机,具体做法是将训练集中的样本与其最近邻的类进行对比,同类保留,异类剔除,再利用支持向量机构造分类器。该算法采用欧氏距离作为2个向量之间的距离,即假设xi=(xi1,xi2,…,xin),xj=(xj1,xj2,…,xjn),则xi与xj之间的距离定义为:

最近邻即为欧氏距离最近的样本。与传统支持向量机相比,NN-支持向量机具有分类时间短、正确率高、可用于大数据训练样本等优势。

郭亚琴等[4]提出了BS-支持向量机,该算法主要对全部样本数据进行训练从而得到全部模式的模型,再对全部样本进行识别。识别过程中,需要计算每个模式类样本的均值μi以及训练样本到样本均值的距离dij:

计算样本属于模式类的概率:

根据概率值进行由大到小排序,假设期望模式下识别概率为pjn,计算相对概率值RP:

通过RP的大小可将样本分为好样本、差样本和边界样本3类,再取边界样本进行训练得到分类器。该方法具有分类速度快、正确率高、训练样本集大的优点。

除了以上几种改进的支持向量机外,还有中心支持向量机、小波支持向量机 和推理型支持向量机等,随着支持向量机的不断改進与发展,将会出现更多的改进支持向量机算法。

三、SVM模型预测股票涨跌实例

(一)股票数据读取

通过tushare获取相关数据,得到其开盘价、收盘价、最高价、最低价以及交易量等信息。选取中国宝安代码为000009.sz这一股票,如表1所示,时间范围为2009年1月5日—2021年4月30日,通过采用开盘价、收盘价、最高价、最低价以及交易量等信息,运用SVM模型预测股票涨跌。

(二)股票数据处理

首先选取开盘价、收盘价、最高价、最低价以及交易量股票信息作为特征列预测股票涨跌情况,然后以当日收盘价和上一日收盘价之差得到涨跌情况作为标签列,本文中以1代表上涨、0代表下跌,并对数据进行标准化处理。

(三)SVM模型构建及模型效果评估

首先提取特征变量和标签,然后划分训练集和测试集,训练集占总数据数量的80%,测试集占20%。

通过网格搜索方式拟合SVM模型,预测股票涨跌情况,并对预测精确度进行评估,如表2所示。

表3结果显示,模型预测精确率为0.52,模型预测准确率是指预测正确的所有样本除以总样本,通常来说越接近1越好。

(四)SVM_RBF模型构建及模型效果评估

首先,通过选取核函数对模型进行模型参数调整,然后再次进行股票涨跌预测,并对预测效果进行评估,RBF核函数评价较好,表2展示了SVM_RBF模型评价参数。

SVM模型效果评估指标主要有准确率、精确度、召回率、F1值,如表2和表4所示,以跌0为例,准确率表示预测正确的所有样本除以总样本,通常来说越接近1越好,本次模型准确率为0.518;精确度表示预测为0的样本中真正为0的比例,模型精确度为0.54;召回率表示所有真实为0的样本中,预测正确的样本所占比例,模型召回率为0.46;F1值是精确度和召回率的调和平均值,精确度和召回率都高时, F1值也会高, F1值在1时达到最佳值。

四、结语

综上所述,本文系统论述了支持向量机的发展及其在预测领域的应用,并构建SVM股票预测模型,运用股票数据对股票进行涨跌情况预测,分别进行SVM模型和SVM_RBF模型构建及模型效果评估。本次研究仍存在很多不足之处,比如模型较简单,可以结合其他模型增强预测能力,此外,提取股票特征方面,可以增加其他特征或者对特征有效性进行评估,模型整体的预测能力还有待改进。

参考文献

[1] Huang J, Liu J. Using social media mining technology to improve stock price forecast accuracy [J].Journal of Forecasting, 2020,39(01): 104-116.

[2] Huang S, Liu S. Machine Learning on Stock Price Move?ment Forecast: The Sample of the Taiwan Stock Exchange[J].International Journal of Economics and Financial Issues, 2019,9(01):189-201.

[3]李红莲,王春花,袁保宗.一种改进的支持向量机NN-SVM[J].计算机学报,2003(08):1015-1020.

[4]郭亚琴,王正群.一种改进的支持向量机BS-SVM[J].微电子学与计算机,2010,27(06):54-56.

责任编辑:张津平、尚丹

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究