上证50ETF期权隐含波动率曲面预测研究
——基于融入先验金融知识的集成GRU神经网络

2024-02-29 13:41张金良靳慧娜
上海节能 2024年2期
关键词:期权曲面波动

白 祥 张金良 靳慧娜

河南科技大学数学与统计学院

0 引言

期权[2]作为一种非线性金融衍生品,可以用来构建多种对冲组合来进行资产配置与风险管理。现代概念下的期权市场在欧美已经有了40 年的发展,但国内期权市场仅有8 年的历史。上证50ETF是中国证券市场上规模最大、流动性最好的交易型开放式指数基金之一,上证50ETF 期权[3]以上证50ETF 为标的资产自然也吸引了很多投资者的关注。作为国内首只期权产品,上证50ETF 期权的上市交易标志着中国衍生品市场的发展正式进入期权时代,极大地丰富和完善了我国的金融市场,经过市场的培育和发展,上证50ETF 期权的定价效率正逐步提升,市场流动性明显改善,期权产品在风险管理、价格发现和金融创新方面的功能日益凸显。因此,研究50ETF 期权的价格规律具有重要的理论价值和现实意义。

隐含波动率是通过市场观察到的期权价格结合其他已知参数(标的价格、执行价、剩余期限、利率)代入Black-Scholes 模型后通过数值方法计算出的波动率的值[4]。期权价格和隐含波动率呈正相关,隐含波动率作为衡量市场对于未来股价波动性预期的一种指标,对它的准确度量与精确预测方面的研究一方面有助于我们认识中国期权市场的现实特征,明确其期限结构与微笑结构,既可以帮助市场交易者构建更加合理有效的交易策略,也有利于监管机构进一步明确期权市场风险,维持金融市场平稳良性发展;另一方面还有助于完善中国衍生品市场定价合理化机制,更好发挥期权市场价格发现的作用,开发更多完善的金融产品,推动二级市场甚至整个金融市场的未来发展,在促进建立有效金融体系方面具有较强的理论与实践意义[5]。

隐含波动率曲面蕴含了许多市场信息,是对隐含波动率研究的优良载体[3-4]。目前国内已有部分学者对上证50ETF 隐含波动率曲面进行了研究,但是已有的研究中使用的数据大都是从BS 模型出发寻找相关变量,很少对无套利条件进行约束[3-7];此外,由于国内期权市场起步较晚,数据量较少,深度学习方法在国内期权市场的应用[8-9]较少,并且已有的研究中深度学习模型超参数的选取也比较常规,因此深度学习方法在国内期权市场的应用仍有广阔的发展空间。

Zheng 等人从开发一个与现有金融市场经验和金融理论一致的可解释的机器学习模型的角度出发,提出了一个将数据驱动的机器学习算法与相关金融理论集成在一起的研究框架,并构造了一个集成门控前馈神经网络来预测标准普尔500指数的期权隐含波动率曲面,通过实证分析发现了提出的神经网络模型具有较高的精度,此外,经过实证检验,该模型满足了一系列金融条件。

受Zheng 等人工作的启发,以构建基于国内金融市场的可解释机器学习模型为目的,尝试使用可解释机器学习模型对上证50ETF 期权的隐含波动率曲面进行研究。基于Zheng 等人的研究框架,提出一种集成GRU 神经网络模型,对上证50ETF 期权的隐含波动率曲面进行预测;在实证分析中,使用8 年的上证50ETF 期权数据验证了所提出的模型,与国内现有的研究相比,实验过程中,放宽了数据清洗时的条件,提高了模型的鲁棒性和泛化能力;此外,本模型在训练集和测试集上的平均百分比误差都优于金融数学中最广泛使用的SSVI模型[10]和集成门控前馈神经网络模型[1],同时也满足了纳入的先验金融知识,使得构造出的模型与现有的经验证据和隐含波动率曲面理论相关的金融数学理论相吻合,是可解释机器学习的重要一步。

1 文献综述

研究主要涉及金融数学和机器学习这两个领域,对于前者,主要介绍期权定价和波动率建模的基本概念和相关研究;对于后者,阐述了机器学习方法在金融领域的发展,侧重于其在期权定价和波动率建模方面的应用。

1.1 期权定价与波动率模型

1973 年Black、Scholes[2]为基于金融资产的欧式看涨期权提出了一个封闭定价公式,被称为Black-Scholes 模型(简称为:BS 模型),在该模型中,基础金融资产的价格由包含漂移和波动的几何布朗运动驱动决定[11],模型中的波动率衡量的是标的资产价格在固定时间窗口内的波动幅度。BS 模型为期权交易的繁荣产生了显著的助推效应,也打开了研究金融数学的大门。但是BS 模型也存在缺陷,它假设波动率是固定不变的常数。学者们指出波动率是高度可变的,随着波动率的随机变量性质被逐渐证实,如何正确有效地估计波动率显得尤为重要,对波动率的研究从此开始流行[12]。

目前研究期权的波动率模型有两种方法[13],第一种为间接法,间接法的原理是首先构造最能反映标的资产价格和波动率行为特征的随机过程,随后代入BS 模型,然后用市场观察到的期权价格去校准模型参数。比如局部波动率模型[14]、随机波动率模型[15]和levy 模型[16],这些模型在数学意义上表现得很完美,但在市场中往往较难应用,因为其中包含时间相关的参数,大大增加了模型校准的计算时间和优化难度。第二种为直接法,直接法的隐含波动率是明确指定的值,直接法也可以分为两种类型,第一类是指定隐含波动率曲面的动态,并假设它随时间不断变化,利用类似利率期限结构的动态建模的HJM 框架,刻画整个隐含波动率曲面的随机过程,从而推导其应满足的无套利条件并决定曲面形态[4,17];第二类侧重隐含波动率曲面的静态表示,使用参数或非参数方法拟合隐含波动率曲面,然后进行预测。比如半参数因子模型[18]、SVI 及其改进模型[10]等。

1.2 机器学习在金融领域的发展

机器学习方法应用于资产定价和波动率预测的研究最早可以追溯到20 世纪80 年代末或90 年代初,在早期阶段,单层神经网络被用于估计期权价格[19]和预测标准普尔100 指数的波动率[20];后来又有各种机器学习算法被应用于金融领域,包括集成方法[21-22]、内核积[23]、高斯过程[24],以及混合神经网络[25]、门控神经网络[26]、循环神经网络[27]等深度学习模型;除了传统的金融数据外,近年来的一些研究还开发了使用情绪、社会信息的模型[28-30]。

2 理论基础与模型建立

2.1 先验金融知识

令Π(K,τ)表示剩余期限τ>0且K≥0的看涨期权的市场价格,假设初始股票价格为S,利率r和股息收益率δ为常数,用C( )· 表示Black-Scholes公式,那么有:

其中,N( · )表示标准正态分布累计密度函数,σ代表标的资产的波动率,且

则隐含波动率σ( )

k,τ>0由以下方程给出:

其中,远期对数在值程度k= log(K Se(r-δ)τ),那么隐含波动率曲面为σ(k,τ),对任意k∈R且τ>0。

静态套利是一种静态交易策略,其初始值为零,之后始终大于或等于零,并且未来具有严格正值的非零概率。换句话说,套利不需要任何成本,只提供上行潜力,也就是说,在考虑交易成本后,它代表了一种无风险的投资。在经济主体是理性的假设下,任何这样的机会都应该被立即利用,直到市场没有套利。因此,期权定价模型是这样设计的:它们的看涨期权价格曲面Π()K,τ没有提供实施这种策略的可能性[31]。第二节已经提到隐含波动率是期权定价的逆向工程,无套利条件转化为看涨期权价格曲面Π()K,τ的约束,这反过来又可以表示为隐含波动率曲面σ( )k,τ必须满足以下定理:

定理1:设S>0,r=δ= 0,有k= log(K S),则

其中,m= -k,v(m,τ)代表σ(k,τ),n( · )表示标准正态分布的密度函数,N( · )表示n( · )的累计函数,隐含波动率v需要满足以下条件:

1)(非负性)对任意的(m,τ)∈R×R+,v(m,τ)>0。

2)(平滑性)对任意的τ>0,m→v(m,τ)在R上二次可微。

4)(消除碟式套利)对任意的(m,τ) ∈R×R+,有

5)(极限)如果τ>0,则

6)(右边界)如果m≥0,则

7)(左边界)如果m<0,则

8)(渐进斜率)如果τ>0,则

定理1 的条件1 至条件5 为无套利条件[32],条件6、7 为边界条件[33],条件8 是渐进斜率[34]。除了满足无套利条件外,隐含波动率还有一个重要的特征被称为波动率微笑[4],后面将结合以上金融条件建立神经网络模型。

2.2 神经网络模型架构设计

图1 展示了集成GRU 神经网络模型的网络架构。该神经网络接收输入对数远期在值程度m和年化剩余期限τ,输出隐含波动率v,它由两种结构的几个子网络构成,一种是几个单独预测隐含波动率的GRU神经网络,另一种是权重神经网络。每个GRU 神经网络输出预测的隐含波动率v,权重神经网络计算每个GRU 神经网络预测结果占最终结果的比重。

图1 集成GRU神经网络架构,由一系列单个GRU神经网络和一个计算它们权重的权重神经网络组成

图2 、图3 展示了GRU 神经网络[35]的神经元结构,GRU 接收t时刻的输入xt和t- 1 时刻的隐藏层状态ht-1,ht-1包含了之前节点的相关信息,输出t时刻隐藏节点的输出yt和传递给下一个节点的隐状态ht。

图2 GRU单元结构

图3 GRU单元内部结构

通过在接收m的神经元中使用Smile 激活函数的方式融入波动率微笑,

其中,tanh( · )是双曲正切函数,∊是一个保证数值稳定性的足够小的数。

通过在神经网络训练过程中使用融入金融先验知识的损失函数的方式融入无套利条件,

其中,l0表示数据在训练过程中的损失,使用MLE和MSPE 结合的联合损失函数刻画,l1至l4是对应定理1 中剩余条件的损失函数,l5是一个避免过拟合的正则化项。l1到l4中的m和τ的值可以从训练数据中采样,但是当模型预测时给定的m和τ不在训练数据的范围时,训练后的神经网络可能无法满足l1到l4条件,因为训练数据中输入的实际市场数据有限,所以需要从训练数据的样本域中采样来创建合成数据以提高模型泛化能力。

3 实证分析

3.1 数据准备

实验中使用的上证50ETF 期权数据为2015 年2月9日至2023年3月31日共计2 221个交易日的252 580 条交易数据,同时选取SHIBOR(上海银行间同业拆放利率)作为无风险利率。

数据筛选参考了以往研究的经验[36-37],删除了剩余期限小于2 天的合约、日交易量小于10 以及收盘价小于0.001 的合约。以往的研究通常没有研究到期日小于7 天或者大于1 年的合约,但是近些年来很流行这些短期期权(比如周指数期权),分析这些短期期权要求模型具有高鲁棒性,这样处理数据在顺应时代潮流的同时也对模型性能提出了更高的要求。

接下来计算了隐含波动率v、期权远期价格Ft、对数远期在值程度m以及年化后的剩余期限τ。最后得到模型接收的数据分布如图4、图5。

图4 剩余期限分布图

图5 在值程度分布图

3.2 实验设置

实验中使用的模型汇总在表1,除了3.2节构造的集成GRU 神经网络,还有SSVI 模型和集成门控前馈神经网络,集成门控前馈神经网络和集成GRU神经网络有相同的架构,由几个只有一个隐藏层的前馈神经网络和一个权重神经网络构成。和通过与SSVI模型的比较来研究集成GRU 神经网络是否比传统方法有更好的预测性能,与集成门控前馈神经网络的比较来研究改进后的神经网络是否可以提高预测能力。实验的基准模型分别为单个GRU神经网络和单个门控前馈神经网络。同时,如3.2中提到的,嵌入无套利条件l1,l2,l3,l4需要合成数据,参照图4、图5 数据清洗后的对数远期在值程度m和年化剩余期限τ确定合成数据的采样区间,最终对数远期在值程度m在[-0.4, 0 ]∪[0, 0.5 ]中采样,剩余期限τ在[0.002, 0.7 ]采样。

表1 模型及模型简介

实验中使用的神经网络的部分参数设置如表2,模型使用Adam 作为优化器进行随机优化。为了避免模型架构对模型性能评估的影响,在训练过程中,有相同架构的神经网络的网络结构和超参数的选取保持相同。最后,选取平均绝对百分比误差(MAPE)和R 方(R-squared)作为模型的性能评估指标。

表2 模型参数设置

3.3 结果与分析

图6 至图9 展示了训练过程中损失函数值的变化可以发现,集成模型训练过程中的损失函数值明显小于基准模型,基准模型训练过程中训练集上的损失函数值收敛于0.2,测试集上的损失函数值收敛于0.12,集成模型训练过程中训练集上的损失函数值收敛于0.1,测试集上的损失函数值收敛于0.07。

图6 门控前馈神经网络Loss值

图8 GRU神经网络Loss值

图9 集成GRU神经网络Loss值

表3 统计汇总了模型的各项评价指标,分别是模型在训练集(TR)和测试集(TE)上的平均绝对百分比误差MAPE 的平均值和标准差,以及各模型的R方值,对比表3的各项指标有以下结论:

表3 模型性能评估指标汇总

首先,金融数学中最常用的SSVI模型的表现明显逊色于数据驱动的神经网络模型,由此可见,与传统的金融数学相比,数据驱动的深度学习模型显示出了强大的预测能力,但是需要耗费时间不断调整模型架构和超参数的设置。

其次,集成GRU 神经网络模型在训练集和测试集上都是表现最好的模型,表明提出的基于集成门控前馈神经网络的改进是有效的。在神经网络模型中嵌入金融先验知识确保与现有的金融数学理论和假设一致,从理论上增加了模型的可解释性。

最后,图10 和图11 分别展示了2022 年6 月14日的隐含波动率曲面和集成GRU 神经网络预测的当天的隐含波动率曲面。

图10 2022/06/14隐含波动率曲面

图11 预测的2022/06/14隐含波动率曲面

4 结论

基于Zheng 等人的研究框架,提出了一个预测上证50ETF 期权无套利隐含波动率曲面的集成GRU 神经网络,在神经网络的设计和训练中纳入了波动率微笑和无套利条件,这是可解释机器学习的重要一步,增加了模型的可解释性。实证分析显示,集成GRU 神经网络模型的预测精度优于金融数学中最广泛使用的SSVI 模型以及其他基准神经网络模型,并且也满足了传统金融数学定理和市场经验。

猜你喜欢
期权曲面波动
因时制宜发展外汇期权
羊肉价回稳 后期不会大幅波动
人民币外汇期权择善而从
微风里优美地波动
2019年国内外油价或将波动加剧
相交移动超曲面的亚纯映射的唯一性
圆环上的覆盖曲面不等式及其应用
干湿法SO2排放波动对比及分析
初探原油二元期权
基于曲面展开的自由曲面网格划分