网络社交媒体中投资者情绪对股票市场的影响研究

2018-06-11 05:50许天阳
上海管理科学 2018年3期
关键词:投资者情绪文本

许天阳

(上海交通大学 安泰经济与管理学院,上海 200030)

0 引言

本文基于互联网大数据视角,利用爬虫技术获取新浪股吧中帖子信息及新浪财经多空调查数据,通过文本分析和机器学习的方法构建投资者情绪指标,并以上证指数为例,研究投资者情绪与证券市场之间的相互影响及预测作用。

1 文献综述

1.1 投资者情绪的文献综述

行为金融学自20世纪90年代兴起迅速发展至今,已有很多学者尝试用各种手段,从不同角度定义并衡量投资者情绪指标,并发现其会对证券市场价格及波动产生重要影响。

投资者情绪最先受到人们关注是Black(1986)在就任美国金融学会主席的演讲中全面阐述了噪声交易者的概念,他指出噪声交易是金融市场存在的基础,但同时也提到了噪声交易者的问题[1]。De, Shleifer, Summers and Waldman(1990)首次提出DSSW噪声交易者模型,将投资者情绪引入证券市场,指出如果投资者情绪相互影响,噪音交易者可以获得正的预期收益,套利者将无法消除非理性行为导致的错误定价,投资者情绪因而会成为影响金融资产均衡价格的系统性风险[2]。Barberis(1998)基于心理学实验,发现投资者倾向于过度重视公司近期财务数据的变化,而无法及时修正自己的预测模型,从而解释了投资者为何会对信息反应不足或反应过度[3]。Brown and Cliff(2004)认为投资者情绪即投资者的投机倾向,或是对股票市场总体的乐观、悲观态度[4]。

对于投资者情绪的测度方法,目前学术界主要分为直接指标和间接指标。间接指标是指从金融市场中选择能够间接反映投资者情绪的变量。Neal(1998)采用封闭式基金折价率、零股买卖比率及共同基金赎回率三个指标作为投资者情绪的代理指标,发现其有助于预测股市的收益率,尤其是对于个人投资者持股比例较高的股票[5]。Kumar and Lee(2004)根据交易所提供的散户交易记录构建情绪指标,发现低价股、小盘股及机构投资者持股比例较低的股票往往有较高的超额收益率,且对投资者情绪变化较为敏感[6]。Baker and Stein(2004)利用换手率作为投资者情绪代理指标,指出投资者在乐观时会提高股票交易的需求,使得换手率上升,而股价会在这个过程中被高估[7]。Baker and Wurgler(2006)在前人的基础上,选取了股票换手率、封闭式基金折价率、IPO首日溢价率、IPO发行数量、股权融资比例及股利溢价等6个指标,运用主成分分析的方法构建了一个综合投资者情绪指标,并发现情绪值对于小盘股、高成长性、非营利性、不分红及波动较高的股票影响更大[8]。国内也有不少学者借鉴了BW方法,如易志高和茅宁(2009)添加了适合中国股市特色的指标,如新增投资者开户数等,研究了投资者情绪与中国股票市场之间的关系[9]。

间接指标通常来源于金融市场信息,数据简单易得,具有较强的客观性,但其缺陷在于作为投资者情绪的代理指标,不可避免地会存在较大误差和滞后性。直接指标则是通过调查问卷等形式获得投资者对于股票市场的信息,或以政府机构发布的投资者信心调查指数作为直接参考依据。Fisher and Statman(2000)根据投资者智慧将投资者情绪分为三类:个人投资者指数(AAII)、财经新闻作者情绪指数、华尔街分析师情绪指数,并发现前者与后两者并不相关,且三种指数都与股票未来走势负向相关[10]。Lee(2002)采用IISI指数作为投资者情绪指标,通过与同期的NASDAQ、DJIA和S&P500指数进行实证分析,发现其与三种指数收益率都存在正向相关性,得出了投资者情绪对于大盘股和小盘股均具有影响的结论[11]。国内也有类似指标,例如央视看盘指数、好淡指数,以及统计局发布的中国消费者信心指数、企业景气指数等。王美今、孙建军(2004)以央视看盘指数作为投资者情绪指标来源,发现投资者情绪的变化会显著影响沪深两市收益,并反向修正沪深两市收益波动,指出沪深两市均未达到弱势有效[12]。程坤、刘仁和(2005)将好淡指数作为投资者情绪指标,研究发现投资者中期情绪指标对股市收益率波动的影响要强于投资者短期情绪指标[13]。

1.2 基于互联网数据挖掘的投资者情绪文献综述

随着web2.0时代的到来,互联网及社交媒体在人们生活中被广泛应用,基于互联网大数据的社会经济行为预测已经逐渐成为各领域学者研究的热点。

Wysocki(1999)通过搜集Yahoo! Finance股票论坛上的帖子信息,发现过去一段时间拥有高回报、高PE或财务表现良好的公司通常发帖数更多,并运用横截面分析和时间序列分析的方法证明了在线股评数量可以预测次日股市的成交量和收益率[14]。Antweiler(2004)分析了Yahoo! Finance和Raging Bull论坛上的股评信息,并采用了朴素贝叶斯分类器将150万条股评分为看多、看空、持平三类,研究发现在线股评信息能预测股市波动率,并对收益率产生统计学上的显著影响,但影响不大[15]。Sehgal(2007) 在分析论坛数据时引入了发帖者可信度作为情绪值的权重,发现情绪指数与股票市场表现具有相关性。Bollen, Mao and Zeng(2011)最早通过Twitter信息研究互联网公众情感与股市表现,他们利用OpinionFinder和GPOMS工具对有关道琼斯指数的微博进行文本分析并提炼出不同维度的情感指标,结果发现平静维度的情感在滞后三期后与道琼斯工业指数显著相关。

国内学者基于互联网信息与文本挖掘视角分析投资者情绪与股市关系的研究起步较晚。饶育蕾和王攀(2010)选取了246只首次公开发行的股票作为样本,以百度指数作为媒体关注度的衡量指标,并指出媒体关注度通过影响投资者情绪,从而正向影响新股短期超额收益,但对长期收益会产生负面影响。俞庆进和张兵(2012)采用百度指数作为投资者关注的代理变量,考察创业板股票市场的波动,发现短期内的投资者关注对创业板股票具有正向驱动作用,但这种作用很快会发生反转。程琬芸和林杰(2013)利用认证机构用户的新浪微博数据,对社交媒体中投资者情绪对证券市场的动态影响进行了分析,发现两者存在正相关,但投资者情绪对于股市的预测效果仅短期内显著。孟雪井(2016)对知网CSSCI期刊与新浪微博信息进行了文本分析,采用时差相关系数法、随机森林算法对搜索关键词的百度指数进行筛选,最终利用因子分析法构建了投资者情绪指数。

综上,国内外已有不少学者针对投资者情绪与股市之间的关系展开了相关研究,但主要都是从传统金融指标出发来构建投资者情绪。随着互联网大数据时代的到来,国外学者率先开始尝试从Web2.0数据中挖掘有价值信息,但大多是基于英语文本信息及欧美发达证券市场进行实证分析。由于中文语言结构与英语存在较大差异,且中国证券市场还处于发展阶段,这方面研究相对还比较匮乏。目前,国内学者在互联网社交媒体及互联网搜索角度来挖掘投资者情绪方面已经做出了有益的尝试,但是由于数据来源各不相同,情感分析方法相对较为粗糙,导致投资者情绪指标的构建不够准确,得出的结论也无法统一,说服力不强。

本文通过网络爬虫技术爬取新浪股吧及新浪财经多空调查的数据,尝试利用机器学习的方法,提出较为科学严谨的文本分析及情感分类方法,从而构建一个更为准确的互联网投资者情绪指标,对中国证券市场和投资者情绪之间的关系做出进一步的验证。

2 数据来源与研究方法

2.1 数据来源

本文主要基于互联网社交媒体中在线股评信息及网络投票数据进行投资者情绪的挖掘和提炼。目前,我国各大门户网站如新浪、搜狐的财经板块都开设了股票论坛,东方财富网、和讯网、雪球网等财经类网站也都提供了股票论坛(股吧)供投资者交流讨论。基于日均游客访问量、发帖量及数据时间跨度等综合因素,本文最终选择新浪财经股吧作为网络社交媒体数据来源并从中提取投资者情绪指标。

本文通过Python爬虫程序,从新浪财经的上证指数股吧抓取了2015年12月14日—2017年3月23日共465天的股市评论信息,除了帖子文本信息之外,还包括了点击量、回复量、发帖人及发帖时间等信息,累计291 777条记录。从抓取的数据来看,新浪上证指数股吧日均发帖量627条,交易日的日均发帖量更是超过800条,每天帖子的点击量超过5万次。由此可见,新浪股吧流量巨大,帖子信息能够较为真实地反映网上投资者的情绪。

其次,自2008年起,新浪财经还联合《中国证券报》共同发布每日的股市多空调查。所有网民均可通过互联网参与投票,投票内容包括下一交易日大盘走势判断及仓位状况调查等信息。该调查日均参与人数超过5 000人,具有一定代表性,能在一定程度上反映网上个人投资者对目前及未来大盘走势的看法和情绪。本文同样利用Python爬虫程序,抓取了同一时间段内的调查结果,由于数据量较大,所有股吧和多空调查数据均采用SQLite数据库存储以便后期处理。

另外,本文以上证指数作为我国证券市场的代表进行研究,数据包含同一时间跨度内每日收盘价、成交量及涨跌幅,剔除节假日及双休日后共311个交易日,证券市场数据均来源于Wind数据库。

2.2 文本情感倾向分析

随着人工智能技术的发展,自然语言处理(NLP)成为目前学术界研究的热点,如何将非结构化的文本信息转变为计算机能读懂的结构化信息,对于从股评信息中提取投资者情绪非常重要。

目前,文本情感分析主要有两种方法,一是基于情感词典的情感极性分类,即根据事先编纂好的情感极性词典,通过匹配文本信息中有多少积极情绪词和消极情绪词,从而判断文档整体的情感倾向。这一方法操作简单,受到许多学者的青睐,之前国内相关的文献大多采用此方法构建情绪指标。但这一方法存在如下缺陷:1.我国文本分析起步较晚,尚没有形成一个非常完善的情感辞典。目前较为流行的有知网整理发布的Hownet辞典及台湾大学发布的NTUSD辞典,但是由于金融领域尤其是股票市场特有的专业术语众多,普通的情绪辞典无法涵盖这些术语。2.由于中文语法与英语存在较大差异,以及一些否定词、反问句的运用,会使得整个句子情感倾向发生巨大变化。基于上述原因,单纯使用情感辞典来判断股评信息的情感倾向存在着较大误差。

另一种情感分析方法是基于机器学习的算法,该方法目前已应用在电影书籍、商品信息、餐厅酒店的评论中,并取得了良好的分类效果。其中,分类表现较好的有SVM、Naïve Bayesian、kNN等算法。实验证明,机器学习算法得出的分类结果通常要优于情感词典方法。因此,本文在前人的研究基础上,采取机器学习算法并选用SVM分类器,尝试建立一个更准确的情感极性计算方法,从而为构建情绪指数打下坚实的基础。

2.3 判断股评信息情感极性

在构建情绪指数前,需要对每一条帖子进行情感倾向的分类,具体步骤与方法如下:

1.数据预处理:对爬取的29万条股吧评论按日期分类汇总,考虑到每天股市的开盘时间为9:30—15:00,我们认为t-1日15:00到t日15:00之间发布的帖子信息反映了t日投资者的情绪。在剔除与股市信息无关的水贴如广告、营销信息后,最终剩下218 548条帖子记录。

2.文本分词:由于中文语句不像英语中每个词之间有空格隔开,故需要对每条帖子进行中文分词处理。本文通过Python中Jieba分词第三方包,对清理后的帖子文本进行分词。另外,由于中文句子中存在大量辅助语意表达的停用词,如“的、是、了”等,它们对于情感分类算法没有作用,故在特征选择之前先删去此类停用词。本文采用哈工大自然语言处理实验室提供的停用词表,共1 208个常用停用词。

3.人工标注训练数据集:从近22万条股评帖子中随机选择2 000条进行人工情感极性标注,作为训练数据样本。为避免个人主观因素的影响,本研究邀请3名志愿者对文本的情感倾向进行标注,分为乐观、悲观两类情绪,取3人的众数作为分类结果。

4.特征表示:为了使计算机能够识别文本,在进行文本分析之前必须将文本表示成计算机可以识别的形式。本文采用目前学术界最常用的向量空间模型(VSM),又称词袋模型(BOW),作为文本表示方法。经过分词之后,帖子中每一个出现的词都成为向量空间中的一个维度,每个维度的权值采用tf-idf算法得出,该方法用来评估某个词语对于一个文档的重要程度:

其中,n为所有特征的个数,nk为含有特征tk的文档数,tf为词频,idf为逆向文档频率,N为训练数据中文档总数,freqitk为在文档di中包含tk的个数。

5.特征选择:经统计,出现在帖子中的词有近10万个,如此庞大的维数必然会严重降低算法的分类效率。因此,在进行机器学习之前,先要提取出对情感分类有价值的特征,进行降维处理。本文首先剔除词频率低于3次及tf-idf值低于阈值的特征,删去后VSM向量空间内的维度下降了近60%。其次,本文采取效果较好的信息增益法(IG)进一步进行特征选择,最终筛选出与投资者情绪表达最相关的2 500个词,即2 500个维度。

6.运用机器学习算法训练实验数据:本文采用 10 折交叉验证方法,将实验数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行训练测试。借助MATLAB中的LibSVM平台,本文利用SVM分类算法,最终得到的分类结果如表1所示。可以看出,基于机器学习算法得到的分类准确率和召回率都达到了80%左右,高于一般的情感词典方法。

表1 基于机器学习的文本情感分类评价结果

2.4 投资者情绪指数的构建

在上一节中已经得到了每条帖子的情感倾向,用1代表乐观情绪的帖子,-1代表悲观情绪的帖子。在将股评信息按日期分类汇总之后,可以统计出每天表达乐观、悲观情绪的帖子数量,分别记作Npos和Nneg。

对于新浪财经—《中国证券报》联合发起的多空调查数据,我们将第t期看涨指数Vote_BSIt定义为看涨人数比例/(看涨+看跌人数比例),在双休日的处理上同新浪股吧的方法。

由此,我们得到了两种基于互联网信息挖掘的投资者情绪的时间序列,分别是互联网社交媒体中反映的投资者情绪Guba_BSI和网络投票所反映的投资者情绪Vote_BSI。另外,我们还从Wind数据库导出了上证指数涨跌幅R_SH和成交量Vol_SH的时间序列数据。

3 实证研究及相关结果分析

3.1 研究模型与样本描述性统计

互联网上投资者在受到证券市场交易活动影响的同时,他们针对股市当前和未来走势所发表的言论也会影响到网络环境中其他参与者的投资决策行为。由于投资者浏览阅读信息和进行投资决策行为的时间并不相同,所以股票走势和互联网上投资者所表现的情绪可能在当期和未来几期都存在着相互影响。

因此,本文采用向量自回归模型(VAR)来检验网络社交媒体及网络投票所反映的投资者情绪与证券市场涨跌幅、成交量之间的动态关系及时滞关系。VAR模型的原理是把系统中每一个内生变量作为所有内生变量滞后项的函数来构造模型,从而将单变量自回归模型推广到由多元时间序列变量组成的向量自回归模型。

表2 变量描述性统计

表2给出了所有变量的描述性统计信息。在2015年12月14日到2017年3月23日这个时间跨度内,我国证券市场经历了2015年年底的一波急速下跌,随后在2016年3月逐渐企稳,到2017年3月间一直延续着震荡反弹的格局。从两种互联网投资者的情绪指标来看,平均值均大于0.5,说明这一时间窗口内投资者情绪总体较为乐观,这与股市的走势基本相符。

通过变量相关系数表(表3)可以发现,新浪股吧中反映的投资者情绪与上证指数日收益率呈58.5%的正相关性;网络投票中反映的看涨指数与上证指数日涨跌幅呈43.9%正相关性,相关性稍弱于股吧情绪指数。另外,互联网投资者情绪与证券市场成交量之间同样存在正相关关系,相关性分别为19.5%与17.4%,相关性不及上证指数收益率。

表3 变量相关系数表

3.2 时间序列平稳性检验及滞后阶数选择

VAR模型以及Granger因果检验都要求数据具有平稳的时间序列,否则可能会出现伪回归问题。因此,对投资者情绪指标及证券市场变量进行ADF平稳性检验。通过表4发现,各变量均在1%的显著性水平上拒绝了存在一个单位根的原假设,说明所有时间序列都是平稳的。

表4 平稳性检验结果

表5 VAR模型最优滞后阶数选择结果

*indicates lag order selected by the criterion

表5显示,根据VAR模型滞后阶数的确定准则,FPE、AIC、SC及HQ准则都指向了滞后一阶,因此,认为该时间序列的最优滞后阶数为1阶,后续分析均以VAR(1)模型进行讨论。通过VAR模型的AR根检验可以发现,所有单位根都落在单位圆内,说明VAR模型是稳定的,可以对其进行一个标准差的脉冲响应函数分析。

3.3 Granger因果检验

本文利用Granger因果检验对互联网投资者情绪与证券市场收益率及成交量之间的相互作用关系做进一步分析。如表6所示,在滞后一阶的情况下可以发现:1. Guba_BSI和Vote_BSI不是上证指数收益率的Granger原因均在1%的显著性水平下被拒绝,而上证指数收益率不是两种投资者情绪指标的Granger原因则均被接受;2. Guba_BSI在5%的显著水平下是成交量的Granger原因,反之则不成立。同样,对于Vote_BSI来说,在10%显著水平下是成交量的Granger原因,反之则不成立。

由此可见,在中国证券市场上,互联网投资者情绪对股票市场收益率和成交量具有显著影响,正确把握投资者情绪对于预测股票市场走势是有帮助的。

表6 Granger因果关系检验结果

3.4 脉冲响应函数

Granger因果关系检验仅说明一个变量是否有助于解释另一个变量,但不能判断变量之间作用的方向及影响时间。而脉冲响应函数是通过在一个扰动项上施加一个单位残差的冲击,用以研究对系统内生变量当前和未来值带来的影响。因此,本文进一步通过脉冲响应函数考察互联网投资者情绪与证券市场之间的关系。图1中横轴为脉冲响应的追踪期数,纵轴为对一个单位残差的影响程度,实线表示脉冲响应函数,虚线表示正负两个标准差的置信区间。

图1 脉冲响应函数结果

研究发现,当受到股吧投资者情绪指数的一个正向冲击,即股吧中投资者表达的言论较为积极时,证券市场收益率会在下一期迅速提升,但这一现象仅能持续一天,随即便会回落,在第三第四期上下震荡后逐渐趋于0。新浪财经多空调查中的投资者看涨指数同样具有类似效果,即前一天投资者对于下一交易日股票走势较为乐观时,收益率会在下一期产生明显的正响应,随即便迅速回落,作为对前一期的修正,并在第五期后趋于0。这说明互联网投资者情绪对证券市场指数的收益具有短期正向影响,且主要集中在5个交易日内。

其次,当受到新浪股吧和新浪财经多空调查中投资者情绪一个正向冲击时,成交量在当期无明显响应,但在第二期开始产生正向响应,到第三期达到最大值后逐渐减弱,其成交量的响应时间通常超过10期,明显长于对收益率的影响时间。

3.5 引入网络投资者情绪的Fama-French 四因子模型

为了进一步分析互联网投资者情绪是否会影响股市涨跌,本文利用学术界较主流的FF三因子模型并加以扩展来对中国股票市场进行检验。1993年,Fama和French通过研究美国股票市场中决定不同股票组合回报率差异的风险因素,发现上市公司的市值(ME)、账面市值比(BE/ME)等因素可以解释这一差异。

本文选取了上证50组合作为检验的投资组合。首先,采用传统的FF三因子模型对50支股票组成的投资组合收益率进行拟合。此后,引入投资者情绪变量形成扩展的FF四因子模型,观察网络投资者情绪是否会对投资组合超额收益率产生影响。FF三因子数据来源于国泰安数据库(CSMAR),投资者情绪数据采用本文计算所得的Guba_BSI数据。两个模型的计量表达式分别如下:

Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+εit

(1)

Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+γi*Sentimentt+εit

(2)

研究发现,传统FF三因子模型的拟合效果AdjustedR2达到90%以上,可以较好地解释投资组合的收益率,但对于部分股市上涨或下跌期内的拟合仍存在不同幅度的偏差。而引入投资者情绪之后的扩展FF四因子模型相比而言拥有更强的解释力(见表7),模型在1%的置信水平下通过F检验,AdjustedR2提高到了95.1%,情绪变量Sentiment在1%的置信水平下显著且系数为正,进一步验证了投资者情绪对于中国股市收益率存在正向影响。

表7 FF四因子模型回归结果

4 结论与启示

本文基于新浪股吧的在线股评信息,以及新浪财经每日多空调查数据,运用文本分析、机器学习等技术构建了一个较为严谨的互联网投资者情绪指标体系,并通过VAR模型、Granger因果检验及FF四因子模型等方法,研究了互联网社交媒体及网络投票中投资者情绪与上证指数日涨跌幅及成交量之间的动态关系,得出以下结论:

1.用机器学习分类方法得出的文本情感分类准确性要优于之前国内学者普遍采用的基于情感词典的分类方法。

2.互联网社交媒体中的投资者情绪是证券市场收益率Granger原因,即当新浪股吧中发表的帖子情绪较为乐观(悲观)时,上证指数下一期的收益率会上涨(下跌),但随后又快速回落。新浪财经多空调查中的看涨指数具有类似的效果,可见投资者情绪的预测效果仅在短期内有效。这与国内外一些学者得出的结论是一致的,也验证了我国股市存在“羊群效应”,说明个人投资者容易受到社交媒体舆论和其他投资者情绪的影响,而盲目追涨杀跌。虽然在短期内投资者情绪对股市有一定的预测作用,但证券市场走势很快便会反转回落。

3.互联网投资者情绪是证券市场成交量的Granger原因,且市场成交量受投资者情绪影响的时间超过10天,长于对收益率的影响。即当投资者情绪高涨(低落)时,股票市场后续的交易活动也会随之活跃(低迷),这与实际情况也是相符的。

4.网络投资者情绪的FF四因子模型对中国股票市场收益率的解释效果要优于传统的FF三因子模型,进一步说明了我国股市仍未达到弱势有效,网络舆论对股市涨跌的预测仍具有一定的指引作用。

随着中国证券市场制度的日益完善,以及我国投资者与网民素质的不断提高,未来互联网社交媒体与在线股评有望包含更多对股市有价值的信息,而文本分析和情感倾向分类技术的发展对于更准确地提取网络投资者情绪也起到了重要作用。本文的实证结论对投资者情绪与股市之间的相互影响提供了重要参考。但由于时间精力因素的局限,本文只爬取了新浪股吧作为互联网社交媒体的代表,后续研究可以加入其他权威财经网站如雪球网股民评论信息,另外在时间跨度上若能包含牛市、熊市和震荡市的数据,将进一步验证和完善本文的结论。

猜你喜欢
投资者情绪文本
聊聊“普通投资者”与“专业投资者”
在808DA上文本显示的改善
新兴市场对投资者的吸引力不断增强
基于doc2vec和TF-IDF的相似文本识别
小情绪
小情绪
小情绪
卫生领域需要有情怀的投资者
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
情绪认同