肇州量化投资虚拟社区

基于社交媒体的市场预测方法

对冲笔记 2018-12-04 13:41:36

 
点击上方“对冲笔记”关注我们



摘要

行为经济学的告诉我们情绪可以深刻影响个人行为和决策,那么社会学方面的经历是否也有同样的影响呢?进一步说,公共情绪是否关联甚至预测经济指标?本文研究了twitter上的推文和道琼斯工业指数(DJIA)之间的关联。文本分析运用了两个工具:OpinionFinder,用于衡量正面和负面的情绪;Google-Profileof Mood States(GPOMS),从6个维度测量情绪,分别是冷静、警惕、确信、有活力、善良、高兴。研究的目的就是证实这些媒体情绪对股票指数的涨跌是否有因果关系,这种关系是如何建立的,这里用到的统计学方法包括格兰杰因果分析和自组织模糊神经网络。研究结果表明某些情绪可以显著提升对DJIA预测的准确性,达到了86.7%



1

介绍


股票市场是否可以被预测,这始终是研究的热门问题,早期的研究理论例如有效市场假说,以及随机游走。有效市场假说认为股票价格是由新信息决定,因此是不可预测的,因为新的信息是无法预测的。


近年来,许多新的研究开始质疑有效市场假说,例如从社会学的角度出发的行为金融学和行为经济学,就认为市场并不是遵循随机游走,而是可以在某种程度上被预测的,有些早期的预测性指标可以从社交媒体,如博客、twitter获取。类似的研究还有网络聊天对于图书销量的预测、博客的情绪通过潜在语义分析pLSA于电影票房的预测、Google的搜索可以对疾病传染以及用户市场消费进行预测、热点新闻和股票市场的相关性等。


当然,一个更重要的问题是,社会情绪是如何影响股票市场的?这就需要有一套可靠的、可复制的、在一定时间规模下适用的评估体系,用来进行实际预测。在尝试了多种方法之后,研究者逐渐把注意力放到了社交媒体上,也逐步建立了一套分析机制。本文通过统计模型分析每日的twitter信息和股市之间的因果关系,以及预测方法。



2

数据预处理


收集从2008228日至20081219日的twitter信息共9,853,498条,对每条信息打上标签,如发布日期、类型,并且去除无意义的停顿字,只保留那些有明显的情感含义的短语,如我感觉使我,同时用正则表达式过滤掉类似“http:”“www”的无效信息。


接着对这些短语进行三个阶段的处理。第一阶段,将每条推文进行情感评估,通过OpinionFinder评估正面和负面,以及GPOMS评估6种不同的情感维度,产生共7个维度的向量,用来表达每日的公共情绪。另一方面,从Yahoo!Finance上面获取DJIA的每日收盘价格。第二阶段,分析公共情绪对未来股票市场波动的影响,具体的方法是将过去n天的公共情绪向量和当前DJIA价格进行格兰杰因果检验。第三阶段,分析了通过评估公共情绪是否可以提高DJIA预测模型的精度,并使用自组织模糊神经网络假设检验。这里的重点不是找到一个最优的预测模型,而是对比考虑了公共情绪因素的模型和原始基础模型的提升效果。




为了增加OFGPOMS的分类在时间序列上具有可比性,将每日的情绪向量Xt在前后k日的时间窗口内进行标准化处理:




其中ẋ(Xt±k)σ(Dt±k)代表在[t-k,t+k]时间范围内的均值和标准差,标准化之后的时间序列围绕在以0为均值,1为标准差的范围内波动。



3

交叉验证


首先对OFGPOMS时间序列上的大规模社会事件进行交叉验证,选取了2008105日至2008125日这两个月的时间进行测试。在这其间内发生了多件重要事件,可能会对社会情绪造成重大影响,例如美国大选、感恩节。对OFGPOMS测试的结果如图所示:



表明OF成功地预测了在总统大选和感恩节那天的社会情绪,而GPOMS则表现出多样的测试结果,仅仅从图形上可以看出高兴这个情绪指标和OF提供的情绪曲线最为接近。为了验证OFGPOMS之间的关联,需要使用统计学的方法进行验证。这里采用的是多元回归的方式,以OF为因变量,GPOMS6个维度为自变量,建立回归方程:





N = 6Xi代表了GPOMS6个维度的时间序列。回归计算的结果如下:




可以看到,YOFX3X4X6显著相关,可以得出结论,GPOMS的一些情绪指标和OF情绪指标有重叠,并且不是所有维度的情绪都对描述公共情绪有作用,同事GPOMS可以捕捉单维度的OF无法获取到的一些信息。



4

格兰杰因果检验


建立了社会事件对情绪的影响之后,我们更关心的是社会情绪如何关联到股票市场的,这就要用到GPOMSOF相对于DJIA的格兰杰因果检验方法。DJIA时间序列用Dt来表示市场价格的每日差值,为了检验情绪指标是否可以预测股票市场的波动,对比以下两个线性模型的方差:




其中第一个模型L1Dt使用了n阶滞后项,第二个模型L2DtGPOMSOF运用了n滞后项阶,标记为Xt-1……Xt-n,检验的结果如下:




从结果来看,我们不能拒绝情绪无法预测市场的原假设,即β{1,2,…n}0是显著的。但是这个结论只对部分维度有效,平静在提前26天的范围内对股票市场具有最高的格兰杰因果相关性。为了更好地比较X1DJIA之间的关系,绘制出二者的标准化波动曲线:




图中可以看到,X1(t-2,t-3)DJIA有类似的波动,对于市场涨跌有一定的预测作用。事实上,如果只看81日至1030日的数据,t-3p值只有0.009,远小于表格中的0.022。值得一提的是,图中1013DJIA有一个巨幅的波动,振幅超过了3被标准差,而预测曲线基本保持了水平,这主要是因为当天美联储当天发布的一条关于银行紧急援助的消息,市场并未预测到。这也说明了预期之外的消息无法从公共情绪中反应出来,但在股票市场中却是一个重要的因素。



5

非线性模型


格兰杰因果检验是基于线性回归模型的,但是情绪和股票市场之间的关联往往是非线性的。为了解决非线性问题,并且评估情绪因子对股票市场预测的贡献度,这里基于自组织模糊神经网络(SOFNN),分别以DJIA过去3天的数值,以及同样情况下增加情绪因子的组合作为输入,预测DJIA,然后对情绪是否可以提升DJIA预测模型效果的假设进行统计检验。


神级网络过去用于非线性时间序列的解码,这可以描述股市的一些特征,以及预测市场价格。SOFNN过去主要用来做回归,函数逼近和时间序列分析的问题,结合了神经网络的学习能力和模糊系统的易解释性,具有更简单有效的参数和结构化学习算法,对在线学习提供了更高效的算法。


为了预测在DJIAt日的价格,输入的参数包括DJIA的价格,以及n-3日的而情绪值,标准化到[0,1]区间,确保所有的输入值的权重接近。训练数据集选取228日至1128日,测试数据集选取121日至1228日,这么选取最能反映模型在遇到重大社会事件的稳定性。考虑到其他情绪指标对DJIA的影响,以及指标之间的一些相互作用,我们对输入参数进行组合:




I0表示基础模型,用历史数据t-3, t-2, t-1来预测DJIA价格。DJIAt-3,2,1表示DJIA的价格,X1,t-3,2,1表示GPOMS第一个维度指标在时间t-3,t-2, t-1时刻的数值。I1,3 I1,4 I1,5 I1,6 分别表示历史DJIA和和第3,4,5,6维度的情绪指标在时间t-3,t-2, t-1时刻的组合。例如,I1,6 表示以DJIA1,6维度情绪指标在t-3, t-2, t-1时刻价格作为输入参数。为了比较GPOMSOF的情绪指标,再增加一个组合:



预测的准确性用测试样本的平均绝对误差百分比(MAPE)和方向准确性(涨或跌)来衡量。预测的结果如下:



从分析结果来看,增加I1,也就是平静指标,可以提供最大的预测精度,它的MAPE是很低的1.83%,而方线正确率达到了最高的86.7%。值得一提的是,X6,也就是高兴这个情绪在格兰杰检验中并没有显著的因果相关,当和平静组合了之后,MAPE达到了最小的1.79,而方线正确率也达到了80%


为了检验SOFNN模型中I1组合86.7%胜率的显著性,可以将每日的涨跌作为以概率50%的二项分布,重复15次试验(15个交易日的样本数据),最终得到86.7%的胜率的概率为0.32%。这是一个小概率事件,我们有理由相信SOFNN的预测准确性不是偶然的。


除此之外,我们还测试了X1X6的线性组合对DJIA的影响,通过以下模型:



检验结果显示,p值为0.66F值为0.53,这个结果比单独的X1差了许多。由于SOFNN在以X1X6组合为输入变量的预测结果更为精确,因此可以得出结论不同的情绪维度之间是非线性的关系。



6

结论和展望


本文通过twitter上的信息研究了公共情绪对股票市场是否有相关性或预测性,结果表明只有部分情绪指标,如平静,可以通过格兰杰因果检验。运用自组织模糊神经网络(SOFNN)可以大幅提高预测的精确性,为了充分发挥模型的价值,在后续的研究中还将从更多新的渠道获取信息和相关的经济指标。


另一方面,本研究的过程也忽略了很多因素,也需要在将来的研究中进一步完善。比如分析的过程并没有对不同地域、人种、语言做出具体限制,同时对于如何定义和描述公众情绪也没有统一标准。最重要的一点,虽然统计检验可以得出相关性和因果关系,但是仍然不知道原因产生结果的机制,或者说公众情绪究竟如何影响到股票市场,是将来研究的重点。此外,社交网络上的流言蜚语以及误导信息可以快速传播,进而形成一种社会传染病的效应,最终造成市场异常波动。在这个过程中,社会和个人的认知也会不断提升,投资者会从总结过去的经验,调整交易行为,这些网络社交领域的研究也成为了目前的新兴学科计算社会科学的一部分。




本文选自 “Twitter mood predicts the stock market”

作者:Johan Bollena,Huina Maoa,Xiaojun Zengb

School of Informatics and Computing, Indiana University, 919 E. 10th Street, Bloomington, IN 47408, United States
School of Computer Science, University of Manchester, Kilburn Building, Oxford Road, Manchester M13 9PL, United Kingdom



❶ 专注于对冲基金策略、资产配置以及智能投资组合的研究
❷ 点击历史信息,查看更多内容
❸ 长按右侧二维码,关注我们



 

 


Copyright © 肇州量化投资虚拟社区@2017