220 likes | 425 Views
金融智能与证券市场. Stock Price. Time. 文本挖掘技术. 文本挖掘技术: 1) 文本向量化。 2)加权TFIDF,提取文本量化数据。. 研究背景. 新闻对股市有影响,这已经是学术界和实业界公认的事实。目前大部分研究主要集中在微观层面,即新闻对个股价格波动的影响 本文利用文本挖掘技术和计量经济学方法,将新闻内容量化为金融资本定价模型中的一个影响因子。首次从宏观层面上,分析互联网新闻信息对中国股市的影响. 研究现状- 经济学领域( 1/2 ).
E N D
Stock Price Time
文本挖掘技术 文本挖掘技术: 1) 文本向量化。 2)加权TFIDF,提取文本量化数据。
研究背景 • 新闻对股市有影响,这已经是学术界和实业界公认的事实。目前大部分研究主要集中在微观层面,即新闻对个股价格波动的影响 • 本文利用文本挖掘技术和计量经济学方法,将新闻内容量化为金融资本定价模型中的一个影响因子。首次从宏观层面上,分析互联网新闻信息对中国股市的影响
研究现状-经济学领域(1/2) • Mitchell和Mulherin研究发现,道琼斯每日发布的公告数量与股票市场的交易量和股票收益直接相关[4] • Fang和Peress 研究了媒体报道与股票横截面收益之间的关系,发现媒体关注度低的股票存在显著的溢价[5] • Niederhoffer通过分析《纽约时报》发布的重大新闻标题,对新闻标题的内容进行分类,并且对每个标题对股市的影响评级,研究重大新闻事件对股票市场的影响。他发现重大新闻发布后的第一天,股票市场的反应最强烈[6]
研究现状-经济学领域(2/2) • 总结经济学领域研究新闻对股市影响: • 只是简单地采用新闻的数量或标题来进行研究分析新闻如何影响股市,忽略新闻文本中大量有价值的软信息 • 且目前此领域学者进行研究的新闻源主要是报纸杂志等,并没有涉及互联网中海量新闻 • 原因分析:量化新闻这种无结构的文本信息对股市影响对经济学 领域的学者是个极大的挑战;海量新闻的获取是又一限制因素
研究现状-信息科学领域(1/2) • Schumaker, R.P. 和Chen, H. 运用文本挖掘技术,采用支持向量回归 (Support Vector Regression)[7],建立新闻文本与新闻发布20分钟后股价之间的回归模型,来预测新闻对股价影响[8] • Xiangyu Tang,Chunyu Yang和Jie Zhou结合文本挖掘技术和时间序列分析方法,建立新闻与股价之间回归模型,预测新闻对股价影响[9] • Yuzheng Zhai,Arthur Hsu和Saman K Halgamuge用文本挖掘技术,支持向量回归技术,建立新闻、技术指标与股价之间回归模型,用建立好的模型预测一则新闻发布后对应股价[10]
研究现状-信息科学领域(2/2) • 信息科学领域学者对新闻与股市之间关系的研究可以归结如下: 用文本挖掘技术来研究新闻文本与股价之间关系,建立新闻与股价之间的模型,用建好的模型来预测新闻对股价趋势的影响。 • 但影响股市走动的因素很多,包含大量的定性信息和定量信息,使得新闻预测股价的研究准确性并不高,实用性并不强。 • 然而,分析新闻如何影响股市波动,即新闻对资本市场的影响分析,这个研究很有实用价值。这也正是经济学领域学者更关注的问题。
研究方法 • 财经新闻中包含大量影响股市信息,旨在量化这些信息对股市的影响,并将量化结果作为影响股市收益率的一个因子,融合影响股市的几个技术指标,采用计量模型的各种检验方法分析新闻如何影响股市,影响时限以及影响强度。 • 技术关键: • 采用文本挖掘技术量化财经新闻对股市的影响,即采用回归模型(这里采用支持向量回归这种机器学习算法)量化每日新闻对股票日收益率的影响。 • 计量模型分析方法,即采用计量模型的各种检验方法分析新闻如何影响股市,影响强度以及时限等问题。
数据 • 股票交易数据:来源于锐思金融研究数据库(www.resset.cn)。研究时间窗口为2010年8月1日至2010年9月30日。下载数据为: 2008年1月--2010年9月间信息行业所有上市公司的股票日交易数据 • 新闻: 2008年1月--2010年9月期间信息行业上市公司新闻。本研究抓取的2008年1月--2010年7月间的新闻总数为13,340,去除新闻发布前两天和后两天都缺失股票交易数据的新闻后还剩11,227
设计思路 • 采用文本挖掘量化新闻对股票收益率影响 • 新闻文本表达:中文切词、文本向量化、降维 • 建立新闻与对应股票收益率回归模型,量化新闻对股票收益率影响: 建立回归模型量化新闻对股市影响,首先需要确定回归模型的输入输出。这里,输入为新闻文本信息,输出为股市日收益率、累计收益率
方案 • 分析新闻对股市波动的影响 • 异常收益率、累计日常收益率的计算: 本文采用CAPM模型来计算新闻报道给相关股票带来的异常收益 • 新闻对股票收益率的影响: 通过CAMP模型计算预期正常收益,结合实际收益从而得到异常收益,分别对事件窗内异常收益进行累计,得到新闻发布后引起的累计异常收益。 本文建立回归模型分析新闻是否在媒体公开以前就已经对市场产生影响,以及新闻的影响是否有持续效应
因变量 因变量 ARt (计算期t内股票的异常收益) 每只股票的异常收益率为ari,t 样本异常收益率的均值ARt: Two Foundings 计算样本内t=1到N计算期内的累计异常收益CARt
模型修订 “好”新闻和“坏”新闻对未来股票回报的影响的回归方程:
实验 • 实验结果(上海市场)
实验 • 实验结果(深圳市场)
结论 • 互联网财经新闻对证券市场股票价格能产生影响,这已经是学术界和实业界公认的事实,其研究成为经济学热门的前沿课题之一。国内外大量学者对此课题展开研究。 • 经济学领域学者研究如何量化新闻对股市影响时,多是采用新闻的发布数量或新闻标题来进行,忽略新闻本体中包含的大量软信息。 • 信息科学领域学者在研究此问题时,都集中于建立新闻与股价之间回归模型,来预测新闻对股价的影响。然而影响股市波动因素很多,且很多因素难以量化,故预测模型的准确度一直不高,实用价值不高,但是新闻如何影响股市波动这一课题却很有研究意义和实用价值。
结论 • 用信息科学领域文本挖掘技术,经济学领域计量经济学方法,结合股票的相关定量指标,就互联网财经新闻对股票的冲击进行了实证研究。 • 研究表明: • 沪深两市的上市公司新闻经媒体报道后都会对该上市公司的股票产生冲击; • 新闻发布对深市股票的影响要强于沪市股票; • 新闻发布后,沪市上市公司的规模变量显著,而深市上市公司的规模变量并不显著; • 对于规模越大的企业,新闻发布后的影响力越不明显; • 对于规模越小的公司,新闻的影响越大持续时间越长; • 沪深两市新闻影响力的持续时间不同,沪市上市公司的新闻影响力度和持续时间小于深市上市公司。
结论 • 本研究有多方面的启示意义。 • 新闻媒体对金融市场的影响力在逐渐增强。 • 新闻的文本信息与股票的定量指标相结合,将能更加有效地弥补股票市场的信息不对称。 • 将文本挖掘技术应用到金融市场将是一个大趋势,能够更加充分地考虑股票交易市场中被遗漏的公司新闻文本信息,发掘个股的价值和公司的潜力,为利用媒体资讯来弥补信息不对称,帮助投资者和研究者更好地利用金融信息,进行股票预测提供了一条切实可行的路径。
参考文献 • Fama, E.F. The behavior of stock-market prices. Journal of business, 1965, 38(1):34–105. • Kothari, S. P., Jerold B. Warner. The econometrics of event studies. B. Espen Eckbo, ed., Handbook in Empirical Corporate Finance. North-Holland, Amsterdam, forthcoming. 2006. • Antweiler, W. and Frank, M.Z. Do U.S. Stock Markets Typically Overreact to Corporate News Stories? Unpublished working paper, University of Minnesota. 2006 • Mitchell, M. L. and Mulherin, J. H. ‘The impact of public information on the stock market’, The Journal of Finance, Vol. 49, No. 3, 1994, pp. 923-950. • Fang, L. and Peress, J. ‘Media coverage and the cross-section of stock returns’, The Journal of Finance, Vol. 64, No. 5, 2009, pp. 2023-2052. • Niederhoffer, V. ‘The analysis of world events and stock prices’, The Journal of Finance, Vol. 44, No. 2, 1971, pp. 193-219. • Gunn, S.R., Support vector machines for classification and regression, Citeseer, 1998. • Schumaker, R.P. and Chen, H. Textual Analysis of Stock Market Prediction Using Breaking Financial News- The AZFinText System. ACM Transactions on Information Systems (TOIS), 2009, 27(2), 1-19.
参考文献 • Tang, X. and Yang, C. and Zhou, J. Stock Price Forecasting by Combining News Mining and Time Series Analysis. Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, 2009, 1, 279-282. • Zhai, Y. and Hsu, A. and Halgamuge, S. Combining News and Technical Indicators in Daily Stock Price Trends Prediction. Advances in Neural Networks , 2007, 1087-1096. • Fung, G. and Yu, J. and Lam, W. News sensitive stock trend prediction. Advances in Knowledge Discovery and Data Mining, 2002, 481-493. • Vapnik, V.N., The Nature of Statistical Learning Theory, Springer, 1995. • Cortes, C. and Vapnik, V.(1995). Support-vector networks. • Drucker, H. and Burges, C.J.C. and Kaufman, L. and Smola, A. and Vapnik, V., Support vector regression machines, Citeseer, 1997. • 何诚颖,2003:《中国股市市盈率分布特征及国际比较研究》,《经济研究》第9期。徐筱凤、李寿喜,2005:《中国企业市盈率:理论分析与经验证据》,《世界经济文汇》第4期。