文本挖掘研究回顾一:互联网数据挖掘系统,行为金融新领域

导读事件起因:最近无论是主动投资还是量化投资领域都对文本挖掘研究产生了高度关注度,作为国内相关研究领域的开创者,我们认为有必要将过去近四年的研究成果进行重新梳理与回顾,最重要的是对过去研究中存在的不足进行

事件起因:

最近无论是主动投资还是量化投资领域都对文本挖掘研究产生了高度关注度,作为国内相关研究领域的开创者,我们认为有必要将过去近四年的研究成果进行重新梳理与回顾,最重要的是对过去研究中存在的不足进行反思,为今后无论是我们自身还是同行的相关研究提供参考。

第一篇回顾选用2010年9月16日发的一篇深度报告。该报告是我们进入该研究领域的开篇之作,站在今天的时点看,这篇报告完成了两项有意义的工作:1、建立了我们从文本采集、清洗、结构化,到量化建模、结果输出的大体数据流程和分析体系;2、为市场贡献了独家的股票关注度因子,近四年里,就单因子来讲,关注度因子一直有稳定优异的表现。

由于当时对市场理解的不够深入和研究方法的相对稚嫩,该报告也存在诸多不足:1、情绪指标的构建方法存在较大问题,该指标也在2011年我们推出普通投资者情绪指标后被弃用;2、整体的流程与架构虽然方向正确,但在诸多细节处理部分仍存在许多不足之处,致使后期数据更新和模型维护存在较多不便;3、双反转模型并不适合机构投资者和大资金,在之后也被我们弃用。

下面的篇幅中,我们对原报告不作任何修改的重新发布,温故而知新,激励我们在这一领域继续埋头研究,深耕细作。

互联网:“营业部自行车”2.0版

情绪是投资分析框架中非常重要的一环,上个世纪,就有这样的朴素结论:看营业部门口的自行车数量,当自行车很少的时候可以买股票,但当自行车数量很多的时候就得卖股票了。如今,在“交易网络化”和“交通汽车化”的推动之下,互联网毅然接过了“营业部自行车”的大旗,成为情绪指标2.0版,而财经网站和股票论坛的火爆使我们有了一个可以直接量化投资者情绪的可靠数据来源。

互联网海量数据挖掘系统:业内首创

我们在业内第一个建立了基于互联网的海量数据挖掘系统,完整的系统将包括情绪指标、个股及板块关注度、关键词跟踪等部分。

目前,基于股票论坛新发文章数量指标能作为较好的大市情绪指标,与大盘同步相关性60%,该情绪指标波动的变化能提示市场的中短期拐点。

基于个股的关注度指标验证了“人弃我娶人取我与”投资理念的正确性:单独考虑个股关注度的变化,自2008年中以来,以月度考察,关注度下降最多的股票构成的组合显著跑赢关注度上升最多的股票组合,两年累积收益超过100%,超额收益80%以上,且超额收益完全来自于Alpha。以周为单位,选择同时满足关注度下降最多和表现最差的股票构成组合,两年累积收益率658%。

基于已经建立的数据挖掘系统,我们将陆续推出一系列产品:大市情绪指标、个股关注度指标、行业及板块关注度指标,从一个完全新的角度形成独立的选时、行业配臵、选股的数量化体系,并与传统的数量化体系融合,将国内数量化投资研究推向一个新的领域——行为金融。

免责声明:本文章由会员“何阳”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系