【广发金融工程】弹性因子研究-多因子Alpha系列之四十六
摘要
Abstract
1.因子开发迭代更新越来越重要
近几年来,随着传统多因子模型在市场的应用逐渐广泛,因子的波动特征逐渐加大,因子拥挤等原因造成了因子的收益逐渐下降。为了能够寻找更好的Alpha收益来源,在多因子模型框架中,因子作为底层Alpha来源输入的基础,因子的开发、迭代、更新就显得越来越重要。低频相关的数据的因子开发目前难度越来越大,增量的信息越来越有限。本篇专题探讨个股基于弹性因子在因子选股中的应用。
2.弹性因子的定义和构建
有关学术论文指出,弹性是指价格在响应流动性需求者或未知信息交易者发起的大量订单流失衡而发生变化后,价格恢复到价值交易者驱动的基本价值的速度。据此,弹性可以描述为价格从信息优势交易者驱动的暂时价格影响恢复到其基本价格的速度。基于以上定义,本篇专题报告构建弹性因子,其构建步骤可分为两部分:首先将每日股价分解为基本成分和暂时成分;然后将分解得到的暂时价格序列转换到频域,继而计算出暂时价格恢复速度作为弹性因子。
3.实证分析
本篇专题报告以月频调仓对弹性因子在全市场、沪深300、中证500、中证800和中证1000等板块的选股表现进行了实证分析。实证分析结果表明,弹性因子在各板块的分档效果均较为显著。其中弹性因子在创业板板块表现较为突出,在2013年1月至2022年12月回测期间内多头年化收益率达22.12%,同期创业板指数年化收益率为12.64%,超额年化收益率达9.48%,信息比为0.66。此外,弹性因子选股换手率较低。除在创业板的多头平均换手率为21.03%外,弹性因子在其他板块的多头平均换手率均低于20%。
风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构及交易行为的改变时有可能存在策略失效风险。
一、因子挖掘思考
高频信息
近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大,从市场获取超额收益的难度在增加。
因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入,从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子的开发和更新迭代变得越来越重要。
以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。
以高频价量数据为基础的因子开发在当下具有更大的收益提升空间。与低频因子相比,高频数据在用于量化投资中存在一定优势。
首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。
其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。
此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。
高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外,机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。
低频信息
以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。
对于低频信息的挖掘,从最近几年的进展上看,低频里的增量信息成果越来越少。从数据维度上看,低频的因子建模更多是从一些另类数据或者是新的方法、理论成果中出发构建相关的因子。如另类数据角度,从互联网中的股吧、新闻、关注度等角度,或者是专利数据、供应链相关数据等。新的理论成果如从图网络等角度出发构建相关的因子。
本篇专题报告基于个股的流动性角度出发,研究个股基于流动性维度构建相关的因子进行研究。
二、背景介绍
研究进展
现有研究对弹性的测量可以分为两大类。第一类是将弹性代表为股票价格的均值回归,这种方法主要关注股价本身的变动。Dong等(2007) 将弹性定义为股票在 t-1 和 t 期间的日内定价误差过程的均值回归参数。实证结果表明公司的预期股票回报与弹性呈负相关。Alan等(2015) 将弹性计算为开盘半小时股票收益与剩余交易日股票收益的日内序列相关性。通过公司层面和投资组合层面的分析,发现弹性与股票收益的横截面呈负相关。另一种类型的弹性测量侧重于交易成本测量方面的恢复过程,例如买卖价差或市场深度。Anand等(2013) 建议用金融危机期间和之后交易成本相对于危机前时期超过two-sigma阈值的月份的平均百分比来衡量非弹性。实证结果表明,买方机构的流动性供应是后危机时期从流动性冲击中复苏的主要因素。Kempf等(2015) 也使用交易成本度量来计算弹性。类似于Dong等(2007),Kempf等(2015) 使用盘中数据将弹性定义为先前交易成本水平和当前交易成本流的均值回归参数。区别于上述相关研究,本报告定义的弹性测量直接衡量了暂时价格的恢复速度。通过频域的频谱分析得到暂时价格的距离和恢复时间,然后用距离除以恢复时间来计算速度。因此,本文对弹性的测量更符合弹性的字面定义。此外,本文的弹性测量被建模以克服Anand等(2013) 提出的问题,即现有研究仅考察短期内的弹性。对此,本文对暂时价格变动进行建模时,使用了窗口期较长的过往数据,并考虑了其中多个频率成分的综合情况,以同时捕捉到长期复苏运动和短期复苏运动的速度。
三、因子构造方法
与策略框架
因子构造方法
弹性测量
具有更高回归速度的股票表明它可以更快地从先前的短暂价格影响中恢复过来。因此,投资者认为这只股票更具弹性,因而更具流动性。换句话说,暂时价格回归较慢的股票被视为风险较高的资产,需要向投资者补偿较高的风险溢价。为了衡量恢复速度,本篇专题报告使用傅立叶变换将分解后的暂时价格序列转换为频域中的频谱函数形式。回归速度快的股票,其频谱函数主要分布在较高的频率水平,而回归速度慢的股票,其频谱函数主要分布在较低的频率水平。在这里假设暂时价格序列是一个有限信号,它包含一个以上的频率成分,恢复到其基本价格。有限时间序列在时域和频域之间具有以下离散傅立叶变换关系,
暂时价格恢复的平均速度,即弹性因子的构建,可以通过以下等式获得:
四、实证结果
数据说明
选股范围:全市场
股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票
因子预处理:MAD去极值、Z-Score标准化、行业市值中性化
回测区间:2010.01.01 – 2022.12.31
分档方式:根据当期股票的因子值,从小到大分为五档
调仓周期:每个月最后一个交易日以收盘价
调仓交易费用:千分之三(卖出时收取)
因子分档表现
在月度调仓的历史回测下,弹性因子在全市场、沪深300、中证500、中证800、中证1000等各板块的分层效果均较为显著。
因子实证结果
弹性因子在创业板的表现较为突出,多头年化收益率达22.12%,多头相对创业板指的超额年化收益率达7.45%。从表2分年度结果来看,弹性因子的RankIC均值在近年来表现较为优异,选股结果在大部分年份均获得相对创业板指较为明显的超额收益,2022年超额年化收益率达18.60%。
总结
Summary
本篇专题探讨了流动性股票市场的弹性测量,并构建出弹性弹性因子,研究其在因子选股中的应用。
本报告以月频调仓对弹性因子在全市场、沪深300、中证500、中证800和中证1000板块的选股表现进行了实证分析。实证分析结果表明,弹性因子在各板块的分档效果均较为显著。从具体收益来看,弹性因子在创业板的表现较为突出,在2013年1月至2022年12月期间多头年化收益率达22.12%,同期创业板指数年化收益率为12.64%,超额年化收益率达9.48%。在中证1000板块,弹性因子多头年化收益率为8.15%,同期中证1000指数年化收益率为0.14%,具有较为明显的超额收益。此外,弹性因子在全市场、沪深300、中证500、中证800的多头年化收益率分别为11.35%、4.36%、8.20%和7.58%。
风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险。
历史报告
多因子Alpha系列
【四十四】再谈地理关联度因子研究
【四十三】基于地理关联度因子研究
【四十二】海量技术指标掘金Alpha因子
【四十一】高频价量数据的因子化方法
法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。
本篇文章来源于微信公众号: 广发金融工程研究