中金 | 量化多因子系列(12):高频因子手册
Abstract
摘要
本篇报告为高频价量因子的参考手册,汇集了常见的高频价量因子以及中金研究量化策略团队开发的创新性因子。高频价量因子以股票的level2数据为基础,捕捉股票日内的下单和交易行为。高频因子的优势在于因子拥挤度相对较低,具有更丰富和更高维度的样本,能够刻画更精细的市场行为;它的劣势在于数据处理较繁琐低效,因子逻辑易受投资者结构、交易规则变化的影响。
我们依据价量因子的构建方式及核心逻辑人工挖掘[文]共8大类因子,分别为:动量反转、波动性、高阶[章]特征、流动性、量价相关性、筹码分布、拥挤度和[来]成交资金因子,并构建各类因子的复合因子,检验[自]各类因子在周度和月度换仓下的有效性,尝试分析[1]其主要收益来源以供投资者参考。
测试结果显示使用高频数据构建的因子有效比例较高,在全市场范围内多个因子周度年化多空收益夏普超5.0,多头信息比率超3.0,因子池中近3成因子月度IC均值绝对值超5%,月度ICIR超0.65。与低频价量因子类似,高频因子表现随股票池平均市值增加有效性明显呈线性下降。
本篇推文为《量化多因子系列(12):高频因子手册》研究报告测试的节选内容,请联系对应销售或分析师获取完整版PDF报告。
1)动量反转
动量反转因子包含三个细分类型:分段动量、量能动量和QRS动量因子。ICIR表现最好的因子为mmt_ols_beta_mean因子,全市场月度ICIR达1.09,月度多头超额达7.0%,周度多空达54%;mmt_last30因子在全市场范围内表现较为出色,月度ICIR达1,月度多头超额为5.6%。此外,mmt_pm_m因子虽然ICIR表现稍弱,但超额收益能力较强,周度多空年化收益率58%。沪深300范围内可关注mmt_top20VolumeRet_o因子,即前20成交量k线的收益率因子。
2)波动性
波动率因子刻画了股票价格或股票收益在过去一段时间的不确定性程度,高波动率通常反映其不确定性程度较高,未来收益表现可能相对较弱。我们相对推荐vol_upVol_std因子,其在大部分市场中有效性良好,全市场ICIR绝对值达1.35,IC均值-8.4%。vol_volume1min_o虽然周度多空相对较高达44%,但稳定性稍显不足。
3)高阶特征
通过分钟级别价格数据计算出日内收益率的偏度与峰度,该类因子刻画日内价格分布以及快速变化的特征。其中,分钟偏度(shape_skew_m)全市场因子月度ICIR达1.28,周度多空达29.2%。在沪深300中,因子表现有所下降,其中相对表现较好的是shape_skew_std和shape_kurt_std因子,它们的ICIR均超过了0.6,shape_skew_std因子的多空收益达到了16%。
4)流动性
流动性因子包含两类:价格弹性因子和集合竞价因子。其中,1分钟Amihud因子(liq_amihud_1min_o)整体表现最好,在全市场月度ICIR为1.02,月度和周度多空分别为33%和40%,换手率分别为52.31%和39.39%,在沪深300内表现稍弱。而沪深300选股域中,liq_closevol_z因子在周度调仓频率下ICIR为0.21,年化多头超额收益为5.4%,领先于其他流动性因子。
5)量价相关性
量价相关性因子可分为两类:价量同步因子和领先滞后因子。量能领先阶段往往是信息扩散的初期,但日内量价相关因子基本与未来收益负相关,测试结果显示corr_pvl(分钟收盘价与领先成交量相关系数)和corr_pv(分钟收盘价与成交量相关系数)总体表现较好,在多数选股范围内具有较强的选股能力,大盘股中有效性较有限。corr_pvl_std因子全市场ICIR分别为1.09,周度年化超额收益超46%。
6)筹码分布
筹码分布因子可分为以下两类:筹码分布形状因子和筹码占比因子。筹码分布旨在刻画股票持有人的持仓成本分布情况。综合来看,筹码占比因子整体表现优于筹码分布形状因子。其中doc_vol_pdf90_std、doc_vol_pdf95_std和doc_vol_pdf90bi_std因子整体表现优异,在不同选股域中均有着较强的预测能力和良好的单调性,值得关注。其中,效果最好的为筹码分位盈亏水平因子(doc_vol_pdf90_std),全市场月度ICIR达1.52,周度多空年化收益率45%。
7)拥挤度
我们使用30s快照成交量序列构建了傅里叶变换机构拥挤度指标,原理是机构拆单下单形成的周期性可以被傅里叶变换后的更显著波形振幅占比捕捉,使用周期性成交占比表征机构参与度占比。该因子在个股和行业层面表现均较为优秀。crowd_fftv20_3s_w0_std因子月度和周度ICIR分别为1.37和1.38,周度多空夏普超过5.0。在沪深300中因子有效性下降显著,相对较好的tv50m5_std因子月度ICIR为0.53,多头超额4%。
8)资金成交
资金成交因子可分为以下三类:交易单量资金流向因子、开盘/尾盘资金流向因子和收益率成交占比因子。资金流因子反映了不同类型资金流向的信息,该类因子的核心思路是捕捉“聪明资金”的流向,采取跟随策略,以期获得基本面改善带来的超额收益。开盘成交占比波动率因子(trade_headRatio_std)ICIR达1.07。高收益量能占比因子(trade_top20retRatio)在全市场表现相对较为稳定,月度ICIR为0.9和0.64,多空年化收益为14%。
9)高频复合因子
所有复合因子均具有较强的综合选股能力。月度频率下syn_corr_o和syn_crowd_o因子在全市场选股中相对其他因子有效性较高,其中全市场范围内syn_corr_o因子有效性更强,ICIR达1.23。周度频率下syn_crowd_o和syn_mmt_o因子表现较优。其中,syn_mmt_o因子有效性更强,ICIR为1.1,多空收益为64.2%。而syn_crowd_o因子的收益预测能力更佳,其多空收益达69.9%,多头超额11.1%,相对优于其他复合因子。
风险提示:本篇报告基于市场历史收益表现测试价量因子的有效性,无法确保价量因子样本外的收益表现。
Text
正文
价量因子综述
Text
日内高频数据因子:从微观结构着眼
日内高频数据因子是以股票的日内交易价量、逐笔成交、逐笔委托以及分钟K线等数据为基础构建的,刻画的是更细腻的交易结构和交易行为。对比低频因子,高频数据在量化选股中表现出一些明显的优势。
1)信息含量丰富:高频数据具有丰富的信息含量[7]。高频数据体量往往明显大于低频数据。对于20[量]18年以来的全市场level2数据来说,所需[化]储存空间就可达几十TB,这相对于日度指标来说[ ]有约至少万倍的体量差距。
2)因子拥挤度低:由于高频数据结构相对复杂,[ ]处理成本较高,且信息主要来源于日内行情,由于[ ]因子开发流程相对复杂,这些因素都使得因子拥挤[1]度相对较低。
3)因子相关性低:得益于高频因子的高维度信息[7]和丰富的数据处理方式,使用高频数据构造的因子[q]内部相关性较低,投资者更有可能从中获得更丰富[u]的信息增量。
图表1:日内高频因子的相对优势
资料来源:中金公司研究部
我们认为,高频价量因子的收益来源和低频价量的收益来源有相似也有不同。相同之处在于价量因子收益来源一般有三种方式:1)是通过捕捉由于噪音交易者反应过度(或反应不足)造成的错误定价所带来的投资机会;2)是捕获特定资金行为获取超额收益;3)是承担了特定的风险,获得风险补偿收益。由于高频价量数据深入日内交易结构,还可以针对盘口细节来追踪每一笔的交易的行为和流向,使得此类信息更加具象和精准。
尽管高频数据在量化选股中具有优势,但其难点在[a]于数据维度大且噪声高,这使得高频数据因子挖掘[n]对信息处理能力和处理效率提出了较高的要求。
本文通过不同方法和参数构建高频因子共79个,依据价量因子的构建方式将其划分为8大类:分别为动量反转、波动性、高阶特征、流动性、量价相关性、筹码分布、拥挤度和成交行为因子。最终根据因子表现每一类构建出一个复合因子。我们将依次检验各类因子在不同处理方法、不同测试频率下的有效性,并尝试分析其主要特征,希望能够给对高频数据感兴趣的投资者提供参考。
图表2:高频价量因子分类
资料来源:中金公司研究部
Text
股票日内高频数据结构
本文使用的日内高频数据属于level2数据,[t]主要包含了快照数据(含10档盘口数据)、逐笔[.]委托、逐笔成交数据。股票的level1数据主[c]要提供买卖5档的盘口数据及最新价等实时交易信[o]息,而level2数据则提供了更全面更细致的[m]微观结构数据,它不仅展示了买卖双方在市场上更[文]全面的报价和订单量(10档盘口及区间相关统计[章]量),还包含了市场上每一笔交易指令对应的委托[来]和成交信息,这属于颗粒度最细的数据类型;一般[自]通过逐笔数据还可以重构订单簿从而获得任意时刻[1]的全部买卖盘口信息。
此外我们还可以使用快照数据来合成分钟级别的K线数据。K线数据、快照数据和逐笔数据在复杂度、数据维度和复杂度上依次上升,处理难度也逐渐增加。由于逐笔委托数据只有深交所有较长历史数据,上交所在2021年中才开始发布逐笔委托数据,考虑数据样本的覆盖完整度,本文逐笔数据使用以逐笔成交为主。
图表3:高频数据主要类型
资料来源:Wind,中金公司研究部
图表4:分钟k线数据示例
资料来源:Wind,中金公司研究部
图表5:3s快照数据示例
资料来源:Wind,中金公司研究部
图表6:逐笔成交数据示例
资料来源:Wind,中金公司研究部
图表7:逐笔委托数据示例
资料来源:Wind,中金公司研究部
Text
因子测试框架及评价标准
本文对高频价量因子进行IC检验和分组回测检验[7],展示不同因子的有效性水平。我们将对各类因子[量]在全市场、沪深300、中证500和中证100[化]0进行IC检验与分组回测检验,分析不同因子收[ ]益率预测的稳定性、单调性、有效性和与其他常见[ ]因子的相关性。
由于因子值本身频率为日度频率,换仓频率为月度[ ]或周度时,需要考虑如何综合使用过去一期的日度[1]数据,我们设置了最后一期、平均值、标准差和标[7]准分等处理方法将日度数据聚合至每一期期末使用[q]。具体测试参数如下:
► 测试区间:2013.01.04 – 2023.12.01(中证1000范围内测试从2014.11.01开始,逐笔成交和逐笔委托的数据从2018.01.01开始,分钟K线数据从2013.01.01开始)。
► 股票池:全市场、沪深300和中证500中剔除ST、停牌、一字板和上市未满一年股票。
► 调仓:周度与月度测试,按照下周初或月初调仓,不计算手续费。
► 分组回测组数:按照因子值由小到大的顺序等分为10组。
► 因子处理方法:每一个原始因子分别有四种处理方法。每期取最后一个有效值,后缀为“_o”;每期取当期算术平均,后缀为“_m”;每期取z-score标准分:“_z”;每期取当期标准差:“_std”。
使用多种指标展示因子的有效性水平。在IC检验中,我们使用IC均值、ICIR绝对值等指标展示因子暴露与下期收益率的相关性,反映因子对收益率的预测能力。在分组回测中,使用多头年化收益率、多头年化超额收益率、多头超额最大回撤等指标展示多头组合的选股能力。由于ICIR为IC序列的均值与标准差比值,而相关系数无多期可加性,因此周度和月度ICIR表现无需年化处理,直接可比。
图表8:因子有效性检验指标
资料来源:Wind,中金公司研究部
动量反转
Text
QRS分钟动量因子表现占优
动量反转因子通常由过去一段时间的特定类型的涨[u]跌幅构造,其因子收益一方面可能来源于非理性投[a]资者的行为偏差造成的错误定价,另一方面也可能[n]来源于承担特定风险获得的风险补偿(参考中金公[t]司研究报告《量化多因子系列(6):关于动量,[.]你所希望了解的那些事》)。本节,我们将对14[c]个不同构建方式下的动量反转因子进行有效性检验[o]。
动量反转因子可以分为三类:分段动量、量能动量[m]、QRS动量。各类动量类别中均有表现优秀代表[文]因子。其中分段动量指只取日内某一特定时间段的[章]动量因子,量能动量是指只选取特点成交量下的收[来]益率作为动量因子,QRS因子为《量化择时系列[自](1):金融工程视角下的技术择时艺术》中提到[1]使用过去一段时间K线的最高价和最低价回归出的[7]beta系数和R方的乘积,具体原理在此不做赘[量]述。本文中我们将QRS应用到日内分钟K线数据[化]级别,计算滚动50根分钟K线的QRS指标以及[ ]它的两个组成部分R方与beta系数,并分别测[ ]试发现其均有显著选股效果。
图表9:动量反转类因子构建方式
资料来源:中金公司研究部
mmt_ols_beta_mean_o、mmt_top20VolumeRet_std和mmt_last30_std因子在大多数选股域中有效性良好。月度ICIR最高的mmt_ols_beta_mean因子在全市场周度年化多空收益率55%,多头超额23%;mmt_top20VolumeRet_std的月度IC均值-9.52%,选股能力显著。
► 分段动量因子包括mmt_last30_std、mmt_between_M和mmt_pm_std等因子。mmt_last30_std因子在全市场范围周度多空收益率47%,在中证500和中证1000中也有较强的收益预测能力,且单调性良好。在沪深300中,表现相对较好的mmt_last30_z和mmt_pm_m周度超额年化收益仅约10%,说明该类因子在大市值股票中效果减弱。
► 量能动量因子指的是与成交量特征相关的动量因子。mmt_top20VolumeRet_std全市场因子IC均值-9.52%,有效性显著;沪深300范围内可关注mmt_top20VolumeRet_o因子,即前20成交量k线的收益率因子,周度频率下年化多空收益率可达27%。
► QRS动量因子为日内相对强弱指标,由日度QRS构造方法迁移到分钟线上可得。但该类因子在内部相关性较高。mmt_qrs_o因子在全市场、中证500和中证1000中收益预测能力和单调性较好,但在沪深300中表现相对较弱。而其组成部分mmt_ols_beta_mean_o因子在所有选股域中均表现优良。全市场中,mmt_qrs_o因子的IC均值为-8.07%,ICIR为1.00,mmt_ols_beta_mean_o因子的IC均值为-7.34%,ICIR为1.09,周度多空收益达54%。
图表10:动量反转因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表11:动量反转因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内,mmt_ols_beta_mean_o、mmt_pm_m等因子多空和多头超额表现较好,因子多头组合显著跑赢基准,空头组合显著跑输基准,且单调性较为良好。mmt_pm_m因子周度多空年化收益率58%,mmt_ols_beta_mean_o的年化多头超额达23%。
图表12:全市场范围内表现较好的动量反转因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表13:全市场范围内表现较好的动量反转因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表14:全市场范围内表现较好的动量反转因子分组年化超额收益统计
注:1)统计时间为2013-01-14至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表15:mmt_ols_beta_mean_o与常见因子相关系数
注:1)统计时间为2013-01-14至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
波动率
Text
部分波动率因子表现优秀但回撤明显
波动率因子刻画了股票价格或股票收益在过去一段时间的不确定性程度,高波动率通常反映其不确定性程度较高,未来收益表现可能相对较弱。本节将传统的收益波动、振幅因子应用到日内分钟数据中,尝试构建了7个高频波动率因子,并对其进行了有效性检验。
图表16:波动率因子构建方式
资料来源:中金公司研究部
vol_upVol_std因子在大部分市场中有效性良好。收益波动率因子包括传统的分钟波动率因子、上行波动率因子、下行波动率因子。对比收益波动率因子表现,不难看出,上行波动率因子有效性优于分钟k线波动率因子、下行波动率因子,全市场ICIR绝对值可达1.35,IC均值可达-8.4%。
图表17:波动性因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表18:波动性因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
波动率优选因子周度换仓表现
全市场范围内, vol_volume1min_o等因子多空和多头超额表现较好,且单调性较为良好,但从多空收益曲线来看稳定性不足。vol_return1min_o因子周度多空年化收益率41%,年化多头超额一般。周度换仓年化超额收益最高的因子为vol_downRatio_o,多头超额14%,稳定性也欠佳,多头稳定性较好的因子为vol_range1min_std。
图表19:全市场范围内表现较好的波动性因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表20:全市场范围内表现较好的波动性因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表21:全市场范围内表现较好的波动性因子分组年化超额收益统计
注:1)统计时间为2013-01-14至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表22:vol_downRatio_o与常见因子相关系数
注:1)统计时间为2013-01-14至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
高阶特征
Text
收益率偏度因子及变体各项表现稳定
高阶特征利用股票高阶矩与其未来收益建立联系,刻画日内价格分布以及快速变化的特征,能够有效反映价格的除动量和波动率这样一阶和二阶特征外更高阶的特征。本节,我们对6个不同构建方式下的高阶特征因子在多个选股域和调仓频率下进行了有效性检验,包含分钟收益率的高阶特征和分钟成交量占比的高阶特征。
图表23:高阶特征因子构建方式
资料来源:中金公司研究部
shape_skew_m和shape_skratio_m因子在大多数选股中的表现较好。我们将高阶特征因子在全市场、沪深300、中证500和中证1000分别进行月度和周度调仓的有效性检验。根据因子间的相关性统计,上述三个因子间均存在较强的相关性。
全市场范围内,shape_skew_m、shape_skew_std和shape_skratio_m因子具有良好有效性,月度调仓频率下,它们的ICIR表现均超过1.0,且shape_skew_m因子的年化多空收益达到了22.6%。在沪深300中,因子表现有所下降,其中相对表现较好的是shape_skew_std和shape_kurt_std因子,它们的ICIR均超过了0.6,shape_skew_std因子的多空收益达到了14.9%,夏普比率为1.6。
综上所述,高阶特征因子整体有效性良好,其中shape_skew_m和shape_skratio_m因子在多个选股范围内均具有不错的预测性和稳定性,可以关注。
图表24:高阶特征因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表25:高阶特征因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内,shape_skew_m因子的多空收益跑赢基线且远超其他同类因子,具有良好的单调性,与常见因子不存在显著相关性;而shape_skratio_m因子的多头超额收益表现型良好,在2020年收益水平有所放缓。所选择的5个表现较好的高频特征因子整体有效性较好,分组年化超额收益区分度较为明显。
图表26:全市场范围内表现较好的高阶特征因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表27:全市场范围内表现较好的高阶特征因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表28:shape_skratio_m与常见因子相关系数
注:1)统计时间为2013-01-14至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表29:全市场范围内表现较好的高阶特征因子分组年化超额收益统计
注:1)统计时间为2013-01-14至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
流动性
Text
流动性因子低换手凸显性价比
流动性刻画股票交易所需要的时间和成本,一般来说,流动性较差的个股通常有更高的预期收益,这是对流动性风险的风险补偿。因此,流动性因子通常表现为流动性越低,未来收益越高的特征(也会被称为为非流动性因子)。本节利用价差宽度、价格深度等数据构建了11个高频流动性因子,并对其进行有效性检验。大多数因子的构造方法详见《市场微观结构系列(2):高频视角下的微观流动性与波动性》。
图表30:流动性因子构建方式
资料来源:中金公司研究部
liq_amihud_1min_o因子在多数选股中的表现较好。结合因子相关性和构建逻辑,我们大致将流动性因子分为两类:价格弹性因子和集合竞价因子。
► 价格弹性因子包括Amihud非流动性因子(liq_amihud_1min)、价差深度因子(如liq_avgDepthCct)和价格宽度因子(如liq_spread)。在全市场范围内,liq_amihud_1min_o和liq_spread_std相对其他流动性因子具有领先的有效性表现。在月度调仓频率下,liq_amihud_1min_o因子的ICIR为1.02,年化多空收益超过33%,且该因子在中证1000和中证500的选股域中也表现良好。
► 集合竞价因子利用日内tick级别数据计算不同时间段内交易量占全体交易量的比例,能够反映流动性的分布情况,包括liq_closevol,liq_openvol和liq_firstCallR等因子。其中,全市场范围内,liq_firstCallR_o和liq_firstCallR_m因子在周度调仓频率下具有不错的预测性,ICIR均超过0.70,且年化多空收益分别为27.5%和30.6%。沪深300选股域中,liq_closevol_z因子在周度调仓频率下ICIR为0.21,年化多头超额收益为5.4%,领先于其他流动性因子。
总体来看,流动性因子整体表现较好,其中liq_amihud_1min_o因子在多个选股域中具有较为稳定且突出的表现,值得推荐。在大盘股中,也可以关注liq_closevol_z因子。
图表31:流动性因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表32:流动性因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内,liq_amihud_1min_o因子具有领先的多空和多头收益,且单调性表现良好,分组年化超额收益组间区分度明晰。在常见因子相关性计算中,该因子与Momentum_1M、DP、TURNOVER_1M、STD_1M等因子的IC相关性位于0.5左右的水平。此外,集合竞价前的成交量(liq_closeprevol)和收盘前3分钟成交量(liq_closevol)相关因子在全市场中的多空收益表现良好,2021年底出现了小幅回撤。
图表33:全市场范围内表现较好的流动性因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表34:全市场范围内表现较好的流动性因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表35:liq_amihud_1min_o与常见因子相关系数
注:1)统计时间为2018-01-08至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表36:全市场范围内表现较好的流动性因子分组年化超额收益统计
注:1)统计时间为2018-01-08至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
量价相关性
Text
量能领先因子多股票池表现稳定占优
量价相关性因子刻画股票换手率与价格(或收益率)背离、同向程度。该类因子的有效性可从信息扩散理论的角度理解:信息扩散初期的特征应是量能领先于价格,此时量的变化主要由小部分理性交易者主导;而到信息扩散中期时,量价基本同步;到信息扩散末期时,更多成交可能来源于“羊群效应”的非理性行为。本节,我们将对6个不同构建方式下的量价相关因子进行有效性检验。
图表37:量价相关性因子构建方式
资料来源:中金公司研究部
corr_pvl_std、corr_pv_std和corr_prv_std因子在大多数选股中的表现较好。我们将量价相关性因子在全市场、沪深300、中证500和中证1000分别进行月度和周度调仓的有效性检验。根据因子间的相关性统计,图中所示的因子相互间均存在正相关性。从因子构建逻辑出发,大致将量价相关性因子分为两类:价量同步因子和领先滞后因子。
► 价量同步因子指的是价格(及其变化率)与成交量(及其变化率)的同期相关系数。corr_prv_std和corr_prvr_std在全市场范围内表现较好,月度频率下,corr_prv_std 的IC均值为-5.65%,ICIR为1.09;corr_prvr_std的IC均值为-2.88%,ICIR为0.64。相比之下,它们在沪深300范围内表现均有所下降,corr_prv_std 的ICIR为0.47,月度频率下年化多空收益率为12.2%,说明该类因子在大市值股票中效果有所减弱。
► 领先滞后因子表示的是收益率与成交量(以及变化率)的异步相关系数,我们分别测试了领先成交量或领先价格的情况。其中,corr_pvl的变体均值和标准差表现均较为有效,月度ICIR分别达1.09和1.06,前额周度年化多空超46%,后者多头月度超额达8%。
综上所述,corr_pvl(分钟收盘价与领先成交量相关系数)和corr_prv(分钟收盘价与成交量同步相关系数)总体表现较好,在多数选股范围内具有较强的选股能力,大盘股中有效性较有限。
图表38:量价相关性因子在全市场范围内月度回测的有效性检验结果
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表39:量价相关性因子在全市场范围内周度回测的有效性检验结果
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内, corr_pvl_m和corr_pv_m因子多空收益表现较为领先,corr_pvl_std、corr_pv_std和corr_pv_m因子多头收益表现显著跑赢基线,其中corr_pv_m因子自2019年起多头超额增长趋势放缓,2022年出现明显回撤。上述因子分组年化超额收益均具有良好单调性。corr_pvl_std因子与常见因子均不存在显著因子截面相关性及IC相关性。
图表40:全市场范围内表现较好的量价相关性因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表41:全市场范围内表现较好的量价相关性因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表42:corr_pvl_std与常见因子相关系数
注:1)统计时间为2013-01-14至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表43:全市场范围内表现较好的量价相关性因子分组年化超额收益统计
注:1)统计时间为2013-01-14至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
筹码分布
Text
筹码占比因子选股有效性优于筹码分布形状因子
筹码分布旨在刻画股票持有人的持仓成本分布情况,我们据此构建了筹码分布的标准差、偏度、峰度等因子,以及不同盈亏水平的筹码分布共12个因子,并检验了这些因子在不同选股范围内的有效性。
图表44:筹码分布因子构建方式
资料来源:中金公司研究部
doc_vol_pdf90_std、doc_vol_pdf95_std和doc_vol_pdf90bi_std因子在四个选股域中均具有良好有效性。基于相关性统计,我们大致将筹码分布因子分为以下两类:筹码分布形状因子和筹码占比因子。
► 筹码分布形状因子包括描述分布的二到四阶标准矩相关因子,即标准差(doc_std)、偏度(doc_skew)与峰度(doc_kurt),该类因子的有效性整体弱于筹码分布占比因子。其中,doc_skew_std因子相比其他筹码分布形状因子性能优势较为明显。在全市场范围内采用月度频率的调仓方式,其IC均值为-5.86%,ICIR均值为0.71;在沪深300中,其ICIR表现下降为0.29。
► 筹码占比因子包括收益率分组筹码头部占比(例如doc_vol50_ratio)以及分组筹码占比分位数(例如doc_vol_pdf90)两个子类。从预测方向来看,这类因子更多表现为反转的含义,且分组筹码占比分位数因子彼此间存在较高互相关性。从因子有效性角度来看,doc_vol_pdf90_std、doc_vol_pdf95_std和doc_vol_pdf80_std三个因子在四个选股域中均具有相对领先的表现。以doc_vol_pdf90_std为例,在全市场范围内,其ICIR表现为1.52,年化多空收益超过28%;在沪深300中,其IC均值为-5.6%,ICIR降为0.83。
综合来看,筹码占比因子整体表现优于筹码分布形状因子。其中doc_vol_pdf90_std、doc_vol_pdf95_std和doc_vol_pdf90bi_std因子整体表现优异,在不同选股域中均有着较强的预测能力和良好的单调性,值得关注。
图表45:筹码分布因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01)
图表46:筹码分布因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2013-01-14至2023-12-01)
Text
优选因子周度换仓表现
全市场范围内,筹码占比因子多空头收益表现较为突出。其中,doc_vol_pdf90bi_o和doc_vol_pdf95_o因子年化多空收益显著跑赢基线;doc_vol10_ratio_o和doc_vol5_ratio_o因子多头超额收益保持较快增速,其在2015年底出现小幅回撤。从单调性的角度来看,上述因子分组年化超额收益单调性良好,组间存在显著区分度。
图表47:全市场范围内表现较好的筹码分布因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表48:全市场范围内表现较好的筹码分布因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表49:doc_vol10_ratio_o与常见因子相关系数
注:1)统计时间为2013-01-14至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表50:全市场范围内表现较好的筹码分布因子分组年化超额收益统计
注:1)统计时间为2013-01-14至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
拥挤度
Text
拥挤度因子在不同范围内均有良好表现
本文拥挤度因子主要来自《资金结构系列(2)如何利用日内交易数据左侧预警机构成交拥挤度》的主要是机构投资者成交占比情况,原理是机构拆单下单形成的周期性可以被傅里叶变换后的更显著波形振幅占比捕捉,使用周期性成交占比表征机构参与度占比,该因子在个股和行业层面表现均较为优秀。该指标越高,说明股票中机构交易行为就越偏向拥挤,未来收益率下降的概率就越大。据此,我们构建了10个使用不同参数和方法构建的拥挤度因子,并进行有效性检验。我们对比了采用不同采样频率如30秒和3秒取样的区别,以及傅里叶变换是否补零产生的差异,发现上述两种参数对因子最终表现无显著影响。
图表51:拥挤度因子构建方式
资料来源:中金公司研究部
crowd_fftv50m10_std、crowd_fftv20_3s_w0_std和crowd_fftv50m5_std因子在多数选股域中均具有良好有效性。基于相关性统计和因子构建方式,大致将拥挤度因子分为以下两类:常规拥挤度因子、傅里叶处理的拥挤度因子。
► 常规拥挤度因子指代crowd_origin_v50因子,该因子相比另一类拥挤度因子在多个选股域中表现靠前。其中,crowd_origin_v50_std因子在全市场范围月度调仓频率下的ICIR为1.18,年化多空超额收益超过26%;在沪深300同样调仓频率中,该因子有效性有所下降,IC均值为-2.76%,ICIR为0.39。
► 傅里叶处理的拥挤度因子能够将股票交易的时间序列数据转化为频率统计数据,并筛选出显著的频率,包括crowd_fftv50等因子。其中,crowd_fftv20_3s_w0_std因子在全市场和中证1000范围内有效性较为显著,ICIR均超过1.30,年化多空收益超过20%。此外,crowd_fftv50m10_std因子在全市场、中证500和沪深300在内的选股域中都具有领先于其他拥挤度因子的有效性。全市场月度调仓频率下,该因子ICIR 为1.30,多空收益达到25.5%;在沪深300范围中,其IC均值为-3.51%,ICIR为0.54。
综上所述,crowd_fftv20_3s_w[ ]0_std和crowd_fftv50m10_[1]std因子总体表现较好,在多数选股范围内均具[7]有较强的选股能力,值得关注。
图表52:拥挤度因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表53:拥挤度因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内,crowd_fftv20_low_o因子的多空和多头超额收益表现较稳定且增长速度较快,收益能力明显优于其他拥挤度因子,且具有良好的因子单调性,多空分组间收益区分度清晰。然而,该因子与BP_LR因子的IC相关性超过0.5,与STD_1M和TURNOVER_1M因子的截面相关性接近0.5。此外,crowd_fftv20_high_o、crowd_origin_v50_std等因子也具有较好的多头超额收益表现。
图表54:全市场范围内表现较好的拥挤度因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表55:全市场范围内表现较好的拥挤度因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表56:crowd_fftv20_low_o与常见因子相关系数
注:1)统计时间为2018-01-08至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表57:全市场范围内表现较好的拥挤度因子分组年化超额收益统计
注:1)统计时间为2018-02-22至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
资金成交
Text
开盘占比因子总体相对有效
资金流因子反映了不同类型资金流向的信息,该类因子的核心思路是捕捉“聪明资金”的流向,采取跟随策略,以期获得基本面改善带来的超额收益。我们利用盘口数据和k线数据,构建了13个资金流因子,并在不同范围内分别进行月度和周度调仓的有效性检验。
图表58:资金流因子构建方式
资料来源:中金公司研究部
trade_headRatio_std和trade_top20retRatio_m因子在全市场选股中相对其他资金流向因子有效性较高。我们基于相关性统计以及因子构建逻辑,大致将资金流因子分为以下三类:交易单量资金流向因子、开盘/尾盘资金流向因子和收益率成交占比因子。
► 交易单量资金流向因子包括trade_CBuyRatio、trade_Cratio和trade_CSellRatio因子。从因子有效性角度来看,其整体表现不如其他两类因子。在全市场范围内,trade_CSellRatio_z因子在月度和周度两种调仓频率下表现均相对更好,它具有正向预测能力,ICIR表现分别为0.40和0.36;在沪深300中,trade_CBuyRatio_z因子相对更为有效,其在两种调仓频率下的年化多头超额分别为3.7%和4.7%,具有负向的预测效果。
► 开盘/尾盘资金流向因子指的是上午10点前和下午14点30后的资金流向所构建的因子,包括trade_headRatio、trade_netBuyRatio和trade_bidAskRatio等因子。从因子有效性角度来看,开盘资金流向因子有效性多强于尾盘资金流向因子,trade_headRatio_std因子相比其他开盘/尾盘资金流因子在全市场的有效性表现良好,周度调仓频率下其ICIR为0.92,年化多空收益可达24.9%。
► 收益率成交占比因子包括trade_top20retRatio、trade_top50retRatio等,这类因子彼此间存在较高相关性。从因子有效性角度出发,trade_top20retRatio_m相对其他资金流向因子具有更有效的表现。在全市场范围内采取月度调仓频率,其ICIR为0.90,IC均值为
-5.23%。
综上所述,资金流向因子中的trade_headRatio_std和trade_top20retRatio_m因子在全市场范围内较为有效。但该类因子整体选股有效性一般。
图表59:资金流因子在全市场范围内月度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
图表60:资金流因子在全市场范围内周度回测的有效性检验结果(ICIR>0.5)
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
优选因子周度换仓表现
全市场范围内,trade_topNeg20Ratio_o和trade_headRatio_std等因子多空和多头超额表现较好,均显著跑赢基线,且单调性较为良好。然而,trade_topNeg20Ratio_o因子与常见因子如Momentum_1M、DP、STD3_1M、TURNOVER_1M存在一定相关性,IC相关性统计结果在0.5左右的水平。
图表61:全市场范围内表现较好的资金流因子年化多空收益统计
资料来源:Wind,中金公司研究部
图表62:全市场范围内表现较好的资金流因子年化超额收益统计
资料来源:Wind,中金公司研究部
图表63:trade_topNeg20retRatio_o与常见因子相关系数
注:1)统计时间为2018-01-08至2023-12-01;2)相对净值的比较基准为全市场等权
资料来源:Wind,中金公司研究部
图表64:全市场范围内表现较好的资金流因子分组年化超额收益统计
注:1)统计时间为2018-01-08至2023-12-01;2)超额收益的比较基准为全市场等权;3)Group0为因子值最小一组,Group9为因子值最大一组
资料来源:Wind,中金公司研究部
价量复合因子
Text
价量复合因子兼顾收益与稳定性
我们取前文分析的各类因子中,选股效果较好的因子,按同类型因子等权合成的方式,构建了8个复合因子。复合因子的具体构建方式如下表所示,复合因子合成过程中,我们对因子的方向进行了调整,使各个复合因子均与下期收益率正相关。
图表65:价量复合因子构建方式
资料来源:中金公司研究部
月度频率下syn_corr_o和syn_crowd_o因子在全市场选股中相对其他因子有效性较高,其中全市场范围内syn_corr_o因子有效性更强,ICIR达1.23。周度频率下syn_crowd_o和syn_mmt_o因子表现较优。其中,syn_mmt_o因子有效性更强,ICIR为1.1,多空收益为64.2%。而syn_crowd_o因子的收益预测能力更佳,其多空收益达69.9%,多头超额11.1%,相对优于其他复合因子。
图表66:价量复合因子在全市场范围内月度和周度回测的有效性检验结果
资料来源:Wind,中金公司研究部(注:统计时间为2018-01-08至2023-12-01;超额收益的比较基准为有效股票池等权表现)
Text
复合因子展示
全市场范围内,大部分复合因子单调性良好,多头稳定。综合波动率和综合筹码分布相关系数较高,可能因为筹码分布的成交量占比价差概念也能从另一种角度表征市场价格变化幅度这一概念。
图表67:全市场范围内复合因子年化多空收益净值
资料来源:Wind,中金公司研究部
图表68:全市场范围内价量复合因子年化超额净值
资料来源:Wind,中金公司研究部
Source
文章来源
本文摘自:2024年1月15日已经发布的《量化多因子系列(12):高频因子手册》
分析员 周潇潇 SAC 执业证书编号:S0080521010006 SFC CE Ref:BRA090
分析员 郑文才 SAC 执业证书编号:S0080523110003 SFC CE Ref:BTF578
联系人 陈宜筠 SAC 执业证书编号:S0080122080368 SFC CE Ref:BTZ190
分析员 胡骥聪 SAC 执业证书编号:S0080521010007 SFC CE Ref:BRF083
分析员 古 翔 SAC 执业证书编号:S0080521010010 SFC CE Ref:BRE496
分析员 刘均伟 SAC 执业证书编号:S0080520120002 SFC CE Ref:BQR365
Legal Disclaimer
法律声明
本篇文章来源于微信公众号: 中金量化及ESG