时序信息中的Alpha—高频研究系列六

admin1年前研报3862

导读






  • 2022年以来,兴证金工团队先后推出了阐述高频研究方法论的《高频漫谈》,以及3篇高频因子深度研究。在高频漫谈中,我们阐述了高频因子的构建逻辑、因子的回测方法以及高频风险的识别。在后续三篇高频因子研究报告中,我们构建了约27个分布信息因子,其中不乏多个思路新颖、具有较强特异性的分布信息因子。

  • 本文中,我们将聚焦于时序信息,从序列自相关性与条件分布两个角度出发,构建了七类高频时序信息因子。在序列自相关性角度,我们基于一阶信息刻画基础高频因子,并基于高阶相关性刻画了个股的非同步交易程度因子。在条件分布中,我们以高波下日内收益率均值因子阐明该方法论的有效性,又进一步构建了股价自相关性下的VaR以及“闪电崩盘”概率因子。

  • 七类因子均展示出极强的选股能力:以rtn_condVaR(股价自相关性下的VaR)为例进行阐述:该因子日度Rank IC均值为4.01%,多空收益率约为44%,多头收益率约为21%,夏普比率约为5.7。

  • 进一步等权合成构建时序信息复合因子:我们以周度和月度换仓的形式,测试其在全市场等多个股票池内的表现。复合因子在全市场内周度Rank IC均值为6.64%,ICIR为0.98;月度Rank IC均值为8.07%,ICIR为1.32。周度测试下因子多头组合年化收益率为26.7%,同期基准为10.8%,多空夏普比率为4.91。因子在不同股票池内的表现同样优秀。

风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险。

1、高频研究回顾与时序信息因子研究框架

1.1

高频研究回顾

2022年以来,兴证金工团队先后推出了阐述高频研究方法论的《高频漫谈》,以及《收益率分布因子》、《收益率分布中的Alpha(2)》与《成交量分布中的Alpha》高频因子深度研究。在高频漫谈中,我们阐述了高频因子的构建逻辑、因子的回测方法以及高频风险的识别。该篇也是我们整个高频系列的基础篇和框架篇,后续所有的研究均建立在此基础上。据此我们介绍了四类高频指标的信息:分布信息、时序信息、关联信息与另类信息。在后续三篇高频因子研究报告中,我们基于量价数据,构建了约27个分布信息因子,其中不乏多个构建思路新颖、具有较强特异性的分布信息因子。目前所有因子均实现日度“T+0”更新,并上传至云端数据库供下载。本文中,我们将聚焦于第二类信息—时序信息

1.2

时序信息简析与因子回测说明

有效市场假说(Efficient Markets Hypothesis,EMH)是由美国著名经济学家尤金·法玛(Eugene Fama)于1970年提出并深化的理论。在弱式有效市场中,市场价格已充分反映出证券价格的所有过去历史信息,包括股票的成交价、成交量、卖空金额、融资金额等。如果弱式有效市场假说成立,则股票价格的技术分析失去作用,基本面分析也无法帮助投资者获得超额利润。然而,对于A股市场而言,目前主流观点认为市场并未达到弱式有效市场。对于流动性资产(如股票)而言,过去一段时间内的量价信息并不完全反映所有的过往信息。因此,该流动性资产前后信息的关联程度,以及在已知前序信息的基础上样本数据特征,则是衡量其是否近似为弱式有效市场的重要维度。

在高频漫谈中,我们详细阐述了提取日内数据总体分布信息的四种方法。其中,我们定义时序信息需要满意下述定义

其中,data为日内的行情数据,如分钟级收盘价、成交量等。指标g对于时序重排序函数Reorder敏感,数据在时序上的变化会影响指标值,如收益率自相关性ρ(rt, rt-1)依赖于收益率序列的排序,重新排列收益率序列后,指标值会发生变化。在此基础之上,我们衍生出基于时序信息相关因子。在本文中,我们将时序信息因子分为两类构建方式:序列自相关性与条件分布。

具体来说,时序自相关性是指时间序列中某一个时刻的值和另一个时刻的值之间的相关性,通常作为最为直观的时序信息统计量。在金融领域,学者们普遍认为资产收益率序列存在较强的自相关性与异方差性。为了同时考虑收益率的线性自相关性与方差之间的相关性,常见的GARCH模型被用作时间序列模型。本文中,我们针对时序自相关性,引入假设检验和相关系数/拟合程度两种统计量,以衡量日内时序数据自相关性的显著性与相关大小。此外,在非弱式有效市场的背景下,市场和个股内外部条件的变化使得收益率的统计分布特征发生变化,如之前提及的异方差性。对于日内收益率而言,其自身的非独立同分布特征更加明显(具体可参见报告《高频研究系列二—收益率分布因子构建》)。因此,我们在本文中引入条件分布,通过日内过去一段时间的量价信息特性对样本数据进行筛选和重塑,进一步计算筛选之下的样本数据统计特征。

为了更好体现高频因子对于短期行情信息把握的优势,我们采取日频调仓的方式测量因子收益率。具体来说,FDi是第i天日频调仓因子,Fj是第j天的高频指标,ns取15

除此之外,我们也可以在时序上取标准差的方式构建因子,以衡量个股在该指标上的离散程度。

在本文中如无额外说明,我们因子的回测规则设定如下:

  1.  因子回测区间:2014年9月1日—2023年5月4日;

  2. 回测规则:剔除当期不在市、涨跌停以及特殊处理的股票;

  3. 回测结果说明:本文中,回测表格中提及的年化波动率、夏普比率、最大回撤、胜率均为因子回测时的多空净值对应统计量,多头换手率为多头组的单边换手率,且我们这里的多空是两分组并按照因子值进行加权(参见《高频漫谈》)。

本文的结构如下:

  1. 我们首先聚焦于时序自相关性,从三个维度基于日内时序数据的一阶自相关性刻画因子,进一步从高阶时序稳定性的角度刻画个股的非同步交易性,进而构建因子;

  2. 其次,我们聚焦于条件分布,首先以高波动率下的收益率均值角度,引入条件分布的常见刻画方式,并表明该方法可以刻画出具有特异性的因子;

  3. 进一步,我们从股价相关性VaR和“闪电崩盘”两个角度构建两类时序信息因子;

  4. 最后,我们进行中性化与相关性检验,并进一步合成高频时序信息复合因子,并在周度和月度层面测试其在不同股票池内的表现。

2、时序自相关性基础因子

2.1

因子构建

前文提及,金融领域的时间序列通常存在着较强的自相关性。其中,一阶自相关性是最为基础和直观的统计量之一。在实际应用中,投资者或学者们通常通过计算相关系数和假设检验来判断时间序列的一阶自相关性是否显著。在本节中,我们同样以上述两个角度,衡量与构建日内数据的一阶相关性统计量。我们引入的数据分别是分钟级收益率与分钟级成交量占比。同时,由于个股在开盘和收盘阶段的量价信息波动较大,因此,我们均剔除了开盘和收盘10分钟数据。此外,对于每一类因子,我们均等权合成基于收益率和成交量占比构建的因子,作为该类的复合因子。

  • 一阶自相关系数

首先,我们基于量价两个维度的时序数据,计算分钟级时序数据的一阶自相关系数,用于判断时序数据的前后相关性。以分钟级收益率数据为例,我们计算个股日内收益率序列的一阶差分相关系数作为高频指标,并进一步计算个股过去15日指标的均值作为最终的因子值。因子排序为升序。
  • D-W统计量

D-W检验是统计分析中常用的一种检验序列一阶自相关的方法。我们直接计算收益率与成交量占比时序数据的D-W统计量,其统计量的绝对大小可以判定时序数据是否存在自相关性,以及相关性的正负性。以分钟级收益率数据为例,我们计算个股日内收益率序列的D-W统计量作为高频指标,并进一步计算个股过去15日指标的均值作为最终的因子值。因子排序为降序。

  • 残差自相关系数

上述分析中,我们仅检验日内时序数据的一阶自相关性。然而,对于分钟级数据而言,自身本身可能存在着高阶相关性。在高阶自相关性存在的情况下,以AR(1)作为模型的残差将具有自相关性,使得线性回归模型相对失效。在此角度之下,我们尝试测试时序数据在AR(1)模型下的残差一阶自相关回归模型的系数。我们进一步计算个股过去15日指标的标准差作为最终因子值。因子排序为升序。

2.2

因子表现

我们首先测试上述9个因子的表现。首先从日度IC测试结果上看,绝大多数的常见时序信息因子IC均值在4%以上,表现出较好的股价预测能力。此外,三类复合因子的表现更为优秀,以foc_Comb为例,该因子的日度Rank IC均值为6.85%,ICIR为0.76,有效性较强。

从日度组合测试结果上看,我们构建的常见时序信息因子的表现均相对优秀,大多数因子的多空夏普大于4,三类复合因子的表现更为为优秀。具体来看,从多空组合测试上看,vol_foc因子的多空收益率在67%左右,多头收益率高达29%,夏普比率在9.6左右。

从多空净值曲线上看,各个因子的多空净值长期呈现上升趋势,且最近几年无明显回撤,表现十分稳定。

3、个股的非同步交易性与高阶自相关性

在前文中,我们从自相关性的相关系数与假设检验的角度出发,构建了三类常见的时序信息因子,其重点主要聚焦在对日内时序信息的一阶自相关性的分析上。结果表明,各类因子具有较好的选股能力。

上文更多是从数据统计的角度出发。在本章中,我们基于股票对于信息到来以及股价反应速度不一致导致的非同步交易特性,从时序的高阶相关性角度出发,构建时序信息中,自相关性的特异性因子。

3.1

股票市场的非同步交易性

在有效的证券市场上,每一只证券的价格都应该迅速反映影响其自身价格的信息(来自于市场、交易情绪等)。但现实中,市场总是存在着一定的交易摩擦、投资者的预期也往往有一定程度的刚性:信息到达市场中不同投资者的时间会存在不同程度的差异、知情交易者的参与程度等等原因。这些原因往往会导致有些证券对信息的反应出现时滞,且在任一分钟内,不同投资者做出的交易决策并不基于相似的信息,导致当前时刻下的交易信息混杂,最终导致股价波动较大。这一现象在学术界可以类比于非同步交易

对于某一证券而言,信息的透明程度与个股的流动性是两个决定证券非同步交易程度的重要因素。较多的知情交易者在获得了来自市场、公司和情绪面等多种信息后将做出异于非知情交易者的交易,高频次、不同信息来源的知情交易者导致股价波动较大,提高了非同步交易的程度;此外,流动性较低的股票往往代表着股票日内的价格发现过程相对低效,股价波动的随机性较小。从时序相关性的角度上看,流动性差的股票吸收交易冲击和从冲击中恢复的能力较差,导致价格更加容易出现异于正常股价波动的趋势性走势,这进一步放大了非同步交易的程度。

3.2

非同步交易程度与高阶时序稳定性

因此,本质上来说,非同步交易是在衡量股票日内的信息丰富度以及对于信息的消化速度:信息丰富度高的股票,其当期股价可能与过去较长一段时间的信息均有关联,表现为在不同回望区间下,高阶相关性的显著性均较高。此外,个股信息消化速度的快慢反映为在不同回望区间下,股票是否都具有较高的相关性。若消化速度较差,说明更长的时段内,股价的高阶相关性显著性将逐步提升。综上,我们可以从时间序列的高阶相关性为出发点,刻画个股的非同步交易程度。

在具体计算层面,我们类比于ACF检验,引入多次LB检验来衡量个股在不同时间区间内高阶相关性的显著性与稳定性。我们计算LB检验中Q统计量序列的标准差,若标准差较大,说明不同回望区间下,Q统计量大小差异较大,通常表现为较短的回望区间内Q统计量远小于较长回望区间内的Q统计量。因此,该股的信息丰富度较高,过去一段时间内的信息仍可以显著作用于当期的行情变动;此外,消化速度较差的股票其Q统计量数值的较大,进一步放大了长短回望区间下的Q统计量差异。因此,对于Q统计量序列标准差而言,其逻辑特征如下。

以上述逻辑为基础,我们找出在某日Q统计量序列标准差值较大与较小的股票,对比其股价走势。其中,左侧为当日标准差较高,即非同步交易程度较高的股票,右侧则为非同步交易程度较低的股票。两者在当日的价格走势相近,都存在着先小幅下跌,再上涨后收盘的走势。对比后我们可以发现,左侧本身的流动性逊于右侧,其部分时间段股价并未波动。此外,右侧的股票在上涨阶段的波动较为剧烈,在短时间大幅上涨,左侧则近似于缓步上涨。我们推测:左侧由于自身的关注度较低,且知情交易者占比偏高,当日该股股价被多次少量的冲高,其信息源可能来自于早期的某一时刻,多数投资者对于当日信息的解读与操作时间节点不一致,或者知情交易者通过多次少量交易隐藏自己的交易行为,导致非同步交易程度较大;右侧在当日出现大幅度的价格抬升,这或许是由于当日该股关注度较高,知情交易者占比较小,同时多数交易者在同一时间基于相近信息做出交易,导致价格波动较大。因此,我们认为Q统计量序列标准差可以从某一角度刻画股票的非同步交易性。

在具体计算维度,我们同时以分钟级收益率和分钟级成交量占比作为时间序列数据,统计其在量和价上的高阶稳定性,并最终取时序上15日均值作为最终因子,分为叫做rtn_LBQ与vol_LBQ。均值越大,说明该股的非同步交易程度越高,个股在低流动性下股价被操纵的可能性较高,下行风险较高。此外,我们延续上一章节的想法,等权合成两个因子,记为LBQ_Comb。

3.3

因子表现

从日度IC测试结果上看,非同步交易性因子表现较好,其中以成交量占比构建的因子更为出色,Rank IC均值为5.28%,ICIR大于0.5,表现出较好的股价预测能力。

从日度组合测试结果上看,非同步交易性因子的表现十分优秀,多空夏普均较高,且无明显回撤,多头收益率较高,基于成交量序列构建的LBQ因子优于基于收益率构建的因子。具体来看,从多空组合测试上看,LBQ_Comb的多空收益率在49%左右,多头收益率约为23%,夏普比率在6左右。

从多空净值曲线以及分位数组合测试结果上看,LBQ_Comb因子的多空净值长期呈现上升趋势,且最近几年无明显回撤,表现十分稳定。

4、条件分布基础因子

4.1

条件分布方法简述—以高波收益率均值为例

在前序章节中,我们从时序自相关性的角度出发构建了多类因子。在之后的篇幅中,我们将从条件分布的角度出发,从基础因子逐步延伸至两个特异因子。

长期以来,在大多数研究中,流动性资产的收益率分布均假设其服从正态分布。然而,其假设大多建立在市场为有效市场的背景之下。在非弱式有效市场的背景之下,市场和个股内外部条件的变化使得收益率的统计分布特征发生变化。对于日内收益率而言,其自身的非独立同分布特征更加明显(具体可参见报告《高频研究系列二—收益率分布因子构建》)。因此,我们在本章中引入条件分布,以此假设日内收益率在一定已知条件下服从某一分布。举例来说,我们可以假设收益率在一定条件下服从正态分布。

因此,在条件分布的基础上,对于已知条件的刻画以及对于分布的假设便是提取时序信息构建相关因子的重要步骤。条件分布类因子本质上基于过去一段时间的数据特征,对高频样本数据进行分类、筛选或重构,并进一步刻画新构建的数据特征。在本章中,我们以已实现波动率作为条件,计算各个分钟节点过去30分钟的5分钟滚动收益率标准差,并筛选出标准差处于日内该股80%分位数以上的时间节点,并统计该时间节点中5分钟滚动收益率的均值,最终构建因子highStdRtn_mean。

4.2

高波收益率均值因子表现与分析

细心的读者可能会发现,该因子与此前构建的常见收益率分布因子—5分钟滚动收益率rtn5_mean因子相近。两者在构建方式上几乎一致,仅是高波收益率均值因子在样本选择上有所筛选,这也是条件分布的重点。我们对比发现,两者的相关性仅0.61,且与底层其他所有高频因子的相关性均低于0.6。在测试中,我们也将该因子与5分钟滚动收益率因子进行正交化处理,记为highStdRtn_meanN,并进行回测测试。经过正交化后的因子与底层所有高频因子的相关性最高仅0.35。

从日度IC测试结果上看,highStdRtn_mean因子表现较好,Rank IC均值为3.34%,ICIR为0.72,表现出较好的股价预测能力。经过rtn5_mean正交化后的因子保持着较好的选股能力,ICIR为0.41

从日度组合测试结果上看,highStdRtn_mean因子的表现同样优秀。具体来看,从多空组合测试上看,该因子的多空收益率在41%左右,多头收益率约为14%,夏普比率在7左右。此外,经过rtn5_mean正交化后的因子仍保持着较好的选股能力,其多空的夏普比率约为4.8。因此,我们认为:只要选择有效且适合的条件进行筛选,同样的统计量也能提取日内高频数据不同的数据特征,进而构造出具有一定特异性的因子。

5、考虑股价自相关性的风险度量因子

在上一章节中,我们简单介绍了条件分布下的因子构建逻辑,并以高波收益率均值因子作为样例,表明即使是相同的统计量,使用不同的筛选条件也能构造出具有一定特异性的因子。在本章中,我们引入股价的自相关性,通过考虑自相关来修正目前的风险度量指标VaR,并由此构造在股价自相关性显著的条件下的VaR因子

5.1

股价自相关性和VaR推导

无论是在学术界还是投资界,如何度量风险都是难以绕开的问题。VaR(Value at Risk)便是其中一种最为常见的度量方式。其通常指在一定的假设以及给定的置信区间内,投资组合在既定的时期内可能遭受的最大价值损失。其核心功能是针对流动性资产的风险度量。在往期的报告中,我们就曾参考VaR的定义,构建了极值收益率分布因子,详见报告《高频研究系列三—收益率分布中的Alpha(2)》。

然而,对于基础的VaR定义而言,其假设流动性资产的收益率在某一时间段内服从正态分布,并进一步假设流动性资产的价格波动是随机的,不存在自相关性。然而,在此前的报告中我们也提及,收益率在不同的时间区间内,尤其是在日内极容易偏离正态分布。此外,在实际计算中我们也发现,对于日内股票价格序列而言,其价格的自相关性相对显著。因此,若以VaR作为股票日内价格波动的风险度量可能并不准确。在本章中,我们将假设价格序列存在自相关性,即股价波动并不随机的情况下,通过二元正态分布刻画日内的个股VaR值,并最终构建因子。

具体来说,我们首先假设股票价格服从以下分布

其中,Pt+n为未来时刻的股票价格,Pt为当前时刻的股票价格。我们设置n=1,即价格时差为1分钟。由于需要考虑到分钟级股价存在自相关性,我们进一步假设其lnPt+1lnPt之间的相关系数为ρ。

在此基础之上,我们假设(lnPt+1lnPt)服从二元正态分布,且两者具有一样的均值和标准差。由此,我们可得

基于上述推导,我们可以知道:假设自相关的绝对值相同的情况下,自相关为正(趋势性更强)且收盘价小于当日均价的股票可能处于下行通道,风险较大;自相关为正(趋势性更强)但收盘价大于当日均价的股票可能处于上行通道,风险较小;反之,自相关为负(反转性更强)且收盘价小于当日均价的股票可能处于向上反弹通道,风险小;自相关为负(反转性更强)但收盘价大于当日均价的股票可能处于向下反弹通道,风险大。

计算得到个股每日的股价相关性VaR之后,我们取时序上15日标准差作为最终因子,叫做rtn_condVaR。标准差越大,说明该股过去一段时间内的风险不稳定性越高,个股下行风险较高。


5.2

因子表现

从日度IC测试结果上看,股价相关性VaR因子表现较好,Rank IC均值为4.01%,ICIR大于0.5,表现出较好的股价预测能力。

从日度组合测试结果上看,股价相关性VaR因子的表现十分优秀,因子的多空收益率在44%左右,多头收益率约为21%,夏普比率在5.7左右。

从多空净值曲线以及分位数组合测试结果上看,股价相关性VaR因子的多空净值长期呈现上升趋势,且最近几年无明显回撤,表现十分稳定。

6、“闪电崩盘”、连续下跌和“崩盘概率”因子

前序文章中,我们简单介绍了条件分布下的因子构建逻辑,并以高波收益率均值因子作为样例,表明即使是相同的统计量,使用不同的筛选条件也能构造出具有一定特异性的因子。此外,我们引入股价的自相关性并构造在股价自相关性显著的条件下的VaR因子。在本章中,我们从“闪电崩盘”的角度出发,通过观察“闪电崩盘”的特征,设置前一时刻收益率的正负性异构得到个股日内连续上涨/下跌次数的样本数据,并进一步构建出“崩盘概率”因子。

6.1

“闪电崩盘”现象简析

闪电崩盘的概念在2010年起开始逐步受到重点关注。最为著名的例子便是2010年5月6日美股的“千点大跌”事件。在当日下午2点42分至47分,道琼斯指数下跌约1000点。现如今,对于当时出现崩盘的原因众说纷纭,但不可否认的是,闪电崩盘对投资者心理和交易行为带来的负面影响是极大且深远的。至此,闪电崩盘开始迅速进入市场投资者的眼中。

如今,闪电崩盘通常指流动性资产的价格在日内短时间出现大幅超跌,同时后续允许价格出现恢复,即在日内出现深“V”的价格走势。在A股市场中同样存在着这样的价格走势,尤其是在2022年以来市场出现大幅回调的时期。以300659.SZ 2023年3月31日的价格走势为例,当日该股开盘约32元,在10点半左右,该股收盘价跌至28.58元,相对于9点30分收盘价跌幅达8.63%。此后股价攀升并持续震荡,最终价格收于30.2元。不难看出,当日便是相对明显的价格深“V”走势,这便是接近于“闪电崩盘”的一个交易日样例

虽说“闪电崩盘”通常伴随着价格后期的恢复,然而,其出现时在日内造成的恐慌情绪则不可小觑。因此,本文将通过对日内连续下行收益率进行特征刻画,来衡量个股“崩盘”的概率,进而构造因子。

6.2

连续下跌和泊松分布下的“崩盘”概率因子

在上述对于闪电崩盘的刻画中我们发现:在日内出现闪电崩盘时,日内的分钟级别收益率大多会出现多次的连续负数。我们将该现象刻画为:分钟级别的连续下跌次数。以2022年3月9日的沪深300指数的价格走势为例,当日沪深300指数在11:22至11:29的8个分钟内,分钟级别收益率连续为负,跌幅为-0.5%。同时,日内多次出现类似的情况,如9:53至9:57;10:35至10:39等。我们统计了当日连续下跌次数的样本值,具体计算方式为:

  1. 按照时间顺序逐个寻找:若一个分钟级收益率为负数,则开始统计连续分钟收益率为负数的个数,直至下一个收益率非负,则停止计数,该个数则为一个连续下跌次数的样本点;

  2. 跳过之前被计数的分钟收益率样本点,继续寻找负数分钟收益率并按照步骤1计数,直至当日无未统计的分钟收益率。

我们假设日内分钟级收益率连续上涨和下跌次数(连续上涨的统计方式与下跌类似,只是将负数收益率改为正数收益率)出现的概率近似服从泊松分布,此外,一段时间内连续下跌趋势越明显,未来市场的波动率也越大。因此,若当日连续下跌次数相对较多,则未来价格在日内大概率会出现连续下跌的次数较多、跌幅较大、且波动率较大的特性。因此,我们可以基于日内的收益率样本数据,来估计未来连续下跌次数相对于连续上涨次数的大小,若连续下跌与连续上涨的差异较大,未来出现闪电崩盘的概率则较大。由此,我们的计算方式如下:

最终,我们计算个股过去15日“崩盘”概率的标准差,记为flashCrashProb因子。标准差越大,说明该股下行风险较高,预期收益较低。

6.3

因子表现

从日度IC测试结果上看,“崩盘”概率因子表现良好,Rank IC均值为1.65%,ICIR约为0.3,表现出一定的股价预测能力。

从日度组合测试结果上看,“崩盘”概率因子的表现十分优秀,因子的多空收益率在25%左右,多头收益率约为13%,夏普比率在5.2左右。

从多空净值曲线以及分位数组合测试结果上看,“崩盘”概率因子的多空净值长期呈现上升趋势,且最近几年无明显回撤,表现十分稳定。

7、相关性检验与时序信息复合因子

7.1

时序信息因子正交化处理与相关性检验

由此,我们从时序相关性和条件分布两个角度,最终构建了7个时序信息因子,具体定义如下。在本节中,我们首先测试下述7个因子与兴证金工团队底层多个高频因子的时序相关性,并与底层相关性最高的因子进行正交化处理,保证正交化后的时序因子的最高相关性约在0.6以下。在测试中发现,“闪电崩盘”概率因子的相关性本身较低,最高相关性仅0.4,不需要进行正交化处理。

首先我们展示各个因子正交化后,与底层高频因子的相关性。从结果上看,经过正交化后各个因子的时序相关性均降低至0.6以下,其中残差自相关系数、高波收益率均值等因子的相关性较低,最高相关性在0.5以下。

从日度IC测试结果上看,经过正交化后各个因子仍保持着较好的选股能力。其中,一阶自相关系数、非同步交易程度与D-W统计量因子的Rank IC均值较高,几乎都在3%以上。

从日度组合测试结果上看,“经过正交化后各个因子的组合测试结果优秀,几乎所有因子的多空夏普比率大于3。其中,部分因子在正交化后的夏普比率和多空年化收益率保持优秀。以非同步交易程度LBQ因子为例,该因子的多空年化收益率为34%,多头年化收益率约为19%,多空夏普比率为6.4。此外,一阶序列相关系数因子的多头年化收益率约为27%。

7.2

时序信息复合因子构建与测试

最后,我们尝试基于本文最终推荐的七个高频时序因子,构建时序信息复合因子,并在多种股票池内进行周度和月度换仓的测试,以测试高频因子在中低频换仓和不同股票池内的表现。在合成之前,我们先测试这七个因子的相关性。从测试结果上看,各个因子的时序相关性较低,最高为0.5。这从侧面反映出我们构建的因子在不同的角度提取了高频数据中的时序信息。

我们等权合成上述七个因子,记为时序信息复合因子。我们首先以周度换仓的形式,测试其在全市场、沪深300、中证500、中证800、中证1000与国证2000里的表现。具体地,我们在各个股票池进行Rank IC和分位数组合测试。其中,在沪深300、中证500与中证800中我们进行五分位组合测试,其余进行十分位组合测试。

首先展示时序信息复合因子周度调仓的Rank IC测试结果。从测试结果上看,该因子表现十分优秀,尤其是在中小盘股票池内。具体来说,该因子在全市场内周度Rank IC均值为6.64%,ICIR为0.98。此外,因子在中证1000与国证2000内的表现十分出色,ICIR接近或超过1

从复合因子的周度分位数组合测试结果上看,该因子在不同的股票池内均呈现出明显的单调特征,且多头组合均明细战胜基准,除沪深300对应测试,其多空组合的夏普比率均大于1。具体来看,该因子在全市场十分位组合测试中,多头组合年化收益率为26.7%,同期基准为10.8%,多空夏普比率为4.91。此外,该因子在国证2000内的多空夏普比率为5.35,在中证1000内的多空夏普比率为4.18,因子在中小盘股票上的表现优秀。

我们进一步展示时序信息复合因子月度调仓的Rank IC测试结果。从测试结果上看,该因子表现同样优秀,尤其是在中小盘股票池内。具体来说,该因子在全市场内月度Rank IC均值为8.07%,ICIR为1.32。此外,因子在中证1000与国证2000内的表现十分出色,ICIR均超过1。

从复合因子的月度分位数组合测试结果上看,该因子在不同的股票池内均呈现出明显的单调特征,且多头组合均明细战胜基准,除沪深300对应测试,其多空组合的夏普比率均大于1。具体来看,该因子在全市场十分位组合测试中,多头组合年化收益率为17.6%,同期基准为7.9%,多空夏普比率为3.28。此外,该因子在国证2000内的多空夏普比率为3.42,因子在中小盘股票上的表现优秀。

风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险。

市场微观结构剖析—高频研究系列五

成交量分布中的Alpha—高频研究系列四

收益率分布中的Alpha(2)—高频研究系列三

收益率分布因子构建—高频研究系列二

高频漫谈

注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。

证券研究报告:《高频研究系列六—时序信息中的[文]Alpha》

对外发布时间:2023年6月29日

报告发布机构:兴业证券股份有限公司(已获中国[章]证监会许可的证券投资咨询业务资格)

----------------------[来]----------------

分析师:郑兆磊

SAC执业证书编号:S01905200800[自]06

E-mail: [email protected].[1]cn


----------------------[7]----------------


更多量化最新资讯和研究成果,欢迎关注我们的微[量]信公众平台(微信号:XYQuantResea[化]rch)!


自媒体信息披露与重要声明

本篇文章来源于微信公众号: XYQuantResearch

本文链接:https://kxbaidu.com/post/%E6%97%B6%E5%BA%8F%E4%BF%A1%E6%81%AF%E4%B8%AD%E7%9A%84Alpha%E2%80%94%E9%AB%98%E9%A2%91%E7%A0%94%E7%A9%B6%E7%B3%BB%E5%88%97%E5%85%AD.html 转载需授权!

分享到:

相关文章

“卫星导航”等概念热度明显上升

“卫星导航”等概念热度明显上升

股票概念异动信号跟踪周报20230716在投资标的数量日趋增加的环境下,投资者无暇对所有的股票进行跟踪研究,以因子投资、概念投资为代表的降维投资方式越来越受到市场的广泛关注。为了方便投资者对出现概念异...

中金|2023年共230个定增项目完成发行

中金|2023年共230个定增项目完成发行

Abstract摘要2023年项目发行:共230个定增项目完成发行2023年共230个定增项目完成发行,定增发行节奏有所放缓。按发行公告日统计,2023年完成发行的竞价类定增项目数量为230,较上一年...

招商定量 | 成长表现回暖,小盘风格持续强势

招商定量 | 成长表现回暖,小盘风格持续强势

投资要点过去一周因子表现综述从价值成长维度来看,成长迎来反弹,表现相对占优,与此同时价值同样可圈可点。价值因子中的未来12个月的预期市盈率(EP_Fwd12M)、营业收入公司价值比(Sales2EV)...

量化私募周报 | 6月最后一周私募超额收益较强,上半年平稳收官

量化私募周报 | 6月最后一周私募超额收益较强,上半年平稳收官

提 要今年以来,由于行业竞争逐步白热化,量化私募资管产品获取超额收益的难度增加,相较于前三年夸张的超额收益,如今表现趋于稳定。上半年最后一周(6月26日到6月30日)表现平稳,大部分来量化私募取得了超...

乘新能车发展浪潮,锂电池产业布局正当时

乘新能车发展浪潮,锂电池产业布局正当时

我国既是全球最大的新能源车市场,也是全球重要的新能源车制造大国。在我国“双碳”政策的有利推动下,高速发展仍然是新能源车产业的主基调。电池作为电动车的核心部件,是整个产业链上的明珠,在相应产业链的崛起过...

量化专题 | 成长股估值波动的逻辑

量化专题 | 成长股估值波动的逻辑

报告探讨的问题报告主要做了三件事情。1)说明为何要研究估值波动的逻辑,以及研究过程中涉及到的股票收益分解有哪些方法?2)提炼了成长股估值波动逻辑的理论框架,可以分为三个阶段:拔估值阶段、业绩消化估值阶...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。