高频风险模型构建与应用—高频研究系列七

admin1年前 (2023-11-01)研报1571

导读

现如今，大量投资组合均在其Alpha模型中加入由日内数据所构建的选股指标或信息。然而，常见的风险模型大多以基本面指标作为主要的风险因子，难以对加入高频信息的资产组合风险进行衡量、分析与应用。本文的核心目标是以加入高频信息的资产作为对象构建风险模型，并加以分析与应用。
在结构化高频风险模型的构建上，我们以兴证金工高频因子作为资产，从自上而下和自下而上两个角度出发，构建了基本面高频风险因子以及统计风险因子，并由此构建结构化高频风险模型：高频风险因子符合风险因子的基本特征，且与Barra风险因子的相关性较低，高频风险模型的解释力度相对于Barra风险模型更强。
在结构化高频风险模型的应用上，我们基于高频风险模型估计高频因子多头或多空组合的协方差矩阵，进而通过最大化组合夏普的方式构建高频复合因子：在与基于Barra构建的复合因子的比较上，基于高频风险模型构建的复合因子表现明显更为优秀，全市场Top组年化收益率接近50%，基准方法年化收益率为38.5%，因子多空组合夏普比率为8.08；因子在不同股票池内分位数均严格单调。
最后，我们测试高频复合因子在中证1000指数增强上的应用：在常规中证1000指数增强策略加入高频因子后，策略在不同约束条件上表现均得到明显提升；加入高频后中证1000指数增强策略在扣费下年化超额收益率为20%，且近年来表现更为优秀。

风险提示：模型结果基于历史数据的测算，在市场环境转变时模型存在失效的风险。

1、高频风险模型：是什么，为什么，怎么做？

1.1

结构化风险模型的定义与意义

多因子模型一般定义为

其中R_t^a表示a类型资产在t期的收益率向量，设a类型资产共有N只，截面均值为0。f_t是t期K个因子收益率组成的均值为0的向量，β_t-1是t-1期大小为N×K的因子载荷矩阵，ε_t是t期a类型资产的特异性收益率，假设ε_t的协方差矩阵是对角阵，ε_t截面均值为0。由于t-1期因子载荷能对未来t期的资产横截面收益率有预测能力，为了获取超额收益，学界与业界前仆后继地发现了成百上千个有效因子。

除了对超额收益的不断追求外，许多学者也发现因子对于资产收益率的协方差矩阵也有预测效力。根据（1.1）式，由Σ_a = R^aR^aT（此处省略时间下标，假设R^a截面均值为0），可以得到

Σ_a表示a类型资产收益率的协方差矩阵，Σ_f，Σ_ε表示对应因子收益率与特异性收益率的协方差矩阵。在（1.2）式中，除了因子暴露矩阵β已知外，因子协方差矩阵Σ_f和个股特质性收益率的协方差矩阵Σ_ε均估计，且Σ_a估计的准确性取决于等式右侧估计的准确性。因此，存在特定因子，能够解释资产收益率的协方差矩阵的运动，我们把这类对于资产协方差矩阵有解释效力的因子称为风险因子，（1.2）式对应的多因子模型称为风险因子模型。

结合（1.1）式与（1.2）式来看，似乎解释波动率的风险因子与解释收益的因子是一模一样的。但风险因子在预测作用上的用处与解释收益的Alpha因子不尽相同：

1）Alpha因子和风险因子对于协方差矩阵的解释力度不一致

存在某类特异性极强的Alpha因子，它们能解释横截面资产收益率的差异，但不能解释资产收益率协方差的运动。这类因子的因子收益率协方差矩阵可能是对角阵

此时Σ_ε的非对角元素就不再严格为0，资产协方差矩阵的估计将出现较大误差。为了得到对资产协方差更精准的解释，实践上可以采用结构化的方法重新刻画（1.2）式。结构化风险模型的本质是重新选取适合作为风险因子纳入风险模型，且风险因子的个数小于资产个数，以满足可解释性或普适性。

2）结构化风险模型可以提高对于资产协方差估计的准确性

由此，为了区别于（1.1）式收益模型中的因子，我们把风险因子记为，得到结构化的风险因子模型

把K对应的多因子称为风险因子。

作为多因子投资体系不可或缺的重要一环，风险模型是与Alpha模型并行的、以投资组合风险预测和分解为主要目的的重要模块。主动投资的本质，某种意义上讲就是收益与风险的权衡，资产的权重往往与超额收益正相关，而与风险负相关。在量化投资实践中，风险模型有着广泛的应用，投资者使用风险模型的情景主要有以下几种：

1.2

高频风险模型：以高频因子组合作为分析对象

现如今，大量投资组合均在其Alpha模型中加入基于日内数据所构建的选股指标或信息。然而，常见的风险模型大多以基本面指标作为主要的风险因子，已有的量价风险因子的构建周期也较长，难以对加入高频信息的高换手资产组合的风险进行衡量与分析。因此，本文的核心目标是以加入高频信息的资产作为对象构建结构化风险模型，并加以分析与应用。

读者可能发现：我们在前序章节的多因子模型中，引入了属性a表示资产收益率的类型。在本文中我们只讨论两种资产类型：个股S与高频因子组合f_HFS。一般来说，风险模型都是对个股收益率R_t^a进行建模，即a⊆S，衡量风险模型解释效力的标准也是看个股收益率对风险因子回归的R²。除了针对个股的风险模型之外，学术界还会针对因子组合的风险暴露进行分析。具体来说，在以因子组合作为对象进行统计风险模型构建时，其目的是衡量不同因子组合在其他风险上的共性暴露。此时，风险模型的目的往往变成了分析因子本身所暴露的对应风险，忽略个股的风险特征。

在面对本文核心目标时，我们必然遇到一个问题：是选用个股S还是选用高频因子f_HFS组合作为分析对象。最终，本文中我们是对高频因子组合收益率进行分析，即回归模型（1）的左侧就变成了因子组合收益率，资产类型a为高频因子组合f_HFS，此时我们是考察能对因子组合协方差组合估计最为准确的风险模型。其核心原因如下：

个股与组合暴露的高频风险存在共性：高频因子组合（多空或多头）往往是因子信息暴露较大的股票组合。然而高频因子本身存在着较多难以解释的风险（因子信息不纯粹&量价风险难以解释），因此其资产组合必然也存在特定风险暴露；
高频因子组合暴露的风险可解释性更强：个股层面的高频风险往往变化较快，导致针对个股高频风险刻画的适用性与稳定性较低；而高频因子包含的风险相对稳定：从高频因子组合暴露的风险出发，去理解因子的逻辑与表现，进而进行业绩归因更具实际意义；
以高频因子组合作为对象的风险模型应用性更强：在以高频因子组合作为考察对象时，我们可以通过风险模型配合组合优化对因子组合进行复合，进而构建复合因子。此时，我们不需要关心个股风险，仅关心与因子相关的风险。

1.3

高频风险模型符号说明

在详细展开后续的高频风险模型构建以及应用之前，我们首先确定本文中使用到的变量符号：

1.4

本文结构说明

至此，我们已经确定好了本文的研究目的：构造出能够准确解释与预测高频因子组合协方差矩阵的结构化风险模型，简称高频风险模型，并进一步探究其衍生应用。因此，本文的核心模型分为两个大部分：结构化高频风险模型的搭建与高频风险模型的应用。本文结构如下：

首先针对结构化高频风险模型，我们从自上而下和自下而上两个角度出发，构建基本面高频风险因子与统计高频风险因子，由此构建高频风险模型，并从风险因子本身与解释力度两个维度衡量其表现；
其次针对高频风险模型的应用，我们基于高频风险模型对高频因子组合的协方差矩阵进行预测，并由此带入最优化模型得到高频复合因子；
最后，我们根据高频复合因子，测试其相对于基准方法的IC和分位数组合测试，并进一步测试其在增强策略上的表现。

2、高频风险模型的构建

2.1

高频基本面风险因子构建

基于兴证金工已有的高频因子库，我们在本文中首先引入5类高频基本面风险因子，它们是：特质性波动率、动量、集中性、价差和流动性。需要指出的是风险模型与收益模型类似，也需要在截面上不断寻找有解释效力的因子，因此也需要不断的维护与更新风险因子。

我们从两个维度构建基本面风险因子：（1）针对已有的Barra量价类风险因子进行改造；（2）结合文献、风险因子的特征以及对于模型的解释性，加入刻画日内交易特征的风险因子。为了使各高频风险因子间相关性较低，我们采用逐次回归取残差的方式，保证风险因子相互正交。

首先，基于量价类因子构建的资产组合通常在波动率以及动量上有着较大的暴露。不同于Barra风险模型中的波动率以及动量类指标，高频因子的预测周期更短。因此，我们基于Barra风险因子进行调整，以适应高频因子构建的资产组合。

1）特质性波动率：基于Barra风险因子改造

对于高频风险中的特质性波动率，我们沿用Barra风险模型中Residual Volatility风险因子的计算方式，并将其周期缩短。首先对于DASTD指标而言，我们基于全市场所有股票超额收益率，计算其过去20日日超额收益率的加权标准差：

2）短期动量：基于Barra风险因子改造

Barra模型的Momentum因子的计算方法为长期动量减去短期动量，或者以跳过短期动量的方式进行构建。我们沿用此想法，但将时间周期调短。具体来说，我们假设长期动量为过去20日收益率的半衰加权；短期动量为过去5日的收益率半衰加权减去市场收益率半衰期加权；最后将长期动量减去短期动量，以此构建短期动量风险因子

其次，高频量价类因子通常与日内交易情绪存在着较强的关联性。事实上，高频因子本质上是寻找日内交易模式异常处的套利机会，而交易模型的异常行为通常会体现在个股的日内流动性上。我们参考文献中针对个股日内交易特征的刻画，结合风险因子自身的波动特征以及模型增量，选择了几个具有代表性的指标，作为高频因子的对应风险。

3）交易流动性：价格波动与成交金额

我们基于价格波动与成交金额，刻画交易流动性𝑙𝑖𝑞_𝑟𝑖𝑠𝑘，代表着金额对于价格波动的影响。𝑙𝑖𝑞_𝑟𝑖𝑠𝑘也需要对特质性波动率与动量分别进行回归取残差（两次回归）作为新的流动性风险因子。

4）交易集中性：成交量偏度

日内集中性风险因子被定义为分钟成交量占比的偏度。

其中volume_t为个股分钟级成交量。该指标首先计算得到各个分钟上成交量占全天交易量的比值，并进一步计算得到当日成交量占比序列的偏度。当交易量均匀分布在日内每一分钟时，日内交易集中性低，该指标较小。日内集中性风险因子需要分别对特质性波动率、动量与流动性风险因子进行回归取残差作为新的集中性风险因子。

5）交易成本：报价差

是用来衡量市场紧密度性的首选方法之一，其衡量的是流动性资产买卖价格之间的差异。该差异越大，说明流动资产的价格波动相对较大，使得特定头寸能够盈利。

其中，askprice_t⁽¹⁾为第t分钟的卖一价、bidprice_t⁽¹⁾为第t分钟的买一价。该指标以分钟级别数据计算，并最终得到分钟级别的指标。在剔除日内异常值后（分位数去极值），我们进一步按分钟成交量加权得到最终的日度指标。价差风险因子需要分别对特质性波动率、动量、流动性与集中性风险因子进行回归取残差作为新的价差风险因子。

2.2

高频统计风险因子构建

在构建完高频基本面风险因子之后，我们进一步构建高频统计风险因子。在此我们需要引入统计风险模型的相关定义。随着时代的发展，投资者发现可以在结构化风险模型领域引入机器学习手段解决上述的问题。首先，依然假设收益率是因子关于因子载荷的线性变换，并进一步引入结构化风险因子模型。

与前文保持一致，此时我们的风险模型仍然是针对高频因子的组合进行分析。因此在统计风险模型中，公式左侧的Σ_i,t^ls为高频因子的多空组合收益率的协方差矩阵。模型的目标是找出能够对高频因子多空组合共同运动方向准备预测的主成分,与高频风险因子的定义一致。不难看出，统计风险模型在最终目的上与基本面风险模型类似，但也存在着较大区别：

在基本面风险模型和统计风险模型中，我们均假设N个资产的收益率可以用K个因子通过他们不同的载荷来预测和决定，为了稳健估计，我们需要假设K << T；
在基本面风险模型中，我们从主观角度将资产的面板数据从N降维至个K风险因子解释；而在统计风险模型中，这K个因子不作逻辑上的定义（不自上而下主观定义，有利于应用于量价类因子），此时唯一的目标是在给定K的情况下，使得这K个因子能够尽量精准无偏地解释协方差矩阵Σa。

最终在具体计算中，我们首先在t日，根据过去6个月的高频因子多空组合的日度收益率序列（经过标准化处理）进行PCA降维，取前5个主成分（按照特征值排序），并进一步计算各个因子在不同主成分上的权重；其次，每个主成分中，根据PCA的贡献度指标得到对应高频多空组合的权重，将各个高频因子值根据权重加和，得到该主成分当期在个股层面的因子载荷，即为一个统计风险因子。由此，我们得到五个统计风险因子，记为riskFct0至riskFct4。

3、高频风险模型有效性检验

综上，我们在基本面风险模型中，自上而下地构建了五个高频基本面风险因子，进一步自下而上地基于PCA构建了五个高频统计风险因子。最终，我们将这十个风险因子共同考虑，作为针对高频资产组合的高频风险模型。

3.1

高频风险因子有效性检验

在进行下一步之前，我们首先根据已有的风险因子进行测试，以判断当前构建的风险因子是否符合风险因子的相关特征。通常来说，对于截面上某一特征，即因子而言，其虽然可以贡献超额收益，但是其自身波动也带来了它对应的系统性风险。在此，我们假设两个理想化的Alpha因子和风险因子，展示其在时序上对于收益预测的能力差异。

下方左侧图展示了一个理想化的Alpha因子的收益预测能力：其中，该因子收益预测能力在大部分时间为正，且波动很小。这说明该因子不但可以稳定的贡献超额收益，其自身的系统风险也非常低；下方右侧图则展示了一个理想化的风险因子，风险因子的收益预测能力波动较大，但存在着一定的周期性，在时序上上无法贡献稳定的非0超额收益。但是它可以显著的描述某种系统性风险。因此这个因子是一个优秀的风险因子。综上，对于风险因子而言，其对于股票收益率的预测能力会出现波动较大、无法长期稳定获得超额收益的特征。

基于上述表述，我们选择A股市场经常作为Alpha因子的20日动量因子（RTN_20D）、Barra模型中的Momentum风险因子以及我们在前一章节构建的mom_risk风险因子，用周度调仓下的IC移动均线展示三个因子时序上收益预测能力的特征。我们首先展示RTN_20D因子周度调仓下IC移动均线。该因子IC均值为0.053，ICIR为0.385。可以明显看出，该因子在长时间段上看IC移动均值长期为正数，其十分符合Alpha因子的特征：预测收益的能力长时间内稳定为正。

其次，我们展示Barra Momentum风险因子和mom_risk高频风险因子周度调仓下IC移动均线。这两个因子的IC均值分别是为0.020与-0.001，ICIR分别为0.137和-0.005。此时也可以明显看出，这两个因子在长时间段上看IC移动均线存在着明显的周期性，其十分符合风险因子的特征：预测收益的能力波动较大，存在周期性。

除此之外，我们还需要判断高频风险因子自身的正交性以及与已有的Barra风险因子的相关性。具体来说，高频风险因子自身的正交性决定了后续横截面回归的稳健性。我们展示高频风险因子的截面相关性均值，结果表明高频风险因子内部相关性较低，可以进行后续横截面回归。

进一步，我们测试高频风险因子与Barra风险因子之间的相关性，并展示如下。结果表明：riskFct0与残差波动率以及流动性风险因子相关性偏高，这表明高频因子组合大多在这两类风险上存在暴露，但与其他Barra风险因子相关性极低，高频风险因子与Barra风险因子存在差异。

3.2

高频风险模型解释力度测试

在确定好风险因子的特征与特异性之后，我们需要针对风险模型的解释力度进行测试。横截面回归的R²通常用来度量风险因子对股票收益的解释程度。在Barra Risk Model Handbook中提及，R²通常用来描述投资组合（回归模型左侧）中与已知风险（回归右侧）相关的比例：

除R²之外，Ajusted R²在风险模型中参考意义更大：通常来说，引入的风险因子越多，R²越大，但风险因子的个数不应该过多；Ajusted R²针对引入的自变量个数对R²进行调整，以判断模型是否在较少的风险因子之下，解释投资组合总体方差的水平更高；

我们设置高频因子多头组合以及空头组合（70×1）作为因变量R_t（此处也可以用高频因子多空组合），以Barra因子载荷以及高频风险因子载荷β_t-1作为因变量进行线性回归，检验其过去250个交易日的移动平均Ajusted R²。

从结果上看，在以因子多头以及空头组合为收益率的回归模型中，基于高频复合风险模型（即高频基本面风险模型+统计风险模型）的解释力度相对强于基于Barra的风险模型：Ajusted R²均值大致在75%左右，Barra解释力度略逊于高频风险模型，且在时间段早期差异较大。

4、高频风险模型应用

综上，我们从自上而下和自下而上两个维度出发，构建了针对高频因子组合的高频风险模型，该模型在解释力度上相对优于Barra风险模型。在得到风险模型之后，我们将进一步探究其应用场景：协方差矩阵的估计以及高频因子复合。

4.1

高频因子组合的协方差矩阵估计与最优化

上文中提及，风险模型最重要的应用场景之一便是协方差矩阵的估计。依然假设收益率是因子关于因子载荷的线性变换，并进一步引入结构化风险因子模型：

最终，我们在每个周末根据各个高频因子组合过去20日的数据，最优化后得到权重，并最终根据权重复合得到当周复合因子值。其中，协方差矩阵的估计步骤中存在因子多空与多头组合两种方式。若要使用多头组合进行复合，则最终是以最大化多头组合夏普比率作为目标。因此，我们可以得到两个复合因子，分别记为最大化Top夏普复合因子以及最大化多空夏普复合因子。除此之外，我们同样可以将高频风险因子替换为Barra风险因子，重复上述步骤构建基于Barra复合因子，作为比较基准。若风险模型对于组合协方差的估计更精准，其复合因子的表现应当更为优秀。

4.2

高频复合因子表现测试

综上，我们基于Barra风险模型与高频风险模型得到了三个高频复合因子，分别是基于Barra复合因子、最大化Top夏普复合因子与最大化多空夏普复合因子。在得到高频复合因子之后，我们首先针对复合因子进行周度调仓下的IC测试，回测区间为2015年底至2023年9月。具体地，我们在全市场以及不同股票池内测试三种复合因子的IC表现，并展示三个因子IC均值与IC IR指标。从结果上看，无论是全市场还是在不同成分股股票池内，基于高频风险因子构建的复合因子稳定战胜以Barra风险因子复合的因子；最大化Top组复合的因子表现略优于最大化多空组合的因子，以最大化Top夏普复合因子为例，该因子在全市场内IC均值为0.100，IC IR为1.364；该因子在中证1000与国证2000中的IC均值为0.092与0.106，表现十分优秀。

更进一步，我们将三个因子进行针对全市场以及针对不同股票池的分位数组合测试。我们首先展示针对全市场的十分位数组合测试，回测时间为2015年底至2023年9月底。测试结果表明：无论是在Top组还是多空组合上，基于高频风险因子的复合因子同样稳定战胜基于Barra风险因子构建的复合因子。以基于高频风险因子最大化Top组夏普比率复合因子为例，该因子全市场Top组年化收益率接近50%，基准方法年化收益率为38.51%。该因子Top年化超额收益率为38.32%，多空夏普比率为8.08，表现十分优秀。

我们进一步展示三个复合因子在不同股票池内的五分位数组合测试，回测时间同样是为2015年底至2023年9月底。测试结果表明：基于高频风险模型复合的因子在不同股票池均严格单调，基于Barra构建的因子则效果一般，尤其是在大盘以及中盘股股票池内。无论是多头组合还是多空夏普比率，高频复合因子在不同股票池表现均相对优秀。以基于高频风险因子最大化Top组夏普比率复合因子为例，该因子在沪深300、中证500、中证800、中证1000和国证2000成分股股票池内均严格单调，多空夏普比率分别约为2.0、3.1、3.1、5.6和6.9。

4.3

高频复合因子对中证1000增强策略的提升

上文中，我们针对三种高频复合因子进行了IC和分位数组合测试，测试结果表明基于高频风险模型复合的因子表现明显优于基于Barra构建的复合因子。这说明：在针对高频因子组合的协方差估计上，高频风险模型有着明显的优势。本章中，我们将基于上一章节中表现最为优秀的基于高频风险因子最大化Top组夏普比率复合因子，测试其在中证1000指数增强策略上的提升。

具体来说，我们在常规的低频中证1000指数增强策略中加入高频复合因子，以测试其对于策略的提升程度。在常规的低频中证1000指数增强策略中，我们从估值、情绪、成长、质量和另类五大类因子中选择了共8个因子进行等权复合。在本章中，我们在这8个因子的基础之上，加入高频复合因子后同样等权复合，以测试其在加入前后，不同约束条件下增强策略的表现。具体的增强策略约束条件与因子表如下：

市值偏离，我们设置为±0.5/2.0/5.0%；
行业偏离，我们设置为±0.5/2.0/5.0%；
个股相对成分股权重偏离±0.1/0.5%；
成分股个数占比大于80%；
调仓双边换手率小于60%；
周度调仓，回测区间为2015年底至2023年9月底；
样本空间：每期剔除当期不在市以及特殊处理的股票，并进一步剔除高频复合因子排名后20%的股票；
交易成本：买入千分之一，卖出千分之二，共计千分之三。

我们首先展示在不同约束条件下，周度调仓且扣费情况下加入高频因子与不加入高频因子中证1000指数增强策略的年化超额收益率。从测试结果上看：在不同的约束条件下，加入高频因子后年化超额收益率均得到明显提升，均增加2-3个百分点。以个股权重约束±0.1%，市值行业约束±2.0%为例，加入高频因子后，策略年化超额收益率提升约3个百分点。

我们进一步展示以个股权重约束±0.1%，市值行业约束±2.0%下，加入高频复合因子后的中证1000增强策略表现。该中证1000指数增强策略的年化超额收益率为20.43%，相对净值收益风险比为3.35，收益回撤比为3.46。

从分年度来看，策略每年都有超过10%的超额收益，绝大多数年份获得了超15%的超额收益。策略分年度胜率为100%，分月度胜率约为79%。其中策略近两年表现优秀，22年年化超额收益率为23.03%，今年以来策略获得约10%的超额收益。

5、总结

现如今，常用风险模型对以高频量价因子构建的资产组合解释力度较弱。本文以兴证金工高频因子作为资产，从自上而下和自下而上两个角度出发，构建了基本面高频风险模型以及统计风险模型，并由此构建高频风险模型，其对于高频相关资产的解释力度更强；在应用层面，我们基于高频风险模型估计资产的协方差矩阵，进而通过最大化组合夏普等方式构建高频复合因子，复合因子在IC、分位数组合测试中表现优秀，且对于已有的增强策略有着相对明显的提升。

在未来，我们会基于扩充的高频因子库不断优化高频风险模型，以进一步提升高频复合因子的表现，并将其应用于更多的投资策略构建中。

参考文献