"海量"专题（226）——高频与日度量价数据混合的深度学习因子

admin2年前 (2023-05-18)研报1319

重要提示：《证券期货投资者适当性管理办法》于2017年7月1日起正式实施，通过本微信订阅号发布的观点和信息仅供海通证券的专业投资者参考，完整的投资观点应以海通证券研究所发布的完整报告为准。若您并非海通证券客户中的专业投资者，为控制投资风险，请取消订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限，若给您造成不便，敬请谅解。我司不会因为关注、收到或阅读本订阅号推送内容而视相关人员为客户;市场有风险，投资需谨慎。

引言

在本系列的前期报告中，我们介绍了如何使用深度学习模型挖掘高频数据中包含的Alpha。本文在此基础上引入低频量价信息，并在较长的周期内，和高频数据共同训练，寻找更多的增量信息。

混频模型的训练流程

本文在构建特征时，使用以下日频和高频数据的相关字段，共得到26个日频特征和64个60分钟频特征。（分钟频特征的构建可参考系列前期报告《选股因子系列研究（八十六）——深度学习高频因子的特征工程》）。

1）日频量价数据：开盘价、最高价、最低价、收盘价、成交额、成交量；

2）分钟K线数据：开盘价、最高价、最低价、收盘价、成交额、成交量、成交笔数；

3） 3秒盘口快照数据：盘口前10档委买/委卖价、前10档委买/委卖量；

4）逐笔成交数据：成交价、成交量、BS标志、买单号、卖单号。

日频量价特征重点刻画股票的日度收益、日度价格形态、交易活跃度和流动性等，高频量价特征则重点刻画股票的日内微观结构，如，高频收益、成交分布、量价形态、盘口委托变化、主买/主卖变化、大/中/小单交易行为等。不过，需要注意的是，由于逐笔成交数据存在可获取性和字段完整性问题，我们统一将2013年5月之前的高频量价特征填充为0。

由于深度学习模型的输入包含日频和60分钟频两条特征序列，为简化计算，本文在构建深度神经网络时，采用了两个独立的GRU模块，分别提取不同频率输入特征的信息。随后，我们利用MLP对两个GRU的输出结果进行整合，并输出最终的模型预测。

在前期仅使用高频特征挖掘深度学习因子的报告中，我们习惯使用较短周期的数据训练模型，并进行周频迭代。在引入日频特征后，本文大幅延长了训练和迭代周期，具体设定如下。

1）验证早停集：最近120个交易日的数据；

2）训练集：1200个交易日的数据（与验证早停集不交叉）。

3）模型迭代：2017年以来，每隔120个交易日迭代一次；

4）输入特征：每个股票过去60个交易日的日频量价与60分钟频高频量价序列；

5）预测标签：股票未来5日（T+1~T+6）收益率、未来10日收益率（T+1~T+11）；

6）损失函数：MSE；

7）早停机制：MSE连续5期在验证早停集上不改善，则停止训练；

8）重复训练和推理：同一组超参的模型重复训练5次，推理时使用5个模型的均值作为模型输出。

为表述方便，后文统一将使用未来5日和10日收益作为预测标签训练得到的因子，分别简称为未来5日因子和未来10日因子。

混频深度学习因子的选股能力

本部分主要展示未来5日和未来10日因子的周频、双周频及月频选股能力。由于调仓路径可能影响因子选股效果，故后文若未特别说明，因子的表现均为多路径的平均。例如，测试周频选股能力时，IC、年化ICIR、胜率等为5条路径的平均值。当然，后文也会展示不同路径的结果。

2.1 周频选股能力

如下表所示，两个因子均呈现十分显著的周度选股能力。不同成交价假设下，因子周均IC和Rank IC接近甚至超过0.1，周度胜率逾85%。相对而言，未来5日因子的表现更优，但自相关性更低，因而换手率略高。

如果我们希望获得Rank IC更高的因子，可对预测标签进行强制正态分布调整。这样一来，因子周均IC虽小幅下降，但Rank IC提升明显（表2）。当然，本文并不单纯追求更高的Rank IC，因此后文依旧以未调整的预测标签训练因子。

上述深度学习因子以低频量价和高频量价特征作为模型输入，且未在训练中添加相关性约束，可以预期，它与原始量价类因子存在一定的相关性。因此，我们计算了该因子与常见因子之间的截面相关性均值及截面相关性绝对值的均值，结果如下表所示。

混频深度学习因子与反转、换手率和波动率三个低频量价因子的相关性相对较高，绝对值均值处在0.2-0.3之间；和风格类因子（市值、估值）及高频量价因子（后5行）的相关性在0.1-0.2之间，和基本面因子（ROE和SUE）的相关性最低，不超过0.1。

下表展示了两个因子多头组合相对全市场平均的分年度超额收益。为了更贴近实践，本文在构建多头组合时，考虑了股票停牌及涨跌停板的限制，并假定按次日均价成交。

TOP 10%组合的多路径平均年化超额收益约为30%，而TOP 100组合的多路径平均年化超额收益更高，达到34%以上。2023年以来，未来10日因子的多头效应更强。

由表1和2可知，两个因子的换手率高达60%左右。因此，我们在双边千三的交易成本假定下，进一步考察因子的费后多头超额收益。

如上表所示，交易成本对因子多头效应的影响较为明显。不同标签下，超额收益都降至20%左右。由于未来5日因子的换手率更高，故受到的影响更大。不仅年化超额收益不足20%，2023年以来仍为负超额收益。

在上文的回测中，为避免调仓路径的影响，我们以多条路径的均值评价因子的选股能力。下表进一步展示了每条路径上，因子的IC和多头组合超额收益。从中可见，TOP 100组合在预测标签为5日的情形下，年化超额收益受路径的影响最大。最优路径和最差路径上，年化超额收益的差异超过10%。我们猜测，这一现象很可能是各调仓路径上，因股票的可交易状态不同使得待选池有所差异而导致的。

上述结果都是从全市场所有股票（剔除次新和ST）的回测中得到，但考虑到大多数公募基金的量化产品都有较为严格的选股范围约束，我们进一步测试了因子在不同指数成分股内及各市值和成交金额区间的选股能力。

由下表可见，如果按宽基指数划分，因子在中证800与1000外的股票中，IC和多头超额收益最优，其次是全市场中。表现相对较差的是在沪深300成分股中，但IC依然有0.071，多头超额收益也能达到25%。

若按市值大小划分，处于中间40%的股票中，因子的IC和多头超额收益皆为最高，其次是市值最小的30%股票；若按成交金额高低划分，反而是最高的30%股票中，因子表现更好，IC超过0.11，多头超额收益更是在35%以上。

总体来看，该因子在不同范围内的选股效果都较为出色。相对而言，成交金额较高、市值适中的这一类股票，更适合因子的发挥。

2.2 混频训练和线性加权的对比

在前期的深度学习因子挖掘报告中，我们使用30分钟的高频特征训练得到因子，并将其放入传统的线性加权打分模型，和其他因子共同预测收益，而本文则是通过一个非线性模型直接完成了上述三个步骤。为了探究这两种方式的差异，我们对比了高频深度学习因子（改进GRU和残差注意力）、高频深度学习因子和低频量价因子经IC加权复合后的因子及混频深度学习因子的选股效果。

由上表可见，与低频量价因子复合较为显著地提升了原始高频深度学习因子的IC和RankIC，但也付出了ICIR和胜率下降的代价。而将低频和高频特征一同输入深度学习模型，则获得了IC最高的因子。同时，其余评价指标，如ICIR、RankIC、胜率等，都处在较优的水平上。

进一步对比多头组合的超额收益，结论也是类似的。2017年以来，混频因子的年化超额收益高于另两类因子10-20个百分点。因此，我们认为，在原先仅使用高频数据训练因子的基础上加入低频量价特征，以及采用非线性的加权，都有可能获得更好的因子或收益预测。这也给了我们另外一个启示，如果想要构建更多、更有效的量价因子，混频训练的深度学习模型或许是一条可行的思路，下文也将对此给出简单的示例。

2.3 双周和月频选股能力

我们进一步考察在双周和月的换仓频率下，因子的选股能力。如下表所示，当持有期延长后，因子的IC显著上升。在任何一种成交价格的假设下，IC和Rank IC都高于0.1。但是，作为高频因子，更低的换仓频率必然导致超额收益大幅下降。月频换仓下，因子多头年化超额收益仅为15%左右，相比表4中周度换仓的30%，降幅高达50%。即使是考虑3‰交易成本的周频换仓因子（表5），超额收益依然高于未计算成本的月频因子。因此，我们认为，在相对合理的成本下，高频因子还是更加适合在短周期下使用。

类似地，我们也回测了双周频和月频因子在不同选股范围内的年化多头超额收益，结果如以下两图所示。在中证800和中证1000以外或成交金额较大的股票中，因子的多头超额收益更高。

和周频换仓相比，双周频和月频换仓的路径更多，因而不同路径上的超额收益差异也更大。由以下两图可见，双周频和月频因子TOP 10%多头组合在最优和最差路径上，年化超额收益的差异分别接近4%和7%。

用混频因子构建指数增强组合

为了进一步考察混频训练所得因子的效果，我们将其作为股票的收益预测，构建周度调仓的中证500和中证1000增强组合。

其中，中证500增强组合的风险控制模块包括以下几个方面的约束。

1）个股偏离：相对基准的权重偏离不超过0.5%/1%；

2）因子暴露：市值、估值中性，常规低频因子≤ ±0.8；

3）行业偏离：严格中性/行业偏离上限2%；

4）选股空间：全市场/90%指数成分股权重；

5）换手率限制：单次单边换手不超过30%。

不同于中证500增强组合，在构建中证1000增强组合时，市值和估值因子不再设定为完全中性，而是允许有±0.2的暴露。

两个组合的优化目标皆为最大化预期收益，目标函数如下所示。

其中，wi为组合中股票i的权重，μi为股票i的预期超额收益。为使本文的结论贴近实践，如无特别说明，下文的测算均假定以次日均价成交，同时扣除3‰的交易成本。考虑到调仓路径可能对最终结果产生影响，我们也展示了组合在5条路径下的业绩表现。

3.1 中证500增强组合

如下表所示，随风控模型参数的变化，中证500增强组合在各条路径上的年化超额收益在15%-22%之间波动。相对而言，使用未来5日因子的组合有更高的超额收益。我们认为，这可能是预测标签和换仓周期匹配的缘故，也可能是因为量价因子对短周期收益的预测精度更高。

2023年以来，中证500增强组合各路径上的超额收益，在0.7%-5.6%之间不等。虽都为正超额，但最优与最差路径之间的收益差距超过4%。

添加90%成分股权重约束后，各组合年化超额收益从15%-22%下降至10%-15%，依然是使用未来5日因子的业绩表现更好。2023年以来，超额收益从0%-5%下降至-2%-1.5%。

下表为全市场选股、行业中性、个股偏离1%、调仓路径3，这组参数下的中证500增强组合分年度收益风险特征。

2017年以来，组合年化超额收益20.4%，超额最大回为5.1%，发生在2021年。值得注意的是，2022年以来，组合的超额收益明显弱于历史平均水平。我们猜测，因子拥挤或市场环境的变化都有可能是较为重要的原因。

3.2 中证1000增强组合

下表展示的是不同风控模型参数下，全市场选股的中证1000增强组合在不同路径上的超额收益。随风险控制参数的变化，组合2017年以来的年化超额收益在18%~27%之间。使用未来5日因子或是放松行业约束，都能获得更优的业绩表现。

2023年以来，中证1000增强组合各路径上超额收益的差异依然较大。相对而言，路径0-3的表现优于路径4-5。

添加90%成分股权重约束后，各参数和路径下，组合2017年以来的超额收益变化不大，与中证500增强组合的回测结果大不相同。我们认为，这可能是由于因子在中证500成分股内的选股效果显著弱于全市场，而在中证1000内选股则与全市场无异有关。

下表为90%成分股权重约束、行业偏离2%、个股偏离1%、调仓路径3，这组参数下的中证1000增强组合分年度收益风险特征。

2017年以来，组合年化超额收益25.2%。由于选择了较大的行业与个股偏离，故超额最大回撤达到6.5%，发生在2021年，跟踪误差也有6.3%。2022年以来，组合的超额收益同样明显弱于历史平均水平。

模型拓展

上文将深度学习模型的输出直接作为收益预测，并利用风控模型构建指数增强组合。但每个人对深度学习模型有着不同的应用方式，有人偏好使用更加稳健成熟的机器学习模型合成最终信号，也有人希望通过深度学习模型同时挖掘多个增量因子。后者催生了以下两个新的需求。

1）用深度学习模型生成相互正交的因子集合；

2）用深度学习模型生成与指定因子集合正交，且内部相互正交的因子集合。

由于因子正交本质上是线性变换，因此，我们只需在MLP与输出层之间加入一个正交层，就可以在不大幅改变模型整体架构及损失函数的前提下，实现上述两种需求。下文简要展示了这一思路的输出结果，我们也将在后续的系列报告中，继续探讨其具体应用方法和相应的策略表现。

4.1 相互正交因子集合生成

下图为添加正交层后，训练得到的32个因子两两之间的平均截面相关性绝对值。因为我们是用5次训练结果的推理均值作为最终因子值，所以因子间的相关性并不严格为0，但绝大多数都小于0.15，基本实现了因子正交的效果。

下表为这32个因子的周频选股能力。在损失函数为MSE的设定下，因子周均IC在0.03-0.04之间，TOP 10%组合年化超额收益为5%-12%。

4.2 与指定因子集合正交，且内部相互正交因子集合生成

假设我们要求深度学习模型输出的32个因子在相互正交的同时，与行业、市值和BP正交。由下图可见，我们同样较好地实现了这一目标。因子与市值和BP的平均截面相关性绝对值仅为0.04-0.06。与此同时，32个因子内部也保持着较低的相关性。

如下表所示，加入行业、市值和BP的正交约束后，因子集合整体的选股能力受到明显削弱。和未作正交前（表15）相比，因子IC从0.03-0.04降至0.015-0.025，类似影响也同样发生在因子的多头年化超额收益上。

总结

本文将26个日频特征和64个60分钟频特征共同输入深度学习模型，并大幅延长训练和迭代周期后，得到了新的混频深度学习因子。2017年以来，在5日和10日两种预测标签的设定下，因子呈现出显著的周度选股能力。周均IC达到0.10，TOP 10%和TOP 100多头组合的多路径平均年化超额收益分别高达30%和35%。

如果按宽基指数划分，因子在中证800与1000外的股票中，IC和多头超额收益最优，其次是全市场中。表现相对较差的是在沪深300成分股中，但IC依然有0.071，多头超额收益也能达到25%。若按市值大小划分，处于中间40%的股票中，因子的IC和多头超额收益皆为最高，其次是市值最小的30%股票；若按成交金额高低划分，反而是最高的30%股票中，因子表现更好，IC超过0.11，多头超额收益更是在35%以上。

对比高频深度学习因子（改进GRU和残差注意力）、高频深度学习因子和低频量价因子经IC加权复合后的因子及混频深度学习因子的选股效果，我们发现，与低频量价因子复合较为显著地提升了原始高频深度学习因子的IC和RankIC，但也付出了ICIR和胜率下降的代价。而将低频和高频特征一同输入深度学习模型，则获得了IC最高的因子。同时，其余评价指标，如ICIR、RankIC、胜率等，都处在较优的水平上。

将混频因子直接作为股票的收益预测，构建周度调仓的中证500和中证1000增强组合。若没有成分股约束，中证500增强组合的年化超额收益最高可达22%；但加入约束后，年化超额收益则会下降至16%。不过，有无成分股约束对中证1000增强组合的影响甚微，两种假设下的年化收益都可达到25%左右。

如果希望通过深度学习模型同时挖掘多个两两正交的增量因子，只需在MLP与输出层之间加入一个正交层，就可以在不大幅改变模型整体架构及损失函数的前提下，实现目标。在损失函数为MSE的设定下，通过这种方式得到的32个因子，周均IC在0.03-0.04之间，TOP 10%组合年化超额收益为5%-12%。

风险提示

市场系统性风险、资产流动性风险、政策变动风险、因子失效风险。

联系人

袁林青 021-23212230

法律声明：
本公众订阅号（微信号：海通量化团队）为海通证券研究所金融工程运营的唯一官方订阅号，本订阅号所载内容仅供海通证券的专业投资者参考使用，仅供在新媒体背景下的研究观点交流；普通个人投资者由于缺乏对研究观点或报告的解读能力，使用订阅号相关信息或造成投资损失，请务必取消订阅本订阅号，海通证券不会因任何接收人收到本订阅号内容而视其为客户。
本订阅号不是海通研究报告的发布平台，客户仍需以海通研究所通过研究报告发布平台正式发布的完整报告为准。
市场有风险，投资需谨慎。在任何情况下，本订阅号所载信息或所表述的意见并不构成对任何人的投资建议，对任何因直接或间接使用本订阅号刊载的信息和内容或者据此进行投资所造成的一切后果或损失，海通证券不承担任何法律责任。
本订阅号所载的资料、意见及推测有可能因发布日后的各种因素变化而不再准确或失效，海通证券不承担更新不准确或过时的资料、意见及推测的义务，在对相关信息进行更新时亦不会另行通知。
本订阅号的版权归海通证券研究所拥有，任何订阅人如欲引用或转载本订阅号所载内容，务必联络海通证券研究所并获得许可，并必注明出处为海通证券研究所，且不得对内容进行有悖原意的引用和删改。
海通证券研究所金融工程对本订阅号（微信号：海通量化团队）保留一切法律权利。其它机构或个人在微信平台以海通证券研究所金融工程名义注册的、或含有“海通证券研究所金融工程团队或小组”及相关信息的其它订阅号均不是海通证券研究所金融工程官方订阅号。