【浙商金工】强化学习在行业配置端的应用
摘要
01
行业配置策略研究现状
1.1. 赛道投资的主观视角
行业配置策略层出不穷,不同投资者的行业配置策[量]略所使用的方法论各有千秋,归纳其蕴含的投资逻[化]辑,则主要落在四个维度:动量、估值、景气度,[ ]和拥挤度。
动量——行业动量策略的核心思想是通过价量特征及技术分析,配置强势行业。与所有的动量策略相同,动量反转可能引起策略失效,趋势右侧入场滞后,当趋势提前结束时高位接盘,承受双边损失。动量策略难以及时识别信息面变动,是限制其收益上限的主要因素。
估值——从估值角度,以行业整体的市盈率或市净率水平作为基础,分析宏观经济变化驱动行业成长性显现,来对行业投资价值进行预测。行业估值是戴维斯双击策略与景气投资策略的基础,配置时选取相对被低估的行业以期获得超越市场基准的收益。
景气度——中观行业景气度为大多数周期性行业提供了有效的投资逻辑。行业景气度的构建一般通过分析师预期数据或者中高频的产业数据进行提炼,以盈利预测的形式,结合估值指标,共同应用于行业配置策略。行业配置的选择来自于投资胜率和赔率的综合考量,追求高胜率的配置行业有利于实现短期内相对市场超额收益的概率,追求高赔率的配置行业则有望在长周期为投资者带来绝对收益。高胜率的行业往往趋势较好、景气度较高,而高赔率的行业往往估值低,绝对收益空间可能较高。
拥挤度——行业景气度研究盛行,然而投资者发现两个同样处于景气回升阶段的行业,市场定价变化趋势却不同,进而总结出了行业拥挤度对行业的影响。行业拥挤度的评价指标包括,量能指标衡量各行业成交金额放大的增速(成交占比、成交额历史分位、换手率历史分位),价格蕴含的信息与动量接近,衡量行业动量的集中程度;再从资金买入意愿和分析师对行业的关注度及评级情绪来综合判断行业拥挤度。不同的研究者对行业拥挤度的定义略有不同,总体上,行业拥挤度是从量能、价格、资金及分析师情绪四个方面衡量了行业上涨空间,并通过选择拥挤度低的行业进行配置。
1.2. 从算法视角如何实现
1.2.1. 寻找主观量化之外的投资视角
在行业配置或行业轮动策略实践中,投资者按照以[ ]上四个维度的指标对行业进行打分,按一定的权重[ ]综合评估得到实际的行业配置结果,月度调仓居多[1]。但近期以来,特别是2022下半年之后,由于[7]市场存量博弈特征明显,风格切换加快,行业轮动[q]速度上升,周期性强的策略难以避免失效。另一方[u]面,交易费率与税率下调是长期趋势,策略研发端[a]对于换手率的约束也在逐渐放宽,结合交易执行模[n]块的速度提升和算法优化,交易成本对于策略业绩[t]的影响在逐渐缩小。因此,高频跟踪的行业配置策[.]略也逐渐被投资者接受,其市场关注度也在不断提[c]升。
本文探讨在以上主观视角之外,如何实现中高频的[o]行业配置策略,更加敏捷地追踪行业轮动并进行预[m]测,提升行业配置的预期收益。
1.2.2. 实现投资组合构建的强化学习框架
从算法视角优化行业轮动策略,旨在解决数据滞后[文]、因子IC反转、模型退化等问题。在前期报告《[章]量化投资算法前瞻:强化学习》中,我们分析了强[来]化学习框架是如何对交易参与者与市场之间的关系[自]进行模拟,通过“智能体-环境”交互实现决策模[1]型的学习。此外,我们剖析了深度强化学习框架在[7]投资组合构建方面的应用(参见前期报告《实现投[量]资组合构建的强化学习框架》),近3年内深度强[化]化学习应用于量化选股策略,在不同的投资目标下[ ]均有不俗的风险收益表现。行业配置可以作为投资[ ]组合构建问题来解决,故本文将强化学习框架应用[ ]于行业配置策略,并通过回测和消融实验来探讨模[1]型框架的有效性。
值得一提的是,算法层面的优化并不会取代主观逻[7]辑的研究。算法作为技术工具,旨在挖掘无法通过[q]主观判断或者线性遍历实现的特征间或行业间相关[u]关系。本文将在第2章中详细介绍跨行业配置的算[a]法框架和各模块所使用的网络结构,并在第3章中[n]分析配置模型的实测结果及各模块功能的效用。
02
构建行业配置模型
本章将详细介绍行业配置模型的设计与实现。本文[t]的行业配置模型由单行业择时改造而来,从日频价[.]量数据入手,通过神经网络实现对行业自身变化和[c]行业间联动关系的学习,并通过强化学习算法实现[o]模型参数的更新。
2.1. 利用日频价量数据实现表征学习
财报所包含的基本面数据,或者以分析师报告为代表的另类数据,提供了许多股票行业指数的评价指标,但这些特征数据主要是月频甚至季频更新。而价量数据则可以按照不同的频率对市场进行观测,价格和成交量不仅是数据特征,也是市场中不同交易参与者博弈的结果,故本文从价量数据入手,构建中高频的行业配置策略。考虑到时间频率越高,交易者行为受到多种因素的影响(开盘收盘、疲劳时间、重大公告等),对应的价量数据信噪比较低,因此日频较为适中,且也最符合交易者的决策习惯。
在日频价量数据的基础上,需要一定的结构对输入[m]数据进行表征学习(representatio[文]n learning),即通过模型去学习特征的向[章]量化表达。机器学习算法的表现不仅取决于算法的[来]正确使用,也依赖于数据的质量和特征的有效表达[自]。针对不同类型的数据,不同表达方式会导致有效[1]信息的缺失,也会影响算法的有效性。因此合理设[7]计表征学习模型,将输入数据转化为更具分辨率的[量]表征向量,剔除噪音或冗余信息,对提升算法表现[化]有正向作用。
本文使用神经网络对行业指数日频价量数据进行表[ ]征学习。不同于线性结构的特征工程,例如构建技[ ]术指标,完全由数据和计算公式决定,因此不同的[ ]价量形态对应不同的技术指标,但未来却有相似的[1]收益表现。而表征学习得到的模型则通过学习“特[7]征-收益”关系,将价量数据映射到特征空间,两[q]个不同的价量形态可能在特征空间中接近,对应有[u]相似的未来收益表现。
本文采用长短期记忆(LSTM)网络与用于历史状态的时序注意力机制结合,用时序神经网络递归过程中得到的每个历史隐含状态来增强最终的向量表征,能够更充分地捕捉到行业指数自身特征的时序相关关系。时序表征提取模型也经常使用Transformer(TE),但考虑到日频价量数据维度有限,需要对模型的复杂度进行限制以避免过拟合。在编码层层数和多头注意力的头数较小时,TE无法发挥自身优势。因此本文使用LSTM-HA作为行业指数时序特征提取模型。
2.2. 从单行业评估到跨行业配置
单行业评估/行业指数择时策略为本文的行业配置[a]构建提供了基础。在《量化投资算法前瞻:强化学[n]习》中,我们使用3层神经网络结构,通过双网络[t]DQN算法实现指数择时模型,将宽基指数上表现[.]较好的参数设置迁移至申万一级行业,仍能得到有[c]效择时。
不可否认的是,不同行业择时后的收益率和波动率[o]不同,择时胜率高的行业并不意味着更高的预期收[m]益。从提升组合收益的角度,需要在行业间进行比[文]较选出预期收益更高的行业,因此在构建行业配置[章]模型时,本文在单行业评估的模型结构上进行如下[来]升级:
1)使用相同的表征模型(特征网络[自]N1),不再对每个行业单独评估;
2)使用基于自注意力机制的神经网[1]络学习行业间联动关系。
对于 2) 中使用的行业间自注意力网络,其网络参数包含了[7]行业间相关关系,并且经过注意力机制的转化,行[量]业的相对分值更能代表其预期收益的高低,以便于[化]选择配置行业。同时1) 的修改,即合并特征网络,减少了策略模型的总参[ ]数量,降低了样本数量较少带来的过拟合风险。单[ ]行业择时和行业配置模型对比如图1、2所示。
2.3. 行业配置权重生成模块
1.1.1. 小小节标题
正文
在行业特征提取和跨行业评估后,按照一定规则选[ ]择配置行业的模块即为权重生成模块。各行业经过[1]资产间注意力网络的得分经过归一化计算(sof[7]tmax)并排序,得分越高则表示策略模型评估[q]该行业未来收益更高,选取得分最高的K个行业构[u]建行业配置组合。
2.4. 通过强化学习实现模型更新
1.1.1. 小小节标题
正文
强化学习框架可以实现模型的动态更新,在前期报告的基础上,本文同样使用时序差分算法(双网络DQN)来优化行业配置模型,上述模型整体作为双网络DQN算法中的Q网络,再依据强化学习算法进行参数更新,其工作机制如图3所示。
行业配置策略中的状态、动作、奖励如何设置?类[a]比单资产策略,本文用各行业指数的在一段时间内[n]的行情数据作为状态;策略函数所生成的动作是按[t]照策略所选的行业通过调仓实现等权持有;此外,[.]使用持仓T日后的组合收益作为策略执行动作所获[c]得的奖励。
按照双网络DQN算法对应的训练过程如下
其中Q-loss计算如下:
03
回测结果与策略分析
3.1. 模型训练及回测设置
1.1.1. 小小节标题
正文
本文以申万一级行业指数作为行业投资标的,实现[o]相应的配置策略,通过回测实验来分析策略框架的[m]可行性及有效性。在3.1节中,根据回测设置在[文]预训练数据上进行多幕训练并分析模型表现,并在[章]3.2节中通过观测数据上的回测表现进行模型比[来]较。
与单行业择时模型相比,考虑行业数量增加,回看[自]窗口由10天调整为20天;表征学习模型改为含[1]时序注意力的LSTM网络,每日价量数据作为每[7]个元素,因此维度相较于之前的长向量(维度为回[量]看窗口乘以特征数)缩小,故LSTM隐含层的维[化]度也相应调整为16。经过初步参数测试选择的模[ ]型配置如下表2所示。
经过多幕训练(N=50)最终得到的行业配置模[ ]型,调仓间隔为5个交易日,策略累计净值曲线如[ ]图4所示,比较基准为全行业等权持有策略(逢调[1]仓日也会进行等权再分配),2016年至202[7]1年(至5月31日)平均年化超额收益约为16[q]%,逐年统计的收益表现数据见表3、4。
策略模型均贡献了正的超额收益,但不同年份表现[u]差异较明显。整体上看,配置策略相较于行业等权[a]基准,收益提升较明显,回撤控制效果较好。在行[n]业等权基准回撤幅度最大的2018年和2016[t]年(回撤幅度分别为-35.27%、-23.8[.]2%),行业配置多头的最大回撤相应为-29.[c]31%、-20.60%,而对冲收益的最大回撤[o]仅为-7.25%、-8.11%。因配置策略仅[m]持有5个行业,而基准持有全行业实现了风险分散[文],故从年化波动率角度,行业配置多头相较于基准[章]有所升高。
接下来通过模型对比/消融实现,分析神经网络的[来]优化和强化学习框架的效用。
3.2. 注意力网络是否有效模拟了行业间的相关关系
1.1.1. 小小节标题
正文
引入行业间注意力网络对于行业间评估是否有效,[自]本文利用单行业指数择时模型实现行业配置策略,[1]与3.1中训练得到的策略模型进行比较。
由前期报告可知,利用单行业择时模型,依据各行[7]业多空价值判断,选取多头价值最高的5个行业进[量]行配置(2.2节中图1),每隔5日进行调仓。[化]两种方式构建的行业配置策略在观测数据上的表现[ ]如下表5。采用升级后包含行业间注意力网络的配[ ]置模型明显提升了策略相较于等权基准的超额收益[ ],年化17.28%,符合预训练阶段的年化超额[1]收益率水平;回撤和波动与对照模型较为接近,小[7]幅下降,整体风险收益表现较好。
3.3. 强化学习框架是否实现了配置策略的优化
1.1.1. 小小节标题
正文
在上述决策网络的设计下,本文探究强化学习框架[q]是否对策略优化有增益。利用监督学习的训练方法[u],定期训练,也可以实现模型的更新,是否需要引[a]入包含更多参数的算法框架来构建策略?
对照策略使用相同的行业表征模型、行业间注意力[n]网络,及最终的权重生成方法。按照监督学习的方[t]式,模型损失函数的计算为权重生成模块中各行业[.]评分,与下一期行业收益率之间的均方误差。为了[c]使模型也具有一定的动态适应性,本文每隔20日[o](和DQN算法中目标网络的同步间隔保持一致)[m]用过去两年内的样本重新训练策略模型,用于接下[文]来20日的配置权重生成。两种方式构建的行业配[章]置策略在观测数据上的业绩表现见表6,其累计净[来]值曲线如图5、6所示。
从结果看利用强化学习算法更新模型和监督学习模[自]型定期重新训练得到的策略业绩年化超额收益接近[1],考虑到回测样本有限,故从收益维度来看没有明[7]显优势。对比两策略得到的超额收益,强化学习框[量]架下的模型超额收益的回撤和波动明显小于对照模[化]型,得益于强化学习框架使模型能更平滑地在局部[ ]最优之间进行过渡。
由此分析,在计算预期回报时(强化学习中的回报[ ]指累积奖励的期望,与金融市场中的收益含义不同[ ])远期奖励的折现,使得策略函数以较小幅度的赔[1]率下降换取了更高的相对收益胜率。每个阶段使用[7]的监督学习模型总结了过去两年的经验,如果接下[q]来的市场风格接近理想的稳定状态,监督学习模型[u]更胜一筹,能得到收益最大化的持仓权重。而真实[a]的行情风格变化难以预测,因此从图5我们观测到[n],监督学习模型在部分区间内超额收益累积速度快[t](如2021/07至2021/10,2022[.]/10至2022/12),但是难以维持;相比[c]之下,模型通过Q学习更新迭代,每一期选到的不[o]一定是收益最高的配置组合,但通过动态适应和长[m]期积累,得到了风险收益表现更优的决策机制。
3.4. 近期行业配置及市场表现
1.1.1. 小小节标题
正文
经过模型比较我们基本确定了强化学习框架下的行[文]业配置模型有效性,本文进一步整理了2023年[章]3月以来的调仓结果,如表8所示,每一期配置行[来]业从左边第一列开始为第一顺位(与策略回测时的[自]行业分配使用等权无关)。
整体上,配置模型所选取的行业持有周期平均在3[1]周以上,策略周频调仓但整体上换手率并不高。
具体到每期的行业选择则有得有失。策略模型在今[7]年3月中旬传媒行业的连涨行情早期就做了配置建[量]议;在二季度后期,将交易拥挤度较低的汽车、机[化]械行业选入了配置组合;7月进入财报季后,模型[ ]对于景气回升且机构仓位较低的煤炭、钢铁、化工[ ]、建材等行业也识别出了相应的投资机会。由此可[ ]见,从算法视角构建的行业配置策略,与主观赛道[1]投资逻辑常常能达成共识。
近期策略超额收益增长放缓,6月中下旬后配置胜率有所下降,对比表7中统计的回测历史上的回撤恢复期(1-3个月,最长64个交易日),现阶段回落仍在正常范围内。
04
总结与展望
本文实现了强化学习框架的行业配置端应用,利用[7]日频价量模型,使用时序神经网络和注意力机制设[q]计了行业表征模型和跨行业评估网络,将整个决策[u]模型通过强化学习框架进行训练和更新,构建了一[a]个提供中高频行业配置观点的策略模型。策略在2[n]016-2023每年均能提供正超额收益,收益[t]提升主要是引入行业间注意力网络的贡献,回撤和[.]波动的控制能力则来源于强化学习框架的自适应机[c]制。
从算法视角构建的行业配置策略,与主观投资逻辑[o]相关性低,但结论并非大相径庭,选取的配置行业[m]有交集。通过算法模型挖掘的行业配置信号,如何[文]与行业中观指标组合,即算法视角与主观视角如何[章]融合,是行业配置策略未来优化值得尝试的方向。[来]一方面,基本面、分析师预期及中观数据可以作为[自]输入特征,供本文构建的网络模型去挖掘更多特征[1]间的相关关系;另一方面,价量模型提供的高频信[7]号也可以作为因子指标,对行业景气度与拥挤度的[量]刻画进行扩充。
04
风险提示
本报告中包含公开发表的文献整理的模型结果,涉[化]及的结果指标的解释性请参考原始文献。
本报告构建的策略框架中所提及的交易均指模拟交[ ]易,回测结果是基于历史数据的统计归纳,收益风[ ]险指标不代表未来,模型力求自适应跟踪市场规律[ ]和趋势,但仍存失效可能,不构成投资建议,须谨[1]慎使用。
附
参考文献
[1] Bengio, Y., Courville, A., & Vincent, P. (2012). Representation Learning: A Review and New Perspectives. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1206.5538
[2] Deng, Y., Bao, F., Kong, Y., Ren, Z., & Dai, Q. (2017). Deep direct reinforcement learning for financial signal representation and trading. IEEE TNNLS 28, 3 (2017), 653–664.
[3] Cong, L.W., Tang, K., Wang, J., & Zhang, Y. (2020). AlphaPortfolio: Direct Construction Through Deep Reinforcement Learning and Interpretable AI. Capital Markets: Asset Pricing & Valuation eJournal. https://api.semanticscholar.org/CorpusID:226193490
报告作者:
陈奥林 从业证书编号 S1230523040002
详细报告请查看20230920发布的浙商证券金融工程专题报告《强化学习在行业配置端的应用》
特别声明:
法律声明:
本公众号为浙商证券金工团队设立。本公众号不是浙商证券金工团队研究报告的发布平台,所载的资料均摘自浙商证券研究所已发布的研究报告或对报告的后续解读,内容仅供浙商证券研究所客户参考使用,其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,使用本公众号内容应当寻求专业投资顾问的指导和解读,浙商证券不因任何订阅本公众号的行为而视其为浙商证券的客户。
本公众号所载的资料摘自浙商证券研究所已发布的研究报告的部分内容和观点,或对已经发布报告的后续解读。订阅者如因摘编、缺乏相关解读等原因引起理解上歧义的,应以报告发布当日的完整内容为准。请注意,本资料仅代表报告发布当日的判断,相关的研究观点可根据浙商证券后续发布的研究报告在不发出通知的情形下作出更改,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以浙商证券正式发布的研究报告为准。
本公众号所载的资料、工具、意见、信息及推测仅提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,浙商证券及相关研究团队不就本公众号推送的内容对最终操作建议做出任何担保。任何订阅人不应凭借本公众号推送信息进行具体操作,订阅人应自主作出投资决策并自行承担所有投资风险。在任何情况下,浙商证券及相关研究团队不对任何人因使用本公众号推送信息所引起的任何损失承担任何责任。市场有风险,投资需谨慎。
浙商证券及相关内容提供方保留对本公众号所载内容的一切法律权利,未经书面授权,任何人或机构不得以任何方式修改、转载或者复制本公众号推送信息。若征得本公司同意进行引用、转发的,需在允许的范围内使用,并注明出处为“浙商证券研究所”,且不得对内容进行任何有悖原意的引用、删节和修改。
廉洁从业申明:
我司及业务合作方在开展证券业务及相关活动中,应恪守国家法律法规和廉洁自律的规定,遵守相关行业准则,遵守社会公德、商业道德、职业道德和行为规范,公平竞争,合规经营,忠实勤勉,诚实守信,不直接或者间接向他人输送不正当利益或者谋取不正当利益。
本篇文章来源于微信公众号: Allin君行