基于相似思想的选基因子构建
导读
1、在多因子选基体系逐渐完善的背景下,选基因子之间的同质化是一个值得关注的问题。很多选基因子的构建逻辑与使用的数据较为类似,新因子的挖掘难度较高,如何构建具有特异性的新因子是一个重要议题。
2、通常的选基因子仅用到单只基金自身数据,本文则聚焦于全市场基金之间的两两关系,基于基金关联性构建新的选基因子。本文构建的新因子对原选基模型具有显著的增强效果。
3、我们从四个维度出发,构建基金关联性因子,具体包括:平均相似度因子、相似动量因子、个股传导因子、复制残差因子。各因子具有显著的选基效果,并且相互之间相关性较低。我们将以上四个因子合成为基金关联性因子,合成因子的有效性相比于单因子具有显著提升,IC均值为0.097,ICIR为0.80,t值为5.46,且分位数组合具有较好的单调性。
4、基金关联性因子具有较强特异性,与我们现有选基模型中的6个选基因子之间的相关性较低。在加入基金关联性因子之后,选基模型的年化收益提升了1.3%,年化超额收益提升了1.0%。进一步,我们根据前期报告,将选股Alpha因子替换为基于卡尔曼平滑构建的全新选股Alpha因子,并加入基金关联性因子,相比于原始模型,最终选基模型的年化收益提升了1.8%,年化超额收益提升了1.5%。
风险提示:结论基于历史数据,在市场环境转变时模型存在失效的风险。
1、引言
在多因子选基体系逐渐完善、接受度逐步提升的背景下,选基因子之间的同质化是一个值得关注的问题。很多选基因子的构建逻辑与使用的数据较为类似,新因子的挖掘难度较高,如何构建具有特异性的新因子是一个重要议题。通常的选基因子在构建过程中仅仅用到了单只基金自身的数据,例如基于单只基金的净值、持仓、特征等数据构建的业绩指标、选股能力&交易能力指标、持有人结构指标等。现有的研究中,利用基金之间的关联关系构建选基因子的研究相对较少。
因此本文着重聚焦于全市场基金之间的两两关系,基于基金关联性构建选基因子。这样构建的选基因子不仅使用了基金自身的数据,更将基金之间的关联信息也囊括进去,从而得到具有特异性的新因子。
我们从四个维度出发,构建基金关联性因子,具体包括:平均相似度因子、相似动量因子、个股传导因子、复制残差因子。各因子具有显著的选基效果,并且相互之间相关性较低。我们将四个因子合成为基金关联性因子,该因子具有较强的特异性。在加入基金关联性因子之后,我们的选基模型具有显著提升,这表明该因子具有额外的特异信息。
本文的框架如下:
第二章:从四个维度出发,基于基金关联性构建选基因子,具体包括平均相似度因子、相似动量因子、个股传导因子、复制残差因子;
第三章:我们将四个因子合成为基金关联性因子,测试了该因子与原有选基因子之间的相关性,并将该因子加入选基模型,构建了最终的选基策略。
2、基于基金关联性的选基因子构建
通常的选基因子在构建过程中仅仅用到了单只基金自身的数据,没有用到基金之间的关联性。我们着重聚焦于全市场基金之间的两两关系,基于基金关联性构建选基因子,从而得到具有特异性的新因子。具体而言,我们从四个维度出发,构建基金关联性因子,包括:平均相似度因子、相似动量因子、个股传导因子、复制残差因子。最终我们将四个因子进行合成,并将合成因子加入原有的选基模型,从而考察新因子对选基模型的增量效果。
在构建基金关联性因子时,由于涉及到了基金之间的两两关系,所以构造因子的过程实际上就是降维的过程,将高维的数据通过不同的方式降维成一维的向量,即每个基金赋予一个因子值。下面我们具体介绍各因子的构建方式与表现。
2.1
因子1:平均相似度因子
我们用平均相似度因子来反映基金的独特策略能力:如果基金与其他基金的平均相似度越低,则该基金具有较强的独特策略能力,我们认为基金在未来可能会有较好的业绩表现。在具体计算中,如果与全市场基金计算平均相似度,则会导致包含的噪音过多,因此我们首先对基金进行了聚类分析。
我们对该因子进行IC测试与分位数组合测试,测试时间段为2012年1月31日至2023年6月30日。
因子测试结果如下,平均相似度因子IC均值为-0.070,ICIR为-0.45,t值为-3.04;分位数组合的收益率与收益波动比具有较好的单调性。
2.2
因子2:相似动量因子
兴证金工团队在股票的相似动量因子方面进行了深入研究,曾发布过多篇相关报告,主要包括:
(1) 2019-06-25《基于专利分类的科技动量因子研究》
(2) 2021-10-20《财报季的财务效应研究和因子构建》
(3) 2022-06-22《弱关联关系下的特异性Alpha因子挖掘》
(4) 2023-03-05《权益理念量化表达--如何挖掘潜在热点》
仿照股票方面相似动量因子的构建思想,我们在此构建基金的相似动量因子。股票的相似动量因子本质上是捕捉相似股票之间的协同效应,以及关联股票股价反应不充分、表现相对滞后所带来的机会。在构建基金的相似动量因子时,由于基金本身是一组股票的集合,如果采用同期的余弦相似度来衡量相似性,可能会导致动量传导的效果不佳,影响选基因子的表现。因此此处我们将基金的相似性改为滞后的相似性,反映的是基金净值的时序渐进一致性。
因子测试结果如下,因子IC均值为0.049,ICIR为0.34,t值为2.32;除了最后一组之外,分位数组合的收益率与收益波动比具有较好的单调性。
2.3
因子3:个股传导因子
由于基金是由持有的股票组成的,因此股票之间的扩散、传导关系也会最终反映在基金的净值上。我们结合此前报告《权益理念量化表达--如何挖掘潜在热点》中的方式,首先寻找近期的热点股票,而后根据个股的相似寻找接下来的潜在热点,最后根据基金持仓将个股的信号传导为基金的信号,从而得到基金的因子得分,我们将该因子称为个股传导因子。
因子测试结果如下,因子IC均值为0.062,ICIR为0.38,t值为2.56;分位数组合的收益率与收益波动比具有较好的单调性。
2.4
因子4:复制残差因子
对于每只基金,我们可以用其他一批基金对其进行复制,即将该基金表示为其他基金的线性组合,而复制的难易程度以及剥离其他基金之后的残差则包含一定的有效信息。
具体而言,针对每只基金,我们首先找到与其最相似的一批基金,然后用这只基金的收益率对这批基金的收益率进行回归,线性拟合之后的R方反映的是该基金被其他基金组合复制的难易程度;而拟合的残差项代表的是该基金剥离了其他基金的信息之后的额外超额收益。
这样我们可以将基金的收益分解两部分,一部分为其他基金的线性组合,另一部分为其他基金无法解释的部分,这部分可以理解为基金的特质收益。
复制残差因子的测试结果如下,因子IC均值为0.037,ICIR为0.06,t值为3.84;分位数组合的收益率与收益波动比具有较好的单调性。
3、基金关联性合成因子与选基策略构建
我们对以上4个因子的相关性进行分析,合成得到基金关联性因子,并检验基金关联性因子对选基模型的提升效果。
3.1
基金关联性合成因子表现
从以上4个因子的IC表现与分位数组合表现来看,各因子具有显著的选基效果。从各个因子之间的IC相关性与因子值相关性来看,各因子之间相关性均较低。
我们将四个因子等权合成为基金关联性因子。合成因子具有较强的有效性,IC与分位数组合表现较为优异。因子IC均值为0.097,ICIR为0.80,t值为5.46;合成因子相比于单因子具有显著的提升效果,IC均值由各单因子的0.05左右提升至0.097,t值由3左右提升至5.46。合成因子分位数组合的单调性较好。
3.2
基金关联性因子对选基模型的提升效果
我们在2020年11月13日的报告《基本面量化视角下的机构持仓信息研究系列之二:基金优选下的中重仓股信息研究》中首次构建了兴证金工多因子选基模型。目前我们的多因子选基模型主要包括6种因子:选股Alpha、最大回撤、基金份额、交易能力、机构偏好和自购行为。2012年以来,策略相比于基准可以实现6%左右的年化超额收益。自2020年构建以来,策略样本外表现优异,其在2021年、2022年、2023年的年度超额分别为7.86%、2.39%、5.03%。
为了验证基金关联性因子对选基模型的提升效果,我们首先测试该因子与原有6因子的相关性。从相关性结果来看,基金关联性因子具有较强的特异性,与我们现有选基模型中的6个选基因子之间的相关性较低。
在原来的6因子模型中,大部分因子都设定等权重,即1/6,选股Alpha因子由于更有效,因此给了3/12的略高权重,而将最大回撤因子的权重设定为1/12。
我们将基金关联性因子加入原来的选基模型,并与其他大多数因子的权重相同,即给予1/7的权重,其他因子之间的相对比例保持不变。
首先我们来看基金关联性因子对合成因子IC的影响。加入基金关联性因子后,合成因子表现具有显著提升,IC均值由0.138提升至0.152,ICIR由1.16提升至1.22,t值由7.85提升至8.29。从IC看,基金关联性因子的加入对于合成因子具有显著提升效果。
作为选基模型,我们的最终目的还是构建基金组合。我们按照以往的方式,优选前30只合成因子最高的基金构建等权组合,并查看加入基金关联性因子前后组合的表现差异。我们计算了2012年1月至2023年6月的组合表现。
在加入基金关联性因子之后,选基策略的年化收益提升了1.26%,由17.35%提升至18.61%;策略年化超额收益提升了1.00%,由于6.06%提升至7.06%。这表明该因子具有额外的特异信息。
从分年表现来看,除个别年份之外,策略几乎每年均能获取显著的超额收益。策略相对于原策略的年度胜率为83.3%,季度胜率为73.9%。
3.3
最终的选基策略
我们在2023年7月5日发布的报告《全新的基金选股能力因子构建》中,提出了基于卡尔曼平滑方法构建全新选股Alpha因子。我们在此将原始的选股Alpha因子替换为该报告中的全新选股Alpha因子,并在加入基金关联性因子后测试最终策略的表现。
在替换选股Alpha因子并加入基金关联性因子后,最终的合成因子表现得到进一步提升,IC均值由最初的0.138提升至0.157,ICIR由1.16提升至1.30,t值由7.85提升至8.80。
我们优选前30只合成因子最高的基金构建等权组合,并查看组合的表现差异。
在替换选股Alpha因子并加入基金关联性因子后,选基策略表现相比于原策略显著提升。相比于原始的6因子策略,最终的7因子选基策略的年化收益提升了1.79%,由17.35%提升至19.14%;策略年化超额收益提升了1.50%,由于6.06%提升至7.56%。
相比于原始6因子模型,目前加入基金关联性因子之后,部分基金的排名发生了一定程度的变动,其中排名提升较大的几只基金如下所示,这些基金排名的变动主要来源于其在基金关联性因子方面的较高得分。
为了检验新模型相对于原模型的调整带来的变化,我们以2023-1-30调仓时的组合为例,对新模型组合与原模型组合的差异以及对应基金随后一个季度的表现进行对比。
而对于被原模型选中但未被新模型选中的基金,其在新模型中的排名相比于原模型排名平均下降了28名,使得这些基金掉出前30名,随后一个季度这些基金平均超额收益为0.66%,虽然实现了正超额,但是超额收益明显低于那些只被新模型选中的基金。
4、总结
通常的选基因子仅用到单只基金自身的数据,本文则聚焦于全市场基金之间的两两关系,基于基金关联性构建新的选基因子。
我们从四个维度出发,构建了基金关联性因子,包括平均相似度因子、相似动量因子、个股传导因子、复制残差因子。合成后的基金关联性因子具有较强的有效性与特异性。在加入基金关联性因子之后,相比于原始模型,最终选基模型的年化收益提升了1.8%,年化超额收益提升了1.5%。
在本系列报告后续的研究中,我们将继续探索基于基金相似的其他应用场景,包括根据基金相似构建基金配对交易策略,以及探索定性维度下的基金相似应用场景等。
附录:参考文献
[1] Cohen L, Frazzini A, Malloy C. The small world of investing: Board connections and mutual fund returns[J]. Journal of Political Economy, 2008, 116(5): 951-979.
[2] Delpini D, Battiston S, Caldarelli G, et al. The network of US mutual fund investments: Diversification, similarity and fragility throughout the global financial crisis[J]. arXiv preprint arXiv:1801.02205, 2018.
[3] Narabin S, Boongasame L. A cluster analysis of mutual funds data[C]. 2018 International Conference on Big Data and Artificial Intelligence. IEEE, 2018: 1-5.
[4] Sun Z,Wang A,Zheng L. The road less traveled:Strategy distinctiveness and hedge fund performance[J]. The Review of Financial Studies, 2012, 25(1): 96−143.
[5] Sakakibara T, Matsui T, Mutoh A, et al. Clustering mutual funds based on investment similarity[J]. Procedia Computer Science, 2015, 60: 881-890.
[6] Satone V, Desai D, Mehta D. Fund2vec: Mutual funds similarity using graph learning[C]. Proceedings of the Second ACM International Conference on AI in Finance. 2021: 1-8.
风险提示:结论基于历史数据,在市场环境转变时模型存在失效的风险。
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《基于相似思想的选基因子构建》[文]。
对外发布时间:2023年8月2日
报告发布机构:兴业证券股份有限公司(已获中国[章]证监会许可的证券投资咨询业务资格)
----------------------[来]----------------
分析师:乔良
SAC执业证书编号:S01905220700[自]07
电话:
E-mail:qiaoliang@xyzq.[1]com.cn
----------------------[7]----------------
分析师:郑兆磊
SAC执业证书编号:S01905200800[量]06
电话:
E-mail:zhengzhaolei@xy[化]zq.com.cn
----------------------[ ]----------------
更多量化最新资讯和研究成果,欢迎关注我们的微[ ]信公众平台(微信号:XYQuantResea[ ]rch)!
本篇文章来源于微信公众号: XYQuantResearch