【广发金融工程】再谈地理关联度因子研究-多因子Alpha系列之四十四
摘要
Abstract
1.因子开发迭代更新越来越重要。
近几年来,随着传统多因子模型在市场的应用逐渐广泛,因子的波动特征逐渐加大,因子拥挤等原因造成了因子的收益逐渐下降。为了能够寻找更好的Alpha收益来源,在多因子模型框架中,因子作为底层Alpha来源输入的基础,因子的开发、迭代、更新就显得越来越重要。低频相关的数据的因子开发目前难度越来越大,增量的信息越来越有限。本篇专题探讨个股基于地理关联数据在因子选股中的应用。
2.领先滞后效应与地理关联度概念。
传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反映资产的所有公开信息以及私有信息。但实证研究表明,股票市场中存在着“领先滞后效应”。例如,面对行业层面新信息,行业内不同股票对于信息的反映速度存在差异,部分股票价格率先变动,另一部分股票价格滞后变动。结合上篇研究报告《基于地理关联度因子研究——多因子Alpha系列报告之(四十三)》思路,本报告尝试定义关联度为同一行业不同区位的股票之间的关联程度,据此构造相关系数因子及其优化因子,并研究该类因子在A股中的有效性。
3.地理关联度因子实证分析
本篇专题报告共构建了五种相关系数类因子并在全市场范围了进行月频调仓的实证分析。实证分析结果表明,除INDUCORRJP因子外,其余4种相关系数类因子的分档效果均显著。其中,INDUCORRP因子整体表现较好,因子整体的IC均值为0.065,正IC占比88.31%,多头相对中证500指数年化超额收益率为15.32%,信息比率为1.816。
4.相关性分析与稳健性检验
本篇专题报告针对回测表现较好的2种相关系数类因子,进行与BARRA因子相关性分析与稳健性检验。实证结果表明,相关系数类因子能够挖掘传统因子外的增量信息,即股票之间的关联信息。INDUCORR因子与INDUCORRP因子在中证1000股票池内仍具有较好表现。
风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构及交易行为的改变时有可能存在策略失效风险。
一、因子挖掘思考
高频信息
近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大,从市场获取超额收益的难度在增加。
因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入,从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子的开发和更新迭代变得越来越重要。
以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。
以高频价量数据为基础的因子开发在当下具有更大的收益提升空间。与低频因子相比,高频数据在用于量化投资中存在一定优势。
首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。
其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。
此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。
高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外,机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。
低频信息
以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。
对于低频信息的挖掘,从最近几年的进展上看,低频里的增量信息成果越来越少。从数据维度上看,低频的因子建模更多是从一些另类数据或者是新的方法、理论成果中出发构建相关的因子。如另类数据角度,从互联网中的股吧、新闻、关注度等角度,或者是专利数据、供应链相关数据等。新的理论成果如从图网络等角度出发构建相关的因子。
本篇专题报告基于个股的“关联度”角度出发,研究个股所在区域关联度角度构建因子。
二、关联度因子研究进展
传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反映资产的所有公开信息以及私有信息。但是,Kalok等(2005)[3]、刘菁哲(2010)[12]等众多学者通过实证研究发现,股票市场中存在着“领先滞后效应”,即不同公司对相同基本面信息的反应速度存在差异,一些公司能够迅速对新信息做出反应,另一些公司对于新信息的反应存在时滞。
本报告对国内外学者基于行业关联、科技关联、供应链关联、地理关联信息的“领先滞后效应”研究成果进行了简单梳理。对于行业关联信息,Cohen和Lou(2012)[5]实证检验了,面对影响全行业的信息事件,单一经营部门公司的股价能够更迅速的反映新信息,同时对于多经营部门公司未来股票收益存在显著预测能力。胡聪慧等(2015)[10]采用A股上市公司数据验证了这一结论,并证实了集团公司股价变动的滞后性主要在于投资者关注度与处理能力有限性,以及行业估值的复杂性。向诚等(2018)[13]实证说明了行业内受关注度最高的30%公司组合的收益率,显著引领受关注度最低30%公司组合的未来收益率。段丙蕾等(2022)[9]认为行业关联回报率仅在月度层面显著,在周度层面不显著。同时,Parsons和Sabbatucci(2018)[1]对于行业关联公司的收益预测能力的有效性提出质疑。他们认为,随着证券分析师覆盖率不断提升,股票价格的有效性增强;随着个股证券分析师重复率上升,股票价格反映的行业一致预期信息越多,因此基于行业关联构建的股票投资策略效果可能衰减。
对于科技关联信息,Lee等(2019)[6]构建科技关联指标并进行实证分析,研究结论表明科技关联企业的收益对研究企业的收益具有很强的预测能力。国内学者借鉴Lee等(2019)[6]的科技关联指标构建方法,研究该指标在我国股票市场的适用性。李绪泉等(2020)[11]的实证分析结果说明,A股市场存在科技溢出效应。段丙蕾等(2022)[9]进一步证明了科技关联因子仅在周度上具有显著收益预测能力,认为造成这一结果的原因在于A股市场中存在较多博彩倾向的散户投资者,该类投资者追涨杀跌的交易行为缩短了科技关联信息融入股价所需的时间。
对于供应链关联信息,Cohen和Frazzini(2008)[4]、Menzly和Ozbas(2010)[7]验证了公司客户信息能够有效预测公司未来股票收益。国内学者对于供应链关联相关研究相对较少,现有的研究成果也未提供在控制变量基础上,供应链关联能够有效预测股票收益的证据(段丙蕾等, 2022)[9]。
对于地理关联信息,Peng和Lin在其发表论文《Investor Attention, Overconfidence, and Category Learning》(Journal of Financial Economics, 2006)[8]中提出,总部位于同一地理区位的公司,会受到相同基本面因素的影响,从而这些公司股价都会对新信息作出反应。基于这一研究思路,Parsons和Sabbatucci在其发表论文《Geographic Lead-Lag Effects》(The Review of Financial Studies,2018)[1]中提出地理关联公司的概念,具体指与研究个股处于相同地理区位不同行业的所有上市公司。认为地理关联公司股票与目标股票的价格变动存在领先滞后关系(本文将此关系简称为地理关联度),前者对后者未来收益具有预测能力。并且采用面板数据回归方法,实证检验了这一结论。研究结果表明:(1)在控制行业影响基础上,地理关联公司的基本面因素(EPS、销售收入、雇员数量等)变动对目标股票的基本面变动具有显著的解释能力。(2)地理关联公司股票的平均收益对目标股票未来收益具有显著的预测能力,地理关联公司股票的平均收益越高,目标股票未来收益越高。(3)由于证券分析师通常是基于行业而非省份分类的,因此,共同分析师覆盖率提升并不会导致地理关联度的领先滞后关系减弱甚至消失。
实证研究进展
上一篇研究报告《基于地理关联度因子研究——多因子Alpha系列报告之(四十三)》针对地理关联度因子的理论逻辑、因子构建与改进思路、因子在A股市场中的实际应用效果进行了全面的探讨。重点分析了基于学术论文《Geographic Lead-Lag Effects》构建的地理关联度因子存在的局限性,并且构造了六种改进的地理相关系数类因子。实证分析结论表明,报告中构建的GEOGCORR、GEOGCORRP与GEOGCORRIP共3种地理相关系数类因子的分档效果明显。
考虑到上述地理相关系数类因子在回溯测试中具有较好的表现,同时,理论研究表明行业关联度信息对于股票未来收益存在显著的区分能力,因此,本篇报告将沿用地理相关系数类因子的构建方法,构造行业相关系数类因子,并探讨这类因子在A股的有效性。
三、地理关联度因子构造方法
与策略框架
因子构造方法
《基于地理关联度因子研究——多因子Alpha系列报告之(四十三)》报告共构建了相关系数、相关系数变动、相关系数拆解三大类共6种因子。其中,相关系数、相关系数拆解类因子回测表现相对较好。因此,本篇专题报告基于这两大类因子构造方法构建行业相关系数类因子。具体的因子定义、构造逻辑与计算方法如下。
行业相关系数因子
本篇报告定义行业相关系数因子(INDUCORR),用以度量个股与其行业关联(不同省份相同申万一级行业)公司股票之间的整体相关程度,具体由个股和行业关联公司股票相关系数均值表示。
以股票i在t月月末的行业相关系数因子为例,具体计算方式如下。首先,在全市场范围剔除t月的st股、*st股、停牌股以及上市不满一年的股票;其次,筛选出与股票i办公地所属省份不同、申万一级行业相同的全部共N支股票j,并分别计算与股票i在t月日频收益序列的皮尔森相关系数,即CORR_(i,j,t)。最后,对所有相关系数进行加权求和(若不做特殊说明,w_(j,t)均设置为1/N,即等权),得到股票i在t月月末换仓日的行业相关系数因子INDUCORR_(i,t)。
行业相关系数拆解因子
Bollerslev等(2022)[2]在发表论文《Realized semibetas: Disentangling “good” and “bad” downside risks》(Journal of Financial Economics)中,根据市场收益与资产收益序列的符号将传统市场贝塔拆分为四个半贝塔,并实证说明了基于负市场收益与负资产收益序列协方差构建的半贝塔与资产未来收益显著正相关,基于负市场收益与正资产收益序列协方差构建的半贝塔与资产未来收益显著负相关。这一结论对本报告的启示在于:基于不同数值方向收益序列构建的相关系数,可能蕴含的信息量也存在差异。因此,本报告将股票i与股票j的收益序列进行拆分,并定义四种具体的行业相关系数拆解因子(INDUCORRP、INDUCORRN、INDUCORRIP与INDUCORRJP),用以度量个股与行业关联公司股票的调整后收益序列的相关程度。
以股票i在t月的行业相关系数拆解因子(INDUCORRP_(i,t))为例,具体计算方式如下。首先,对于股票i与全部N个股票j,利用R_i^+公式对其日度收益序列进行调整,也就是将负日度收益调整为0。其次,根据行业相关系数因子构造步骤,得到行业相关系数拆解因子INDUCORRP_(i,t)。其余三种行业相关系数拆解因子(INDUCORRN_(i,t)、INDUCORR〖IP〗_(i,t)与INDUCORR〖JP〗_(i,t))构造方式同理可得。
四、实证结果
数据说明
选股范围:全市场
股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票
因子预处理:MAD去极值、Z-Score标准化、行业市值中性化
回测区间:2010.01.01 – 2022.10.31
分档方式:根据当期股票的因子值,从小到大分为十档
调仓周期:每个月最后一个交易日以收盘价
调仓交易费用:千分之三(卖出时收取)
因子分档表现
在月度调仓的历史回测下,5种行业相关系数类因子的整体分层效果较好。除INDUCORRJP因子外,其余4种行业相关系数类因子的分层效果均显著,分层收益区分度高。
因子实证结果
整体来看,5种行业相关系数类因子在选股方向上与构建的交易策略保持一致,即个股与行业关联公司股票的整体相关性越高,股票未来收益表现越好。各因子的IC表现、多空对冲策略表现与因子分档测试结果一致各因子的多头平均换手率在80%左右。具体来看,INDUCORR与INDUCORRP共2个因子在IC分析、多空策略绩效、多头相对基准策略绩效上总体表现较好。
在全市场选股中,INDUCORR因子的选股区分度较高,因子IC均值为0.071,IC胜率为85.71%,2022年以来的IC均值为0.074。在多头相对中证500指数策略的回测中,策略整体的年化超额收益率为14.98%,信息比率为1.773。除2017年外,其余年份均可取得超额收益。整体换手率保持在77.90%左右。
总结
Summary
本篇专题报告承接《基于地理关联度因子研究——多因子Alpha系列报告之(四十三)》,综合考虑地理相关系数类因子构造方法与行业关联信息在收益预测方面的有效性,构造5种行业相关系数因子及其优化因子,用来衡量个股与行业关联股票之间的相关程度,以期从共同基本面因素变动中获取个股反转收益。
从分档结果来看,5种行业相关系数类因子中,除INDUCORRJP因子外,其余4种因子在全市场选股范围内的分档效果明显,分层收益区分度较高。
从整体表现来看,全市场选股范围内,月频调仓频率下,INDUCORR因子、INDUCORRP因子的IC均值在0.065以上,IC胜率均超过85%,多头相对中证500策略中,上述2种因子年化收益率均在15%左右,信息比率均在1.7以上,多头换手率在80%左右。
通过对数据预处理后的INDUCORR因子与INDUCORRP因子和BARRA因子进行相关性分析,可以发现,行业相关系数类因子能够挖掘传统因子外的增量信息。因此,可以作为新因子加入多因子模型中。
此外,本报告进一步对INDUCORR因子与INDUCORRP因子进行了选股范围与手续费率方面的敏感性测试。测试结果表明,这两种因子在中证1000选股范围内仍具有较好表现。由于因子策略多头换手率较高,行业相关系数类因子对手续费敏感。因此,当考虑利用行业相关系数类因子进行选股时,应当设定合适的选股范围并对手续费率加以考虑。
风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险。
历史报告
多因子Alpha系列
【四十三】基于地理关联度因子研究
【四十二】海量技术指标掘金Alpha因子
【四十一】高频价量数据的因子化方法
法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。
本篇文章来源于微信公众号: 广发金融工程研究