中金 | 公募洞察系列:如何挖掘基金经理展望文本中的隐含信息?
Abstract
摘要
从公募基金2022年报展望看后市投资关键词
截至2023年3月31日,公募基金2022年报已全数披露。依据基金中报和年报的信息披露规则,基金经理需要对宏观经济、证券市场及行业走势做出展望,而这一展望文本也蕴含着公募基金经理对后市的中长期看法。
为提取出基金经理对后市的核心关注点与一致性预期,我们划分权益、固收+、纯债基金三大基金池,并统计展望文本中各核心关键词被提及频率的边际增长。结果表明:2022基金年报中,1)较多权益基金经理对于经济复苏和市场上行的确定性拥有信心,同时也有部分基金经理认为市场信心的建立需要一定时间;2)固收+基金经理对于消费和政策的关注度边际明显提升,多数基金经理认为2023年将迎来消费端的修复与增长,对于地产政策、货币政策、疫情政策以及部分行业政策拥有较多关注;3)部分纯债基金经理预期2023年债券市场或波动加大、迎来震荡,此外部分基金经理认为,经历4Q22的调整后,信用债具备一定的配置性价比。
从挖掘基金经理展望文本中的择时观点与行业观点
基于基金经理展望文本搭建情感分析框架。我们认为基金经理对于后市的乐观程度反映了其对于市场的择时观点,并依据情感分析、词频统计、平滑处理、指数构建、区间划分的步骤,得到基于基金经理展望文本的权益市场预期乐观区间与预期悲观区间划分原则。与沪深300指数走势进行比对后,我们发现,以季度频率来看,从2Q12至1Q23,基金经理积极情绪指数对市场涨跌的判断胜率达到59%;2022年起,受黑天鹅事件叠加影响,指标效果明显下降。
从基金经理展望文本挖掘行业观点。承接上文的乐观与悲观区间划分结果,我们还可以进一步挖掘基金经理展望文本中的行业配置观点。我们按照行业词频变化率从高到低对行业进行排名,分别得到各期词频变化Top 3行业组合与Top 5行业组合,计算报告发布后20、40、60交易日内的行业收益率,并与Wind全A指数的同期涨跌幅进行对比。统计结果表明,在乐观区间,展望文本词频变化率Top 5行业在未来20日平均收益率、Top 3行业在未来40日平均收益率表现较好。但在悲观区间中,行业平均收益率跑输基准。
基金经理展望观点的一致性度量
本章我们尝试从基金经理展望文本出发,计算各期展望文本相似度,并将其作为基金经理的展望观点一致性度量。整个流程分为文本信息提取与展望相似度计算两个步骤,核心算法为Word2vec文本向量化方法。我们可以从统计结果中得到如下结论:
1)权益基金方面,文本一致性均值与未来一期沪深300指数收益率存在较高负相关性(-30%),据此我们可以推断,当基金经理展望观点发生较大改变时,未来权益市场有望上涨。
2)固收+基金方面,固收+文本一致性均值指标与未来一期中证全债收益动量指标的相关性较高(48%),表明固收+基金经理的展望观点与上期观点趋向于一致时,未来一期的收益率方向与当期收益率方向有更大几率一致。
风险
本文观点及结论均基于公开数据分析所得,可能存在以下的风险:1、对于市场的择时等观点基于历史数据得到,未来可能存在失效风险,不构成投资建议;2、数据统计或存在误差;3、市场环境发生变化等。
Content
正文
截至2023年3月31日,公募基金2022年报已全数披露。依据基金中报和年报的信息披露规则,基金经理需要对宏观经济、证券市场及行业走势做出展望,而这一展望文本也蕴含着公募基金经理对后市的中长期看法。在本篇报告中,我们聚焦于挖掘基金经理展望文本中的隐含信息,致力于解决下述三个核心问题:1)基金经理对后市的核心关注点是什么?2)如何应用基金经理的后市观点辅助投资决策?3)如何度量基金经理的观点变化程度?
从公募基金2022年报展望看后市投资关键词
图表1:代表性权益、固收+、纯债基金的2022年报展望词云图
资料来源:中金公司研究部
► 其次,定义关键词频率,意指该关键词出现次数在该报告期所有词频数量中的占比:
► 最后,计算词频变化比例,并对词频变化比例进行降序排列:
权益基金:多数看好后市经济复苏,对权益市场走势保持乐观
较多权益基金经理对于经济复苏和市场上行的确定性拥有信心。代表性权益基金经理关注度边际增长最多的关键词为:1)复苏:多数基金经理认为国内经济有望逐步复苏,另外部分基金经理认为实体经济复苏的过程或将相对缓慢;2)信心:在经济基本面上行预期下,多数基金经理对未来权益市场中的机会较有信心,同时也有部分基金经理认为市场信心的建立需要一定时间。
图表2:代表性权益基金词频增长Top10(2022年报)
注:上图展示词频为去除部分停用词后筛选结果,此外,为确保关键词的代表性充分,我们对数量较低的词频进行了人工剔除,本节所有展示图片均适用这一原则
资料来源:Wind,中金公司研究部
图表 3: 代表性权益基金的2022年报展望文本节选
注:本表中,我们展示了对关键词本身语义的判断,若关键词为红色加粗,则表示该句为正向情绪,若关键词为蓝色加粗,则表示该句为负向情绪
资料来源:Wind,中金公司研究部
固收+基金:对于消费和政策的关注度边际提升
2022年报中,固收+基金经理对于消费的关注度环比明显提升。代表性固收+基金经理提及频率明显增长的关键词为:1)消费:多数基金经理认为2023年将迎来消费端的修复与增长;2)政策:基金经理对于地产政策、货币政策、疫情政策以及部分行业政策拥有较多关注。
图表4:代表性固收+基金词频增长Top10(2022年报)
资料来源:Wind,中金公司研究部(注:截至2023-04-15)
图表5:代表性固收+基金的2022年报展望文本节选
资料来源:Wind,中金公司研究部
纯债基金:多数认为债券市场或波动加大
部分纯债基金经理预期2023年债券市场或波动加大、迎来震荡。在权益和固收+基金经理也频繁提及的“消费”、“政策”、“增长”、“经济复苏”以外,代表性纯债基金经理对于“调整”和“波动”的关注度也边际提升,较多提及1)债券市场2023年或呈现震荡行情,波动或加大;2)经历4Q22的调整后,信用债具备一定的配置性价比。
图表6: 代表性纯债基金词频增长Top10(2022年报)
资料来源:Wind,中金公司研究部
图表7: 代表性纯债基金的2022年报展望文本节选
资料来源:Wind,中金公司研究部
挖掘基金经理展望文本中的择时观点与行业观点
在上节中,我们运用基金年报与中报的展望文本信息,通过关键词提及频率的边际变化,找到了基金经理对于后市的核心关注点。那么,基金经理的后市观点是否具有投资指导意义?我们应当如何应用基金经理的后市观点辅助投资决策?本节内容将从市场择时与行业配置两个维度,对上述问题做出解答。
本节分析所依据的基金样本为剔除赛道型产品后的主动权益基金,展望文本时间区间为2011/12/31至2022/12/31。此外,考虑到年报与中报的披露频率相对较低,本节将部分样本所披露的季报展望文本也纳入文本分析范畴,以提升样本信息量与分析精准度。依据基金报告披露规则,季报未强制要求披露基金经理的后市展望信息,但据我们统计,在2022基金年报中披露展望文本的样本为1772只,在2022基金四季报中披露展望文本的样本有649只(占比约37%)。
图表8: 披露展望文本的样本数量统计
资料来源:Wind,中金公司研究部
基金经理展望观点与实际持仓是否一致?
在正式开始探讨是否能够借助基金经理后市观点辅助投资决策之前,我们首先对基金经理展望观点的信息有效性进行一个简单的检验。按照我们的预期,在样本数量足够的前提下,基金经理对某一特定行业提及频率较高,即代表着对这一领域关注度较高,且在中长期维度上大概率呈乐观态度,那么这一行业配置观点也应当在基金的后期持仓有所体现。否则,若基金展望文本的信息有效性不足,则基金经理的行业观点或与后期实际持仓呈现较低的相关性。
为使得行业词频统计相对精准,我们在统计时遵循如下原则:
► 采用申万一级和二级行业作为文本来构建行业词典,并对目标文本进行分词;
► 对于出现频率较高但并未完全精准匹配到行业词典中的行业关键词,我们再进行一步手动匹配。
经过上述处理后,我们再按照如下步骤进行统计:
► 对每只样本产品,在半年维度上,我们将申万一级行业一分为二,分别为:a)样本产品在该期中报/年报展望文本中提及的行业;b)样本产品未在该期中报/年报展望文本中提及的行业;
► 分别看“相关提及行业”与“未提及行业”在基金下一期季报的持仓占比均值(如半年报为每年8月披露,则相应检验10月披露的三季报持仓,再如年报为每年3月末披露,则相应检验4月披露的一季报持仓),以验证基金经理的行业观点是否与其实际行业持仓具有相关性。
经检验,相关提及行业的持仓占比均值高于未提及行业,符合我们的预期,因此可以认为基金经理展望文本中的有效信息含量相对充分。
图表9: 2016年以来相关提及行业与未提及行业持仓占比均值
资料来源:Wind,中金公司研究部
基于展望文本的情感分析框架搭建
接下来我们为基金经理展望文本搭建情感分析框架,希望基于这一视角,判断基金经理对于后市的乐观程度。由于样本选用权益基金,因此我们也可以认为,基金经理对于后市的乐观程度即反映了其对于权益市场的择时观点。
具体而言,我们的情感分析框架基于如下原则搭建:
► 情感分析:对展望文本进行分词后,我们借助cnsenti库中的sentiment_count接口,并添加中文金融情感词典(共9228个词语,其中消极词语共5890词,积极词语共3338词)作为用户情感词典,丰富库中的积极情感与消极情感词汇语料。
► 词频统计:统计基金年报、中报、季报展望文本中的积极情感词汇。
► 平滑处理:就展望文本而言,季报时效性较好,但数据缺失值较多,而年报和中报数据虽然披露数据量较全,却有着时效性相对较差的问题。因此,我们对数据做平滑处理,基于季报(每年1月底、4月底、7月底、10月底)发布时间点,按照时序混合年报和中报(每年3月底、8月底)的积极、消极词汇,从而计算每个季报发布期的积极、消极情绪词频。
► 区间划分:相比于情绪指数的绝对数值,我们更加关注情绪指数的边际变化。因此,我们定义,若当前积极情绪指数的一阶差分大于0,则下一期为乐观区间,反之,若积极情绪指数的一阶差分小于0,则下一期为悲观区间。
图表10: 中文金融情感信息
资料来源:姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页;中金公司研究部
按照上述步骤,我们得到了4Q11至1Q23期间,基于基金经理展望文本的乐观与悲观区间划分结果,并与沪深300指数走势进行比对。我们认为,若乐观与悲观区间能够与宽基指数的涨与跌形成较好的对应关系,即可以认为,基于基金经理展望文本得到的市场观点可以预测下一季度权益市场走势。
图表11:2012年以来股票市场乐观悲观区间划分
资料来源:Wind,中金公司研究部
从基金经理展望文本挖掘行业观点
承接上文的乐观与悲观区间划分结果,我们还可以进一步挖掘基金经理展望文本中的行业配置观点。同时我们认为,若将基金经理的择时观点与行业观点相结合,展望文本信息的有效性或能够进一步提升,具体而言,在基金经理预期乐观区间,我们从文本中提取出行业观点可能更倾向于帮助我们找到未来收益弹性较高的行业;而在基金经理预期悲观区间,我们从展望文本中得到的行业则不一定具备非常好的上涨弹性,可能观点偏向于防御与保守。基于上述思想,我们按照如下步骤,检验基金经理展望文本中的行业配置观点是否具有投资指导意义:
► 首先,依据上文的情感分析框架,得到基金经理预期乐观与悲观区间;
► 随后,以年报和中报的行业词频为样本(其中,我们剔除了每期词频小于50的行业以提高数据的稳定性),计算当期行业词频相对上期的变化率(具体计算原则见第一节的词频变化比例指标word_freq_chg);
► 最后,按照行业词频变化比例从高到低对行业进行排名,分别得到各期词频变化Top 3行业组合与Top 5行业组合,计算报告发布后(3月末、8月末)起20、40、60交易日内的行业收益率,并与Wind全A指数的同期涨跌幅进行对比。其中,对乐观与悲观区间的行业组合分别统计。
统计结果表明,在乐观区间,展望文本词频变化率Top 5行业在未来20日平均收益率、Top 3行业在未来40日平均收益率表现较好,相对Wind全A指数,前者胜率89%,后者胜率78%。即使在2022年极端行情下,例如2022年3月31日之后,Top 5行业平均20日收益率为-5.34%,Wind全A指数收益率为-8.91%;Top3行业平均40日收益率为-0.82%,Wind全A指数40日收益率为-3.44%。
另外,在悲观区间中,我们也对相应的Top 5行业与Top 3行业未来收益率均值进行统计,结果表明,从基金经理展望文本中提取出的行业观点难以超越市场,行业平均收益率跑输基准。值得注意的是,我们此处的择时观点与行业观点出现了一定的时间节点错配,即划分乐观与悲观区间的时间节点为1、4、7、10月末,而获取行业词频的时间节点为3、8月末,因此,我们在依据行业词频变化进行20、40、60交易日的后市涨跌统计时,可能出现统计时段超出当期乐观或悲观区间的情况。在这一前提下,报告发布后20交易日涨跌幅的指标可参考性或相对更高。
图表12:乐观区间前五行业与前三行业20个交易日平均收益率
资料来源:Wind,中金公司研究部
图表13:乐观区间前五行业与前三行业40个交易日平均收益率
资料来源:Wind,中金公司研究部
图表14:乐观区间前五行业与前三行业60个交易日平均收益率
资料来源:Wind,中金公司研究部
图表15:悲观区间前五行业与前三行业收益率统计
资料来源:Wind,中金公司研究部
基金经理展望观点的一致性度量
在前两节中,我们将样本基金经理看作一个整体,试图从聚合后的展望文本信息得到其关于后市的一致性观点,以及检验其中蕴含的择时与行业观点是否能够预测后市走势。在本节中,我们进一步将视角落到基金经理的个体差异,尝试从基金经理各期展望文本出发,得到每位基金经理的观点环比相似度时序值,据此判断基金经理的历史观点一致性。
具体而言,我们首先将每一位基金经理管理时间最长的基金筛选出来,将其年度和半年度展望文本作为该基金经理的展望样本。通过对于上述文本样本的处理和计算我们可以最终得到基金经理在每一个时间节点发出的展望观点与上一期的展望观点文本的相似性,从而得到基金经理观点的一致性度量。
文本信息提取
在充分分析各类文本信息特点后,我们使用相应的NLP模型处理解析上述文本材料,主要分成三大步骤:1)文本数据预处理;2)word2vec解析词向量;3)计算相邻基金经理展望的文本的词向量的相关性。
图表16:基金经理展望文本信息处理流程图
资料来源:中金公司研究部
文本数据预处理
由于获取的文本数据有诸如格式解析、字符乱码等问题,对文本结构化解析带来了一定困难,同时中文文本天然具有缺乏空格分隔词语的特性,因此对于文本段落进行预处理以及分词处理才能适应后续模型,构造初步静态的词向量解析数据。文本数据预处理主要包括以下三大步骤:
► 特征数据筛选:我们主要使用三类基金经理的展望数据,分别是:权益、固收+和纯债基金经理。文本主要由年度展望和半年度展望组成。
► 无效字符过滤:由于文本在解析前包含许多解析错误字符以及无效符号、乱码,因此尝试使用正则表达式过滤文本,由于后期使用静态词向量解析模型,即词的含义无法随语境的变化而变化。根据此特点,我们认为数字和标点没有实义,解析数字和标点无助于识别主题,因此设计只保留包括大小写的关键英文词汇和中文词语,得到解析后的文本。
► 文本分词:借助python中的中文分词组件jieba库中的cut分词功能,对过滤后的文本进行分词。jieba库中主要有三种分词模式,本文主要选择精简模型进行分词。分词后去除分词结果中的停用词。停用词是指在文章中出现频率很高的无实义词,例如“了”,“是”,“等等”等词,通常认为其存在无助于实义解析,因此在分词后删除。将过滤完的结果存为txt文本格式,txt中一行来自于一个文本样本,每个词以空格分隔。
图表17: 数据预处理示例
资料来源:Wind,中金公司研究部
Word2vec文本向量化
Word2vec是Word Embedding 的方法之一,其主要功能是将词转化为向量,将未标记的原始语料库转换为标记数据(通过目标词映射上下文或者通过上下文映射目标词),而词与词之间的关系则由向量的相互映射关系记录进词向量。本文对于过滤分词后的文本进行Word2vec词向量解析,主要分为以下三个步骤:
► 模型输入:承接在文本数据预处理板块得到的文本结构数据结构,使用gensim.models中的LineSentence函数按行读入文本数据,其中一行对应于一段文本,文本以空格分隔,每两个空格之间即为一个分词后的词语。值得注意的是,各文本经分词后得到的词语个数不用强制保持一致。
► 模型设计:模型基于gensim.models中的Word2Vec函数进行设计。在参数选择上,设计参数为:window(窗口长度)为10,min_count(最小词频)为5,vector_size(词向量维度)为100,sg为0(使用默认的CBOW模型,即使用窗中涵盖的周边词去预测中心词,得到Word2Vec模型下对词向量解析的结果)。模型实例如下所示,在window等于5的参数条件下,即用周边的词预测中心词来实现词义和词间关系的保留。
► 模型输出:由于之前设计的vector_size(词向量维度)为100,则得到每个词解析下的结果即为长度为100的向量。文本词向量可以包含词间的语义信息,而词语之间的关系可由词向量的相互映射关系来记录。CBOW(window=5)模型对于“联合国专家表示中国带动了全球贸易与经济复苏”的解析示意图如下:例如对于“带动”的预测,输入为“表示”,“中国”,“全球”,“贸易”的词向量,输出目标为“带动”的词向量,计算通过单层神经网络模型实现。
图表18:CBOW模型预测示意图
资料来源:中金公司研究部
基金经理展望相似度计算结果
在经过一系列文本处理后我们可以得到基金经理展望文本的向量化数据,在这一部分我们基于展望的向量数据计算三类基金经理每一期相对上一期的展望内容的文本相似度,作为基金经理的展望观点一致性度量。我们将少于2条展望一致性的基金经理剔除以提高数据的稳定性。剔除后统计每一期三类基金经理展望文本数据量,其中权益基金文本数量最高,其次为固收+基金,纯债基金年度展望数量最低,2015年以前年度和半年度文本数量均少于10份,因此其一致性得分波动较高。
图表19: 三类基金经理展望文本数据量
资料来源:Wind,中金公司研究部
图表19: 三类基金经理展望文本数据量
资料来源:Wind,中金公司研究部
图表20:三类基金经理展望文本相似度平均
资料来源:Wind,中金公司研究部
除基金经理展望一致性得分均值这一维度外,我们还可以通过统计每一期基金经理展望一致性超过某一阈值的占比变化来衡量基金经理对于市场未来观点的一致性。
我们设置基金经理展望一致性阈值为0.3,在剔除样本量少于2的基金经理样本后分别得到三类基金经理观点一致性超过0.3的基金经理数量占该类基金经理数量之和的占比,最终得到全市场基金经理展望观点一致性序列如图,纯债基金比例数据早期由于样本量过低波动较大。
图表21:展望一致性得分超过0.3的基金经理占基金经理总数的占比
资料来源:Wind,中金公司研究部
总体来看基金经理超阈值占比走势和展望一致性平均值走势基本一致,均呈现出先低后高的走势,且固收+基金经理一致性总体高于权益基金经理观点一致性,纯债基金展望观点波动较大。展望一致性在2018年年底左右出现最低点,并在2021年底又出现上升趋势。
在2012年左右,国内基金经理数量处于较低水平,早期年度展望等内容的写作格式可能较为单一,总体一致性更强。2015年后随着基金经理数量的不断增加,展望的内容也逐渐多样化,基金经理观点一致性逐渐减弱。由于我国2019年左右应对疫情得当,沪深300指数在2019和2020年实现36%和27%的涨幅。当期基金经理展望一致性达到历史最低,对于接下来市场发展的观点转变较大。2021年和2022年沪深300指数的结果也均为下跌,跌幅分别为5%和22%。2022年基金经理展望观点一致性逐渐回升,截至2023年4月13日,沪深300指数涨幅为5个百分点。
为了检验基金经理观点一致性指标和市场的相关性,我们使用上述基金经理一致性均值和基金经理一致性阈值比例分别计算与展望报告发布时点间隔的沪深300指数以及中证全债净价指数的市场收益率、未来一期市场收益率、市场波动率、未来一期市场波动率、市场收益动量、未来一期市场收益动量计算相关系数。我们将市场收益动量定义为当期与前一期的收益率方向一致时值为1,否则为0的指示变量。
图表22:基金经理一致性得分与沪深300指数相关指标的相关系数
资料来源:Wind,中金公司研究部
我们发现相关系数计算从侧面支持了上述假设,首先我们发现权益文本平均指标和收益率动量指标相关系数达到了56%,说明当市场收益率方向变动时,基金经理观点会较上一期有较大改变,这一结果和基金经理一致性度量的构造原理较为吻合。另外权益一致性的平均值和超阈值占比与未来一期沪深300的收益率都存在较高负相关性,可能的原因为当权益基金经理展望观点对于市场由悲观或看平转为看涨时,其观点文本表述方式一般会发生明显转变,此时一致性较低,未来市场收益率大概率走高,而当基金经理判断市场收益转低时,其文本表述的转换程度可能不及由低转高时明显,因此观点一致性较低时后市有更大几率看涨。此外固收+基金文本一致性与沪深300指数的当期波动率和未来一期的波动率也有较高相关关系。
图表23: 基金经理一致性得分与中证全债净价指数表现的相关系数
资料来源:Wind,中金公司研究部
我们将沪深300指数替换成中证全债净价指数,计算固收+和纯债基金一致性指标和市场指标的相关系数。其中相关系数绝对值最高的一组为固收+文本平均值指标与未来一期中证全债收益动量指标,达到了48%。这表明固收+基金经理一致性较高时,下一期的收益率方向与当期收益率方向有更大几率一致。基本吻合当固收+基金经理当期展望观点与上期展望观点趋向一致时,未来一期的收益率方向与当期收益率方向有更大概率相同这一直观认识。纯债一致性对于未来一期收益率动量也有类似的效果但相关系数要显著低于固收+基金经理展望文本,而上文的权益类平均则是与当期的收益率动量更强相关。以上现象可能说明固收+基金经理展望文本相对于纯债或权益类基金经理来说对于未来一段时间市场收益率的方向具有更加前瞻性的判断。
Source
文章来源
本文摘自:2023年4月19日已经发布的《如何挖掘基金经理展望文本中的隐含信息?》
李钠平 联系人 SAC 执业证书编号:S0080122070045
郑文才 联系人 SAC 执业证书编号:S0080121120041 SFC CE Ref:BRF083
胡骥聪 分析员 SAC 执业证书编号:S0080521010007 SFC CE Ref:BRF083
孙丁茜 分析员 SAC 执业证书编号:S0080522100001
刘均伟 分析员 SAC 执业证书编号:S0080520120002 SFC CE Ref:BQR365
Legal Disclaimer
法律声明
本篇文章来源于微信公众号: 中金量化及ESG