中金 | 另类数据策略(3):文本信息助力主题投资

admin1年前研报702

Abstract

摘要



主题投资为投资者提供多元化的资产配置方式


何为主题投资?主题投资是一种投资于特定主题或趋势的策略,从而捕捉由经济、社会和科技变化带来的潜在投资机会。近年来,主题投资进一步发展为一种系统化的投资策略,强调在特定主题下寻找投资机会。现代主题投资借助人工智能等技术,能够更精确地筛选和挖掘潜在的投资标的。


为何关注主题投资?2023年以来,A股市场频频出现主题投资的机遇,从ChatGPT到中特估的相关标的均为投资者带来一定收益。此外,多数海外金融机构均已布局主题投资(如Fidelity、BlackRock),捕捉主题投资带来的收益潜力。



从新闻文本数据中捕捉主题词汇,匹配成分标的


如何从新闻中捕捉当期有效的主题词语?首先我们筛选在选定时间区间内出现次数大于一定阈值的主题词,确保主题词具有一定热度;其次,我们用构建的负面主题词表剔除无关主题词语;最后,我们计算出现主题词的新闻情感得分均值,剔除情感得分为负面的主题词,避免选取热度较高,但市场情绪偏低的主题词语。


运用NLP与新闻文本数据匹配成分股。我们利用Word2Vec模型找到和主题词相似度高的主题词相关词,若筛选出的公司有效新闻包含主题词或主题词相关词,则将主题词和该公司进行匹配,从而完成主题成分股的筛选。



主题投资的多种运用方式:辅助主题指数的构建、捕捉主题动量溢出、构建主题投资策略


提前识别热门主题,辅助主题指数的构建。一般而言,主题从进入大众视野到形成相关指数具有一定滞后期,而在滞后期间相关主题或具有一定投资机会。我们从新闻中构建的主题信息可以弥补这一方面的缺陷,在前期为投资者提供相关标的信息。此外,我们也可以在后期为主题指数提供从新闻中捕捉的成分股信息,补充主题指数成分股和投资机会,优化指数整体走势。


主题存在一定动量溢出效应。我们用主题动量减去公司自身动量,构建主题动量因子,捕捉主题的动量溢出效应。主题动量因子在中小市值股票范围内具有较好表现,其中一个月日内动量因子在中证1000的IC均值实现6.36%,ICIR达到0.75。同时整体而言主题动量因子的多头选股能力有所提升,其中一个月普通和日内动量因子的改善较为显著。


结合公司信息,构建主题投资策略。我们发现低热度高变化的主题组合长期表现相对较优,因此根据主题的热度和变化两个变量划分四象限,聚焦低热度高变化的主题,同时关注分析师高预期、过去一年涨幅强且存在超大额资金流向的主题,增厚主题轮动组合整体收益,构建的主题轮动组合从2013年以来年化收益可达17.16%。


风险

模型基于历史数据构建,未来可能存在失效风险;全文模型结果基于文本数据来源的稳定性,当文本数据来源发生变化时,模型效果也会出现偏差,例如数据商提供另类数据时可能会对数据进行初步筛选和处理,处理方法变更可能对模型表现有影响;本文提到的所有量化模型仅在特定的测试框架下可以达到文中展示的测试效果,测试框架变化会对模型表现有一定影响。


Text

正文


主题投资面面观




何为主题投资?


何为主题投资?主题投资是一种投资于特定主题或趋势的策略,从而捕捉由经济、社会和科技变化带来的潜在投资机会(Ross et,al.,2023)。近年来,主题投资进一步发展为一种系统化的投资策略,强调在特定主题下寻找投资机会。现代主题投资借助人工智能等技术,能够更精确地筛选和挖掘潜在投资标的。


为何关注主题投资?2023年以来,A股市场频频出现主题投资的机遇,从ChatGPT到中特估的相关标的均为投资者带来一定收益。此外,多数海外金融机构均已布局主题投资(如Fidelity、BlackRock),捕捉主题投资带来的alpha潜力。


图表1:为何关注主题投资

资料来源:中金公司研究部


主题投资的关注度不断提升。从传统的行业投资到现代主题投资的崛起,投资者对主题投资的关注度逐渐提升。早期投资者将重点放在特定行业,随着经济和市场的发展,投资者逐渐开始注意到特定行业中的某些主题和趋势,如新技术的兴起、社会变革或环境意识的增强,这为主题投资带来一定机遇。


主题投资具有许多优势。主题投资不仅可以为投资者提供多元化的资产配置、长期的增长潜力,也可以使投资与个人价值观和兴趣保持一致(Tamplin,2023)。


1. 多元化

主题投资可以提高资产组合的多元化程度,因为它允许投资者将资金分散到与特定主题或趋势相关的多个部门和行业,利用主题将不同行业之间潜在的联系刻画出来。这可以减少因市场波动和特定行业事件对其投资组合的影响,帮助投资者管理部分风险。


2. 长期增长潜力

海外主题投资侧重于长期趋势,主题投资随着时间的推移或将提供增长潜力。通过尽早识别和投资这些趋势,投资者有可能获得较为显著的回报。


3. 使投资与个人兴趣保持一致

主题投资可以将投资与兴趣结合起来,投资者通过选择投资与兴趣相关的主题,使投资标的与个人青睐的领域保持一致。


图表2:主题投资的优势

资料来源:Finance Strategists,中金公司研究部



主题投资带来潜在收益的同时,也具有一定风险。20世纪90年代末的互联网热潮引发投资者对互联网相关公司的投资热情,许多科技公司的市值大幅增长,但随后互联网泡沫破裂,这为我们揭示了主题投资的潜在风险。尽管主题投资可以捕捉到新兴趋势和机会,投资者也需要警惕过度热情、泡沫风险、商业模式的不确定性以及市场调整的可能性。


1. 集中度风险

主题投资的主要挑战之一是出现集中风险。大量投资于单一主题可能会导致更大的风险暴露或造成投资组合波动的提升。


2. 短期波动的可能性

由于市场波动和某些行业的快速变化,主题投资可能会存在一定回撤。投资者应为主题投资潜在的短期波动做好准备。


3. 难以预测未来趋势和发展

预测未来趋势和发展本质上是困难的,因此主题投资充满挑战。投资者需要不断监控和重新评估投资的主题,以确保它们具有长期增长潜力。


图表3:主题投资的劣势

资料来源:Finance Strategists,中金公司研究部



海外机构如何布局主题投资?


在现代投资领域,主题投资已成为一种备受关注的策略,许多金融机构都在不同程度上采用了这一方法。我们梳理了几家知名海外金融机构在主题投资方面的方法概述。


Fidelity结合价量数据和基本面数据,利用NLP技术对选定主题的成分股进行筛选。首先,他们会挖掘选中主题的子主题和相关业务活动,例如在清洁能源主题下的太阳能、风能和氢能。然后,他们通过市值和流动性等指标来筛选股票,从而过滤掉潜在风险较高的股票。最后根据主题相关性对股票进行排名,将公司的总收入、与主题相关的收入百分比和主题NLP相似度得分相结合,选择出最多30只股票构造选定主题的投资组合。


图表4:Fidelity主题投资步骤

资料来源:Fidelity,中金公司研究部


BlackRock根据主题评估体系构建主题轮动策略。BlackRock使用直接和间接的方式充分捕捉相关主题的成分股。直接方式为获取主题指数的成分股标的以及卖方研究员构建的主题股票池;间接方式为采用NLP技术,利用新闻、财报等另类数据将主题和公司相联系,从而识别主题的成分标的。捕捉到主题相关的成分股后,通过分析每一个主题的资金流、市场情绪、估值和其他指标,从而对主题进行评估,构建主题轮动策略,通过这种动态的分析和预测追求最大化阿尔法潜力。


图表5:BlackRock主题投资步骤

资料来源:BlackRock,中金公司研究部


Man Group采用麦肯锡的框架,将主题投资流程总结为几个关键步骤。首先利用另类数据和深度研究确定主题,另类数据包括PE和VC的交易数据,从中识别出前沿的主题;其次匹配和主题相关的成分股,Man Group同样使用到NLP技术识别和主题相关的关键词,并找到曝光率最高的公司;最后筛选并持仓多种主题从而分散风险,在选择主题时考虑供应链、行业、地理位置和基本面指标,从而使投资组合表现更加稳健。


图表6:Man Group主题投资步骤

资料来源:Man Group,中金公司研究部


因此,我们根据海外主题投资的经验,简单将主题投资分为三个步骤。首先是确定相关主题,可以从文本数据中捕捉潜在热点主题获得主题,也可以是在进行深度研究后确定主题方向;其次是利用文本信息匹配和主题相关的成分股;最后可以通过技术面、基本面等信息进一步对组合进行筛选,构建主题投资组合。


图表7:主题投资步骤

资料来源:中金公司研究部


利用NLP搭建主题与成分股之间的桥梁



本节我们使用数库的新闻数据,对新闻进行分词、筛选处理,从而捕捉热点主题词,并匹配和主题相关的A股上市公司。


图表8:主题识别步骤

资料来源:中金公司研究部



捕捉主题词汇


从新闻中捕捉主题


如何从新闻数据中提炼主题?我们需要对原始的新闻文本信息进行一定清洗。首先,我们将英文词进行统一大写处理,防止对同一主题多次提取;其次,我们将文本中的标点符号等停用词删除,并保留名词属性的词语;最后删除全数字和文本长度小于2的主题。筛选后的主题词语数量庞大,且有众多常用词语,如公司、有限公司等,因此我们需要构建负面主题词表,进一步对新闻热词进行筛选,从而降低部分市场噪音。


图表9:文本数据清洗步骤

资料来源:中金公司研究部


构建负面主题词表,降低部分市场噪音


为何需要构建负面主题词表?从文本中提取的数据中具有大量噪声,如公司、有限公司、注册资金等词语出现频率较多,对主题构建具有一定干扰性。因此我们可以利用常用词变化率较低的特性以及数库现有的主题词语,筛选出变化率较低以及和现有主题词语相关性偏低的词语,构建负面主题词表,降低部分市场噪音。


剔除主题词语变化率波动较低的词语。我们使用Dolphin DB对每个月出现的词语数量进行统计,并计算词语数量变化率的波动率,若词语波动较低,我们认为这些词语很可能是常用词或是无关词语,如有限公司或者人物姓名等情况,因此将这部分词语剔除。


剔除和现有主题相似度偏低的词语。数库字典中存在371个现有主题,我们首先利用清洗好的新闻主题词语训练Word2Vec模型,得到和数库字典现有主题相似度低的词语列表,如伦交所、北方网等词语,这部分词语所包含的主题意义相对偏低,因此需要进行筛除。


人工核查其余词语。为了进一步确保主题词库具有一定投资意义,我们在上述两步筛查的基础上进行少许人工核查,得到负面主题词表,用于后续筛选主题词汇。


图表10:负面主题词表构建步骤

资料来源:中金公司研究部


筛选热点主题


如何从新闻中捕捉当期有效主题词语?首先我们筛选在选定时间区间中大于一定阈值的主题词,确保主题词具有一定热度;其次,我们用上文构建的负面主题词表剔除无关主题词语;最后,我们计算出现主题词的新闻情感得分均值,剔除情感得分为负面的主题词,避免选取热度较高,但市场情绪偏低的主题词语。


图表11:筛选主题词步骤

资料来源:中金公司研究部



匹配标的公司


在筛选出每一期的主题词后,我们需要匹配主题词和相关成分股,本节我们依然使用数库的新闻数据,完成主题和成分股的匹配工作。


筛选和公司相关的有效新闻。数库新闻数据中包含公司和新闻之间的相关性得分,以及新闻情感得分和公司在该条新闻中的情感得分。我们需要利用这三类数据对公司新闻进行筛选,从而捕捉到和主题相关的有效新闻。首先我们需要保留和公司相关程度较高的新闻,从而保证利用新闻数据匹配公司的准确性;其次在做公司匹配时,我们发现部分新闻文本为“公司不属于某主题”,因此我们需要筛选正面情感得分的新闻,进一步提高匹配的有效程度。


运用NLP与新闻文本数据匹配成分股。我们利用上文中训练得到的Word2Vec模型找到和主题词相似度高的主题词相关词,若筛选出的有效新闻包含主题词或主题词相关词,我们将主题词和相关公司进行匹配,从而完成主题标的公司的筛选。


如何进一步优化主题成分股?我们发现利用上述方式筛选成分股后,部分主题的成分股数量呈现大幅提升的趋势。因此,当某一主题成分股数量超过一定阈值后,我们将剔除只有一条新闻包含主题词或主题词相关词的公司,排除新闻匹配的偶然性,进一步优化主题成分股的选择。


图表12:匹配标的公司步骤

资料来源:中金公司研究部


主题投资有哪些应用?




提前识别热门主题,补充主题指数标的


提前识别热门主题,辅助主题指数的构建。一般而言,主题从进入大众视野到形成相关指数具有一定滞后期,而在滞后期间相关主题或具有一定投资机会。我们从新闻中构建的主题信息可以弥补这一方面的缺陷,在前期为投资者提供相关标的信息。


以一带一路主题为例,我们在2014年6月可以识别出一带一路的主题词,并匹配相关成分股;而该主题指数的发布日期为2015年2月,若此时布局该主题,无法捕捉到主题前期带来的收益。因此,我们在布局新型主题投资时可以利用新闻中捕捉到的主题信息,从而辅助主题指数的构建。


图表13:部分主题指数明细

资料来源:Wind,中金公司研究部


利用新闻数据构建的主题指数整体符合大众认知。我们以5G、一带一路、ChatGPT和中特估四个主题为例,对比用新闻主题信息构建的主题指数与现有主题指数的整体走势。我们按照月度频率根据上文的方法识别指定指数的成分股,并且剔除ST股、停牌股、上市未满一年股票和换仓日停牌股票,权重根据对比的真实指数采用等权或市值加权的方式。我们发现整体而言,新闻主题指数和现有主题指数走势一致,表明用新闻筛选出的主题成分股比较符合大众对该主题的认知。


补充主题指数的成分股。此外,我们发现在5G、一带一路和中特估这三个主题中,用新闻数据构建的主题指数走势整体优于现有主题指数。因此,新闻主题数据除了可以在前期捕捉到主题的投资机会,也可以在后期为主题提供相关标的资产,补充主题指数成分股和投资机会,优化指数整体走势。


图表14:新闻主题指数构建方式

资料来源:中金公司研究部


图表15:5G主题

注:5G主题指数基期晚于新闻主题识别日期

资料来源:Wind,ChinaScope,中金公司研究部


图表16:一带一路主题

资料来源:Wind,ChinaScope,中金公司研究部


图表17:ChatGPT主题

资料来源:Wind,ChinaScope,中金公司研究部


图表18:中特估主题

资料来源:Wind,ChinaScope,中金公司研究部


关注真实主题指数和新闻主题指数的成分股交集。我们利用从新闻中捕捉的主题成分股,对现有的主题指数进行改进,即每月取两类指数成分股的交集和并集构建新的主题指数。由下图可知,真实主题指数和新闻主题指数的成分股交集对原有指数有一定改善。此外,5G和一带一路主题指数的成分股并集表现较优,投资者也可关注相关主题的新闻成分股,捕捉真实主题指数外的投资机遇。


图表19:5G主题(改良指数)

资料来源:Wind,ChinaScope,中金公司研究部


图表20:一带一路主题(改良指数)

资料来源:Wind,ChinaScope,中金公司研究部


图表21:ChatGPT主题(改良指数)

资料来源:Wind,ChinaScope,中金公司研究部


图表22:中特估主题(改良指数)

资料来源:Wind,ChinaScope,中金公司研究部


图表23:原指数和改良指数的统计值对比

注:基准指数为Wind全A(8841388.WI),样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表24:5G主题公司数量

资料来源:Wind,ChinaScope,中金公司研究部


图表25:一带一路主题公司数量

资料来源:Wind,ChinaScope,中金公司研究部


图表26:ChatGPT主题公司数量

资料来源:Wind,ChinaScope,中金公司研究部


图表27:中特估主题公司数量

资料来源:Wind,ChinaScope,中金公司研究部


图表28:5G主题(改良指数,新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表29:一带一路主题(改良指数,新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表30:ChatGPT主题(改良指数,新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表31:中特估主题(改良指数,新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表32:原指数和改良指数的统计值对比(新闻指数成分股取市值排名前50)

注:基准指数为Wind全A(8841388.WI),样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表33:5G主题公司数量(新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表34:一带一路主题公司数量(新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表35:ChatGPT主题公司数量(新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表36:中特估主题公司数量(新闻指数成分股取市值排名前50)

资料来源:Wind,ChinaScope,中金公司研究部


图表37:利用新闻主题信息优化主题指数

资料来源:中金公司研究部



主题存在一定动量溢出效应


我们在《量化多因子系列(8):供应链如何实现动量传导?》中构建了供应链动量差因子,用公司客户的动量减去公司自身动量,引入供应链中的增量信息,利用供应链动量溢出效应改进动量因子。本节我们将用主题动量减去公司自身动量,构建主题动量差因子,探讨主题是否也存在动量溢出的效应。


主题动量 = 该公司所属主题动量均值 – 该公司动量


主题动量有效性表现良好。我们对不同种类和不同期限的主题动量因子进行IC有效性测算,整体而言主题动量的IC有效性表现良好,其中一个月普通、日内和振幅调整主题动量对下一期股票的预测能力较为显著。因此我们后文以这三个因子为例,对比主题动量是否对公司自身动量的选股能力有部分改善效果。


主题动量在中小市值股票范围内具有较好表现。主题动量因子在中小市值股票范围内的有效性较为显著,其中一个月日内动量因子在中证1000的IC均值实现6.36%,ICIR达到0.75。


图表38:全市场主题动量IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表39:沪深300主题动量IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表40:中证500主题动量IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表41:中证1000主题动量IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表42:动量因子构建方式

资料来源:中金公司研究部


图表43:主题动量因子覆盖率

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


主题动量因子在计算机、电子行业有效性表现良好。分行业来看,三种主题动量因子在计算机、电子行业均有较为出色的表现,其中一个月日内主题动量在计算机行业的IC均值为8.25%,ICIR为0.58。一个月振幅调整主题动量在机械行业实现6.59%的IC均值,ICIR达到0.63。一个月普通主题动量在计算机行业的IC均值达到7.28%,ICIR为0.54。


图表44:全市场mmt_intraday_M主题动量分行业IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表45:全市场mmt_range_M主题动量分行业IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表46:全市场Momentum_1M主题动量分行业IC有效性测试

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


主题动量因子选股能力较自身动量因子有所提升。我们对主题动量因子和自身动量因子进行组数为五的分组回测,由下图可知,整体而言主题动量因子的多头选股能力有所提升,其中一个月普通和日内动量因子的改善较为显著。


图表47:全市场mmt_intraday_M主题动量与自身动量多头净值对比

注:样本期为2013-01-04至2023-09-01

资料来源:Wind,ChinaScope,中金公司研究部


图表48:全市场mmt_range_M主题动量与自身动量多头净值对比

注:样本期为2013-01-04至2023-09-01

资料来源:Wind,ChinaScope,中金公司研究部


图表49:全市场Momentum_1M主题动量与自身动量多头净值对比

注:样本期为2013-01-04至2023-09-01

资料来源:Wind,ChinaScope,中金公司研究部


图表50:全市场mmt_intraday_M主题动量与自身动量分组回测统计值对比

注:基准指数为Wind全A(8841388.WI),样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表51:全市场mmt_range_M主题动量与自身动量分组回测统计值对比

注:基准指数为Wind全A(8841388.WI),样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


图表52:全市场Momentum_1M主题动量与自身动量分组回测统计值对比

注:基准指数为Wind全A(8841388.WI),样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部



主题投资:结合公司价量、分析师预期信息


主题分类情况概述


利用NLP技术对主题进行分类讨论。不同主题有各自特有属性,如再融资和公司行为相关,半导体和资管公司偏向于行业分类,而三胎、ESG则具有政策属性。因此我们用NLP技术,计算每一个主题和政策、产业、行业、股票这四个词语的相关性得分,根据每个主题的最高分所属词语对主题进行分类;同时我们也采用人工核查的方式,对个别不合理的主体分类进行微调。我们发现绝大部分的主体均属于行业大类,其中我们将行业大类细分为行业板块和产业发展两类,若主题名称包含中信、申万的行业名称则归为行业板块,否则归为产业发展类别。


图表53:主题分类情况

注:其他类别为该主题与政策、产业、行业、股票这四个词语的相关性得分均低于0.2;样本期为2013-01-04至2023-09-01
资料来源:ChinaScope,中金公司研究部


不同类型的主题净值走势是否存在分化?整体而言,行业板块、产业发展和其他的主题收益表现相对较优,公司大类的主题收益长期走势表现欠佳,而政策大类的主题存在阶段性机遇。


图表54:不同类型主题净值走势(月度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费

资料来源:Wind,ChinaScope,中金公司研究部


图表55:不同类型主题净值走势(周度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费

资料来源:Wind,ChinaScope,中金公司研究部


关注低热度高增速类型主题


低热度高增速组合收益表现较优,且在产业发展和行业板块表现较好。我们对不同大类的主题进行分组回测,发现在产业发展和行业板块中,低热度和高增速组合收益表现良好。此外,我们根据热度和热度变化对主题进行四象限分组,其中低热度高增速组合具有一定收益,且在产业发展和行业板块具有较优的表现。


图表56:新闻文本数据对主题的分组测试效果(月度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费,数据展示组合最终净值

资料来源:Wind,ChinaScope,中金公司研究部


图表57:新闻文本数据对主题的分组测试效果(周度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费,数据展示组合最终净值

资料来源:Wind,ChinaScope,中金公司研究部


图表58:利用热度和变化率对主题的四象限分组测试效果(月度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费,y轴展示组合最终净值

资料来源:Wind,ChinaScope,中金公司研究部


图表59:利用热度和变化率对主题的四象限分组测试效果(周度)

注:样本期为2013-01-04至2023-09-01,未考虑交易手续费,y轴展示组合最终净值

资料来源:Wind,ChinaScope,中金公司研究部


关注行业和产业板块,选择低热度高变化进行主题轮动。首先行业大类和产业板块的主题具有科技发展的推动力,从而为主题走势提供长期增长点;其次低热度高变化率的组合帮助我们聚焦潜在的亮点主题,并避免持有过热的股票标的。由于周度换仓成本较大,因此我们将关注月度频率的主题轮动策略。


图表60:排名前十主题组合净值(月度)

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三

资料来源:Wind,ChinaScope,中金公司研究部


图表61:排名前十主题组合净值(周度)

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三

资料来源:Wind,ChinaScope,中金公司研究部


图表62:排名前五主题股票池分年度收益统计

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三
资料来源:Wind,ChinaScope,中金公司研究部


图表63:排名前十主题股票池分年度收益统计

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三
资料来源:Wind,ChinaScope,中金公司研究部


图表64:排名前二十主题股票池分年度收益统计

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三
资料来源:Wind,ChinaScope,中金公司研究部


结合公司价量、分析师预期信息


引入分析师预期、动量和资金流因子,增厚组合收益。我们利用分析师预期、动量和资金流因子对主题进行分组回测,大多因子均有较强的单调性表现,存在一定选择主题的能力。因此我们在选择低热度高增长主题的基础上,增加关注分析师高预期、过去一年涨幅强且存在超大额资金流向的主题,增厚组合整体收益。


图表65:价量、分析师因子主题分组回测(只关注行业和产业板块)

注:样本期为2013-01-04至2023-09-01

资料来源:Wind,ChinaScope,中金公司研究部


图表66:因子构建方式

资料来源:中金公司研究部


四象限结合价量、分析师数据,捕捉主题轮动的潜在收益。我们根据上一个月主题出现的次数和变化率表现,将主题划分为四个象限,并关注低热度高变化象限内的主题组合。其次我们在该象限内综合价量、分析师因子得分,每期选出排名前十的主题构建主题股票池。


图表67:主题股票池净值走势

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三

资料来源:Wind,ChinaScope,中金公司研究部


图表68:主题股票池分年度收益统计

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三

资料来源:Wind,ChinaScope,中金公司研究部


主题股票池数量较多。由于部分主题的成分股数量较多,后续布局热点主题时可以进一步从每个主题中筛选部分公司,维持热点主题策略持仓数量的稳定性。


图表69:主题股票池公司数量

资料来源:Wind,ChinaScope,中金公司研究部


每个主题中聚焦相关度排名最高的五只股票。由于热点主题股票池数量较多,本文提供一个从主题落地到选股的一个思路。我们在每一个主题中取相关度排名最高的五只股票构建组合,组合收益整体表现较优,但整体持仓市值偏低,且在个别时间段存在一定回撤。


图表70:主题选股组合净值走势(每个主题选最相关的五只股票)

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三

资料来源:Wind,ChinaScope,中金公司研究部


图表71:主题选股组合分年度收益统计(每个主题选最相关的五只股票)

注:基准指数为500等权(399982.SZ),样本期为2013-01-04至2023-09-01,交易手续费为双边千三
资料来源:Wind,ChinaScope,中金公司研究部


主题选股组合持仓偏中小盘。如下图所示,我们统计了各期持仓的市值分布情况。从具体数据来看,持仓市值的中位数大体分布在200亿元以下,但75%分位数的市值分布具有一定波动。


图表72:主题选股组合市值分布

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


周期中游、一般消费和科技板块的股票数量占比较高。统计行业分布时,为方便展示,我们在中信一级行业的基础上划分了大类行业板块,具体划分标准如下表所示。从统计结果来看,持仓股票数量较为集中于周期中游、一般消费和科技板块。


图表73:大类板块划分标准(基于中信一级行业分类)

资料来源:Wind,中金公司研究部


图表74:主题选股组合板块分布

注:样本期为2013-01-04至2023-09-01
资料来源:Wind,ChinaScope,中金公司研究部


风险提示


另类数据通常来自多种来源,因此其质量和可用性可能不稳定,例如数据源可能存在内容的偏误或不完整等问题,这些问题可能导致最终模型产生不准确的信号。因此量化策略模型在使用另类数据时需要特别注意数据的质量以及稳定性,这也是另类数据和传统价量数据相比的明显劣势。此外另类数据可能是特定群体或事件的反映,而不是整个市场的代表,这可能导致样本有偏进而使得策略在某些特定情况下表现良好,但在其他情况下表现一般。本篇报告无法确保样本外收益表现,且无法确保使用其他新闻文本数据测试结果。





Source

文章来源

本文摘自:2023年9月12日已经发布的《另类数据策略(3):文本信息助力主题投资》

分析员 古   翔 SAC 执业证书编号:S0080521010010 SFC CE Ref:BRE496

联系人 曹钰婕 SAC 执业证书编号:S0080122030141 

联系人 郑文才 SAC 执业证书编号:S0080121120041 SFC CE Ref:BTF578

分析员 周萧潇 SAC 执业证书编号:S0080521010006 SFC CE Ref:BRA090

分析员 刘均伟 SAC 执业证书编号:S0080520120002 SFC CE Ref:BQR365


Legal Disclaimer

法律声明

特别提示

本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。

本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

一般声明

本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。

本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。

本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。


本篇文章来源于微信公众号: 中金量化及ESG

本文链接:https://kxbaidu.com/post/%E4%B8%AD%E9%87%91%20%7C%20%E5%8F%A6%E7%B1%BB%E6%95%B0%E6%8D%AE%E7%AD%96%E7%95%A5%EF%BC%883%EF%BC%89%EF%BC%9A%E6%96%87%E6%9C%AC%E4%BF%A1%E6%81%AF%E5%8A%A9%E5%8A%9B%E4%B8%BB%E9%A2%98%E6%8A%95%E8%B5%84.html 转载需授权!

分享到:

相关文章

招商定量 | 价值表现略有复苏,技术类因子表现低迷

招商定量 | 价值表现略有复苏,技术类因子表现低迷

投资要点过去一周因子表现综述从价值成长维度来看,价值表现有所复苏,表现略占优势。价值因子中的市净率(BP_LR)、市销率(SP_TTM)、营业收入公司价值比(Sales2EV)、市现率(OCFP_TT...

【温度计临近冰点】国投金工大市点评20240204

【温度计临近冰点】国投金工大市点评20240204

点击上方公众号可以关注哦!主要结论:温度计临近冰点反弹结构不平衡,导致市场的多头力量或主动或被动的向少数方向集中,最终在脆弱环境下引发市场整体的调整。这个现象在过去几年中多次出现,但这次1月底开始的反...

开源一席谈•会议预告:黄栋

开源一席谈•会议预告:黄栋

嘉宾简介:黄栋,数量经济学硕士,CFA,18年证券从业经历。曾先后就职于东方证券、工银瑞信基金、上投摩根基金、金鹰基金、人保资产管理公司,从事量化研究、基金投资管理相关工作。2021年10月起加入银河...

中证1000增强本周超额基准0.36%

中证1000增强本周超额基准0.36%

摘要 中证500增强      中证500增强以中证500为基准指数,精选基本面因子进行组合优化。    &n...

第五批专精特新明细及类“小巨人”浅析

第五批专精特新明细及类“小巨人”浅析

导读近期,第五批有望成为专精特新“小巨人”的企业名单开始公示。本次公示由各个省(区、市)工信部各自公示。我们收集了共计35个省(区、市)工信部公示的“小巨人”名单,并进行了详细的收集与整理。截至202...

中证500增强本周超额基准0.57%

中证500增强本周超额基准0.57%

摘要 中证500增强      中证500增强以中证500为基准指数,精选基本面因子进行组合优化。    &n...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。