【华安金工】人工智能可以读懂企业高管的想法吗?——“学海拾珠”系列之一百五十二
►主要观点
文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。
01
在信息丰富的情况下,经济主体如何处理信息?文本数据在金融中已经广泛应用(Goldstein等人,2021),提取和处理这些数据的成本在过去十年中大幅降低。即使是在公司报告过程中最基本的项目,如季度(10-Q)和年报(10-K),披露信息中信号的丰富性和复杂性会导致投资者忽视微妙但重要的信号,(Cohen等人。2020年)。
为了应对企业文件日益增加的长度和过度复杂内容(Loughran和McDonald,2014),以及管理层通过提供无关或非实质的细节来混淆负面信息的动机(Li,2008),文献介绍了几种内容分析措施。最突出的一种方法是基于一个单词列表,其中每个单词被分为积极或消极两类,即手工构建的词汇方法。文献中的早期论文使用了《哈佛心理社会学词典》中的单词分类来识别积极与消极的新闻内容(Tetlock,2007)。然而Loughran和McDonald(2011)(以下简称LM2011)认为,哈佛词典列表可能不适用于金融应用,因为这些词在金融语境中有不同的内涵。LM2011在年报告的基础上创建了一个全面的积极和消极词汇列表,并认为他们的消极词汇列表比哈佛的列表更能捕捉年报基调。
另一种改进了LM2011分类是词袋模型(bag-of-words type models),它主要基于词典中每个词的权重。模型可以通过线性回归(Jegadeesh和Wu,2013)或经典的机器学习技术,如支持向量机(Manela和Moreira,2017)来实现。
然而最近,Cao等人(2023)发现,在LM2011发表后不久,期望从EDGAR获得年报下载量高的公司,即对报告进行机器算法分类的几率较高的公司,开始避免使用LM负面词汇。这不仅削弱了基于字典的方法,而且削弱了严重依赖于文档中的单词计数的词袋模型。因此,随着公司报告的长度在过去十年呈指数级增长(Cohen等人,2020),对未来财务业绩的正面和负面信息内容进行分类和识别仍然是一项具有挑战性的任务。
大型语言模型LLM与经典的NLP方法不同,其中ChatGPT自2022年11月公开发布以来是最知名的一种。它们并不仅仅依赖于单词或其数量,而是能够识别文档中单词、句子和段落之间的关系。从理论上讲,LLM模型应该更擅长从金融文本数据中捕获信息,因为金融书面文本具有高度语境化的性质,而这很难用被基于词汇的模型捕获。不仅仅是经典NLP模型的失败,市场参与者本身也无法领会微妙的管理信息,这些信息隐藏在大量的文本中(Cohen等人,2020)。
目前,考虑到所需的计算资源,最可能访问和最容易实现的LLM是由Google开发的预训练BERT(Devlin等人,2009年)。BERT是在一个大型文本语料库上进行预训练的模型,该语料库涵盖了互联网一系列内容,而不只是关注公司报告的财务背景。因此,这可能是一个适用于企业文件分类的嘈杂模型。Huang等人(2022)将财务分析报告分为积极、消极或中性的10000句话进行微调,将BERT命名为FinBERT,并认为与其他基于词典的方法相比,FinBERT对财务报告的分类精度更高。虽然这是一种改进,但FinBERT在对人工标注文本进行微调时也存在问题,管理人员可以控制这些文本、从一个报告更改到另一个报告,甚至开始避免使用这些文本。的确,Cao等人(2023)研究表明,FinBERT负面情绪分类率在2018年后的发布样本中有所下降。在本文的结果中,作者发现2011年LM和FinBERT负面分类分数之间的相关性很高,为0.68。因此,FinBERT甚至可以在2018年之前继承LM-2011基于词汇的方法(Cao等人,2023)的类似问题。此外,它已经对人类标注的文本语料库进行了彻底的微调,而报告的语言及其长度一直在动态变化(Cohen等人,2020年)。
到目前为止,还没有一项全面的研究讨论以下几点:(i)在确定的季报和年报中关于未来现金流和公司整体财务业绩的积极和消极信息方面,一种方法如何与另一种方法进行比较;(ii)鉴于管理层调整语言,公司报告的分类是否完全准确(Cao等人,2023);(iii)企业内部人士是否能够沟通,市场参与者是否能够把握和提取报告复杂性背后的正确信号(Cohen等人,2020)。后者本质上是对市场效率的一种间接检验—在由人类和机器仔细审查的公开季报和年报等公司文件中,是否存在未被发现、尚未被市场参与者感知并纳入价格的隐藏信息?
为了回答这些问题,利用美国公司历年的季报和年报,作者在三种方法之间进行比较:(i)情绪组:关键词词汇情感(LM2011),LLM情感分类(FinBERT)或管理讨论的长度(MD&A,或风险因素部分);(ii)词袋组:一种基于分类、回归的方法,类似于Jegadeesh和Wu(2013)或Manela和Moreira(2017),但使用了更广泛的经典ML算法;(iii)下文中介绍的新型LLM方法。
与Cohen等人(2020年)类似,作者的分析重点是报告的MD&A和风险因素部分。图表1显示了年报的MD&A和风险因子RF的平均长度。从1994年到2021年,MD&A的平均长度增加了6倍,RF的平均长度增加了4倍。报告的长度和复杂性不断增加,使得投资者忽视了未来公司业绩的重要基础信息(Cohen等人,2020)。
比较的规则是什么?与传统的NLP方法对文件进行情绪评分不同,在金融领域,我们习惯于看到这些标识提供的经济增值。换句话说,任何提出的改进都应该体现为正面评级公司与负面评级公司在未来报告中的显著价格差异。
本文将进行如下处理。首先,在方法论方面做出了贡献,与字典/关键词、LM2011或人类标记的金融文本训练方法(如FinBERT)不同,本文针对金融目标训练算法。大多数文献使用盈余公告日回报,或盈余公告窗口附近的异常回报作为财务目标(见其他文献LM2011,Jegadeesh和Wu(2013))。这些财务目标建立在市场效率假设的基础上。然而,Cohen等人(2020)清楚地表明,市场对财务文件格式的变化没有任何反应,这些文件随后预测在报告公开后的一个季度内的几个月内会出现重大财务损失和负回报。此外,盈余公告回报也因投资者对负面和正面惊喜的反应不足或过度而闻名(Atmaz和Basak(2018),Golez和Goyenko(2022))。综上所述,这些因素使得盈余公告回报成为一个嘈杂的目标。相反,我们将下一季度盈余惊喜作为一个财务目标,因为这些基本信息经过审计,不依赖于市场的解释/反应。Cohen等人(2020)也表明,随后的公告确实反映了市场在上一季度公告中忽略的信息。此外,作为财务目标的盈余惊喜,作者通过已实现盈余与分析师共识预测的偏差来衡量,可以直接与市场忽略的信息内容对话。虽然该目标是通过先前研究未处理的高标准(LM2011,Jegadeesh和Wu(2013)),但这是唯一没有噪声的目标。为了衡量来自这些预测的经济盈余,作者遵循Cohen等人(2020),并根据未来盈余惊喜预测将所有公司分类为五分位投资组合,然后衡量未来长期赢家(正盈余惊喜)和短期未来输家(负未预期盈余)五分位组合策略的绩效表现。
其次,作者是第一个提出分层的LLM架构,可以处理任意长度的财务披露报表,并针对财务目标训练这些模型。首先训练一个从原始的、现成的BERT(Devlin等人,2018)衍生出来的模型来预测盈余惊喜,将其命名为FrozenBERT;也就是说,作者不改变或微调原始BERT模型中的任何参数,只训练一个预测网络,一个基于预训练BERT表示的Transformer层。其次,在训练预测盈余惊喜时,对原始BERT进行了微调;将此模型命名为FtBERT(“微调BERT”)。据作者所知,在金融文献中,从来没有对LLM模型这样做过。当公司动态地改变和调整语言以适应机器阅读时,FtBERT克服了LM2011或FinBERT的问题(Cao等人,2023),因为作者对FtBERT进行了动态的再训练,学习新发布的基础知识和与之相关的管理讨论。这种动态再训练的目的是学习、捕捉和调整识别以适应可能的语言调整,无论是在时间序列上还是在横截面上。FtBERT还克服了原始BERT的问题,原始BERT是在大型通用文本语料库上训练的,因此在捕获特定于金融的文档的内容时可能是一种嘈杂的表示。
本文的研究结果是关注LLM/ChatGPT类方法纯粹的金融情绪评分。虽然FinBERT(Huang等人,2022)已经被证明在更精确的情感识别方面优于LM2011字典和其他词袋模型,但在本文的投资组合排序分析中表现最差。与Cao等人(2023)相似,作者将FinBERT负面情绪得分计算为通过FinBERT句子进行负面排名的数量除以并购部分和RF部分的总句子数量。最终发现,在市值加权投资组合中,负FinBERT得分最高的五分位投资组合不仅会产生未来正回报,而且这些回报还会显著超过最低五分位投资组合的回报,即存在一个错误的符号。然而,这一结果在回归分析中无法经受住规模和账面市值比的控制,因此变得不重要。此外,无论是2011年的LM方法,还是基于流行的基于前馈神经网络的词袋模型,甚至更复杂的词袋模型,都没有提供显著的高-低五分位数投资组合收益差。也就是说,这些方法虽然有助于识别报告中的情绪,但在预测未来的财务表现时却没有帮助。
令人惊讶的结果是,与更复杂的情绪和词汇识别相比,一个非常简单的测量方法,即MD&A部分本身的长度,能够更好地预测未来的表现。具有较低的MD&A长度的公司显著优于那些具有较高MD&A长度的公司。例如,在市值加权的投资组合中,最低的MD&A长度五分位数的CAPM模型中alpha值为每年3.8%(t=3.35)。在控制了Fama-French五个因素(Fama和French,2015)和动量(Carhart,1997)后,这个数字下降到2.3%(t=2.13)。高-低策略,即依据MD&A长度的五分位数低买高卖,在市值加权投资组合中产生的CAPM alpha值为每年4.13%(t=2.48)。在控制Fama-French五个因素后,这个alpha变得不显著。因此,市场似乎没有完全将与公司规模、账面市值比、盈余能力和投资等基本因素相关的短期报告的积极信息,与长期报告中负向信息相结合。然而,这与之前文献中的结果一致,即报告长度的增加与公司绩效的积极信息无关(Li(2008),Loughran和McDonald(2014),Cohen等人(2020))。然而,在使用各种企业和时间固定效应或企业特征作为控制变量的回归分析中,这种方法并不稳健。
本文引入的微调BERT模型(fine-tuning BERT),即FtBERT,通过了所有的稳健性检验,即拥有最佳的性能。在模型中,最积极的盈余收益预测的五分位数比最消极预测的五分位数每月的表现高出0.56%(t=2.94),或未经风险调整的原始回报每年的表现高出6.74%。这种高-低策略的CAPM风险调整后的回报非常相似,每月0.5%(t=2.57)或每年6.01%。因此,它完全不受市场趋势的驱动。这一战略的经济重要性开始下降,同时增加额外的因素调整,从每年4%的Fama-French五个因素到每年3.71%的所有六个因素包括动量。这些数字不仅具有经济意义,也在统计学上也具有意义。
作者还发现,在FF6因素调整后,FrozenBERT在投资组合分类方面的表现与FtBERT非常相似,但在未调整或仅经过CAPM风险调整的回报方面,它比FtBERT预测的高-低投资组合每年约低2%。然而,FrozenBERT在识别积极盈余惊喜方面的表现,即高-低策略的多头,几乎与MD&A长度最低的五分位相同。因此在长期,最积极的盈余惊喜预测组合,它未能优于简单的字母计数法。然而,它在识别负面/空头投资组合选择方面做得更好。相比之下,FtBERT在确定未来财务业绩的积极和消极方面占主导地位。
作者是否发现了整个市场未能捕捉到在FtBERT中能够识别的信息的证据?并没有。在季报、年报提交日期前后,作者发现FtBERT能够正确预测未来价格影响、累积提交后回报,这是由于对消息反应迅速的机构交易引起的(Huang等人,2020年)。然而,本文研究结果也表明,对于市场的其他部分需要几个月的时间才能将这些信息完全纳入价格中。
为什么会这样?本文用分析师预测的标准差来计算分析师分歧,发现FtBERT预测信号最负和最正的组合也是分析师分歧最大的组合。这并不是因为小市值股,是因为在本文截面中,所有的股票都高于平均市场规模。而且,FtBERT预测信号组合中最积极的股票规模最大,平均市值约为120亿美元。因此,市场对未来增长选择的分歧反映在分析师的普遍分歧上,这可能是反应不足或价格调整缓慢的根源。
FtBERT使用的关注机制允许作者识别MD&A和风险因素部分中对未来绩效预测最有影响力的段落。一般而言,未来的积极表现与管理层就未来前景的讨论以及管理层承诺实施的即时短期措施有关,以增加未来收入。下一季度的高股票表现与管理层通过高效执行的承诺有关。
相比之下,未来的负面表现与管理层讨论有关,要么过度关注过去的业绩,要么,与Cohen等人(2020)一致,风险因素部分过度强调各种行业特定的风险。例如,临床试验风险的强制性风险披露和FDA对医疗行业的干预,使FtBERT能够很好地预测未来的回报,特别是负向盈余惊喜。
本文的其余部分组织如下:第2节描述分析中的主要数据,第3节描述本文中使用的所有NLP方法,第4节主要进行了实证分析,第5节为文章主要结论。
02
本文从几个来源获取数据。首先从SECEDGAR网站检索了1993年至2021年间提交的所有10-K、10-K405、10-KSB和10-Q文件。在Loughran和McDonald(2011)之后,通过删除标记标签、ASCII编码的图形、表格和其他非文本工件来解析每个归档文档。每个季度只包括一家公司的一份文件。在大多数情况下,在前三个季度使用10-Q(季报),在每个公司的财政年度的最后一个季度使用10-K(年报)。
其中是公司i在第t个月公布的实际季度每股盈余,是相应的分析师平均预测,是盈余公布前20天的股价。
对于每个月t,作者收集所有具有合格盈余惊喜的公司,并根据它们的从最低到最高进行排列。然后根据t月份的公司数量对排名进行标准化,得到标准化排名得分,其中在t时刻最低(最高)的公司得分为0(1)。标准化排名得分为目标变量。
I/B/E/S、CRSP和EDGAR数据具有不同的股票标识符。首先,使用沃顿商学院研究数据服务(WRDS)提供的IBES-CRSP链接表,将IBES的股票代码(I/B/E/S标识符)与CRSP中的股票标识符永久标识号(“permno”)进行匹配。其次,使用CRSP链接表将SEC分配的中心索引键(CIK)、10-K和10-Q文件标识符与permno进行匹配。
为了训练大型语言模型(LLM),作者对历史样本使用以下方法。首先,样本的前10年,即1993年1月至2002年12月,为初始训练样本。训练样本的最后6个月总是保留以供验证。因此,对于第一个训练样本,实际有9.5年的训练,最后半年为验证样本。其次,对2003年进行了前四个连续的季度预测,即样本外预测。也就是说,保持2003年的模型参数不变,每年只对模型进行一次再培训,而一旦信息集更新,季度预测就会从一个季度变化到另一个季度。该方法与(Gu等人,2020)使用的方法相似。在此基础上,对模型2003年的绩效结果进行了评价。之后,将所有2003年的可用新数据添加到训练样本中,在保留2003年最后6个月进行验证的同时,重新训练模型,并对2004年进行预测。最后,将2004年的数据添加到培训中,并类似地继续到2021年。图表2以图形方式显示了这个扩展的培训窗口过程。
03
3.1 词汇(情感-得分)方法
随后,作者将文档分解为一组类似单词的构建块,称为标记。使用单个单词和单词对的标记,即一元和二元。这些标记被转换为单词计数的向量。
为了衡量每个文件的情绪,使用了著名的Loughran和McDonald(2011)财务语境词典。“Fin-Neg”词汇表中的词汇被归类为负面情绪词汇。每个文档的消极情绪测量(LM negative sentiment)等于消极词汇的总和,除以文档中总单词数。
与简单的单词计数不同,BERT模型可以提供考虑单词的含义,顺序和相互作用的整个句子的识别。与Cao等人(2023)类似,本文使用FinBERT(Huang等人,2022),一个用财务披露数据(包括10-K,电话会议记录和分析师报告)训练的BERT版本,将单个句子的情绪分类为积极或消极。因此,构造了FinBERT消极情绪指标,作为FinBERT否定句的数量与文档中总句子数量的比值。
最后一项衡量标准是基于以往文献的这一结论,即报告的长度和复杂性的增加并不一定伴随着积极信息内容的增加,而是在模糊和稀释负面新闻(Li(2008),Loughran和McDonald(2014),Cohen等人(2020))。此外,Loughran和McDonald(2014)认为,传统的可读性指标,如FOX指数,并不适合金融文档。相反,作者建议使用10-K完整提交文本文件的文件大小作为可读性的衡量标准。由于只使用MD&A和风险因素部分的信息,所以定义为这些部分中的字符总数。因此,最终作者引入了两种新的度量方法:MD&A长度和RF长度。
3.2 词袋模型
3.2.1 基本机器学习方法
3.2.2 线性回归
3.2.3 LM回归
3.2.4 惩罚线性回归
3.2.5 梯度提升回归树和随机森林模型
回归树是一种非参数方法,可以有效地模拟非线性和预测因子之间的相互作用。这些树的构造方法是递归地将输入预测器空间划分为一系列不同的区域,并预测每个分区内响应的平均值。树的生长是通过一系列的步骤进行的,其中,在每一步中一个新的分支根据预测器和分割值对数据进行分割,使平方误差最小化。
回归树虽然灵活,但特别容易出现过拟合,因此需要正则化来提高其预测性能。在本研究中,作者检查了两种树的集合方法,通过组合来自多棵树的预测来实现正则化,以产生一个单一的预测。
第一种集成方法,随机森林(RF),建立一个非相关树的集合,并对它们的预测进行平均。在数据的一个引导样本上训练每个独立的树,并且在每个分支上,只考虑一个随机的预测器子集进行分裂。这个过程会产生一组不相关的树,每个树都有很高的方差。然而,通过对多个树的预测求平均,方差就会减少,从而产生更稳定的算法。
第二种集成方法,梯度提升回归树(GBT),依次构建一系列决策树,每棵树从其前一棵树的残差中学习。Boosting递归结合了来自众多浅层树的预测,这些浅层树各自作为预测能力有限的弱学习器发挥作用。然而,当它们按顺序组合时,就形成了一个更稳定、更准确的模型。在本研究中,采用XGBoost实现的梯度增强(Chen和Guestrin,2016),它集成了更高效的优化算法和额外的正则化技术,以防止过拟合。
3.2.6 支持向量回归
支持向量回归(SVR)是一种对高维数据(如文档术语矩阵)表现良好的技术(Manela和Moreira,2017)。与OLS最小化均方误差不同,SVR最小化以下目标函数:
其中,为ϵ
为了管理数据的非线性转换,SVR主动使用核,如径向基核函数(RBF)。这些核有助于将数据转换为更高维度,从而使算法能够在这个新转换的空间中找到拟合超平面。“核技巧”允许算法在转换后的空间中操作,而不需要显式地计算数据坐标,这使得即使对于高维数据,问题在计算上也很容易处理。
3.2.7 前馈神经网络
本文包括一个传统的前馈神经网络(NN)作为一个简单的机器学习基准。前馈网络包括具有原始特征的输入层,一个或多个与预测器交互并非线性转换的隐藏层,以及将隐藏层合并成预测的输出层。作者利用了一个浅层神经网络结构,其中包含一个包含32个单元的隐藏层。整流线性单元,定义为,作为非线性激活函数。为了防止过度拟合,由于神经网络的高度参数化,我们应用正则化技术,包括的惩罚项和批归一化。
3.2.8 模型微调
对于线性LASSO和EN回归,调谐参数λ是决定收缩程度的主要超参数。这个超参数控制模型复杂性和应用于模型系数的正则化程度之间的权衡。通过调整λ的值,可以平衡偏差-方差的权衡和最小化过拟合。
对于GBT和RF模型,主要的超参数包括树的数量、每棵树的最大深度和收缩参数λ(仅针对GBT)。增加树的数量可以提高模型的预测性能,但也可能增加过拟合的风险。更深层次的树可以捕获特征之间更复杂的交互,但它们也可能导致过拟合。λ较小会导致更为保守的模型,具有更低的过拟合风险,但可能需要更多的迭代来收敛。
在SVR中,主超参数C对权值进行正则化。C值越大可以优化优先拟合训练数据,C值越小,误差越大,但权重越小,可以防止过拟合。
神经网络需要选择许多超参数来找到最佳的模型灵活性。作者通过在具有不同收缩程度的损失函数中添加惩罚来防止模型过拟合。这种惩罚鼓励模型学习特征的稀疏降低了学习关系的复杂性,并最大限度地减少过拟合。同时这也为Adam随机梯度下降优化器选择了初始学习率(Kingma和Ba,2015)。较小的学习率会导致较慢但可能更准确的收敛,而较大的学习率会加速收敛,但可能会超出最优解。
图表3总结了本文中考虑的每个模型的超参数。为了在给定时间选取最优的超参数组合,将数据样本分为训练集和测试集。在训练数据上产生最低的3倍交叉验证误差的超参数被选为最佳模型。
3.3 大型语言模型(LLM):层次转换器方法
在本节中,描述了作者提出的Hierarchical Transformer方法,用于分析任意长度的管理层讨论和分析(MD&A)和风险因素(RF)部分。
Transformer(Vaswani等人,2017;Lin等人,2022)是一种机器学习体系结构,它已经成为跨自然语言处理(NLP)任务的事实上的标准,如语言翻译和文本分类(Yvon,2023)。Transformer的一个关键优势是它能够处理可变大小的序列输入,比如语言,而不需要循环神经网络(RNN)或卷积神经网络(CNN)。这是通过使用自我注意机制实现的,它允许模型有选择地注意输入序列的不同部分。这使得Transformer能够捕获输入序列中元素之间相对较长的依赖关系,这是使用RNN和CNN很难实现的。另外,Transformer已被证明对语言具有出色的标度特性,其中所谓的标度定律(scaling laws)描述了随着参数、训练数据和可用计算资源的数量分别增加,模型性能是如何提高的(Kaplan等人,2020;Bahri等人,2021)。
然而,Transformer的一个主要限制是其输入大小的计算缩放,这使得它不能直接处理非常长的序列。这是因为自注意机制需要对输入序列中的所有元素进行两两比较,从而导致计算时间随着序列长度的增加而增加。因此,Transformer通常用于序列长度为数百或至多数千个元素的任务。
在本文中,我们提出了Transformer架构的递归应用,以获得对相关感兴趣部分的全局理解,消除了现成的预训练Transformer的输入上下文限制。在图表4中说明作者的方法。在核心上,本文提出的模型重复使用了一个预先训练的BERT编码器大型语言模型(Devlin等人,2018),在10-X语料库上对其进行了微调。在高层次上,从下至上,模型处理输入报告如下,将在下面的章节中详细介绍:
1. 使用BERT标记器,将报告的MD&A和RF部分的文本转换为标记。将这个标记化的表示分为511个标记的组,并在每个组前添加特殊的BERT[CLS]标记,产生512个标记的块,这是BERT输入上下文限制。
2. 将每个块传送到预训练的仅限BERT编码器的大型语言模型中,并提取[CLS]令牌的输出,称为块嵌入(chunk embedding),块k在图中表示为。
3. 将来自所有块的[CLS]标记合并到一个Transformer层中,隐藏维度为64,并且存在一个注意力机制。
4. 使用平均池化操作将这些标记减少为单个维度向量1024。
5. 之后该向量被传递给线性预测器,该预测器输出Beta分布的两个参数,我们使用这些参数对报告的预测归一化排序进行建模。Beta分布由于支持0到1之间是一个个较好的选择。
MD&A和RF部分首先使用Spacy的Sentecizer进行划分,Spacy是一个流行的将文档分割成有意义的句子的库。然后将这些句子与中间的[SEP]标记连接在一起,使用BERT标记器进行标记化;令牌嵌入的维数为1024。最终标记化文本被分割成511+1个标记块,如上所述。假设总共有n个块。如果最后一个块计数少于511个令牌,它将被[PAD]令牌填充。
接下来将每个块通过一个预先训练的BERT编码器,其中作者研究了两个版本:(i)第一个版本为从未微调过的预先训练的BERT模型,称为模型的FrozenBERT变体,(ii)第二个版本使用下面描述的程序微调BERT,称为模型的FtBERT变体。在每个块的编码器输出处,提取初始的[CLS]令牌,称之为块嵌入,块k的输出在图表4中表示为。
这些向量被合并成一个Transformer层(如图表4所示)。这包含在Transformer架构的一个单层中,仅有一组注意力,它会以数学方式执行以下计算:
设为标记化MD&A或RF段的第k块,为的BERT编码器的输出。设为所有h的列连接,其中n为块的数量。最终,Transformer层的输出可以表示为:
由下列步骤组成:
其中,我们分别将Attention定义(自我)注意机制,FeedForward定义为带有64个隐藏单元的ReLU激活的两层前馈网络,LayerNorm定义为一层归一化操作(Ba等人,2016):
其中分别表示查询,键和值,其中分别是键和值的维数(在本文BERT设置中为1024)。其中W为可训练参数矩阵,b为前馈层的可训练偏置向量,为层归一化中仿射变换的可训练参数;ϵ是个小常数,用来避免被0除。
接下来,池化层对Transformer层产生的所有令牌进行平均,以生成单个向量,该向量捕获MD&A和RF部分的最显著特征。表示Transformer层的输出,具体计算为:
使用一个线性预测器将p映射到预测分布的α和β参数;由于Beta分布严格在0到1之间,这是如第2节所述的的自然表示。
以为可训练参数,得到Beta分布的预测参数为:
其中,使用来保证是正的,表示z的第k个元素。最终得到公司的期望预测归一化秩为:
在训练模型时,通过最小化预测Beta分布的负对数似然(NLL)作为损失函数来预测公司i在t时刻的归一化秩:
其中,对训练集中所有公司i和所有时间段t求和,由式(14)得到,Γ(∙)为gamma函数。通过使用Lion((EvoLved Sign Momentum)优化器对模型的所有可训练参数进行随机梯度下降来最小化NLL(Chen等人,2023)。
按照图表2所示的过程递归地交替模型训练和样本外评估。FrozenBERT和FtBERT的区别如下:
FrozenBERT:通过优化方程式中列出的所有可训练参数来最小化训练损失。在这个版本中,只依赖于预先训练的BERT模型,并且在训练过程中保持BERT参数不变。
FtBERT:对于前5个训练阶段,完全按照FrozenBERT进行训练,只修改等式中列出的参数。在这5个阶段之后,我们“解冻”了预先训练的BERT模型,并将其参数添加到可训练参数中,除了前面列出的参数。使用相同的损失函数。按照常见的微调实践,为此使用两种不同的学习速率:BERT模型以的学习速率进行微调,而Transformer层的学习速率为;作者发现这些速率可以维持稳定的训练。
这些超参数值是使用验证集确定的,作者也对该验证集执行了早期停止。对于选择作为测试集的每一年,验证集由6个月的公司报告组成,这些报告在测试集之前。当训练批数(epoch)的最大数目为200时,我们保存并使用在验证集上表现最好的模型(均方误差(MSE))。当MSE没有超过25个连续的批数时,停止训练,训练批数的数量可能不会达到200个。
04
作者将所有模型分为三类。(i)基于词汇(关键字)的情绪识别:LM负面情绪、FinBERT分类分数的负面句子、MD&A长度、RF段长度。(ii)依赖于以下回归方法的词袋模型:OLS;LM负性情绪得分采用OLS加权(类似Jegadeesh和Wu(2013)),LM OLS;EN;Lasso;和SVR(类似于Manela和Moreira(2017))。(iii)接受过财务目标培训的LLM:FrozenBERT和FtBERT。
进一步比较模型在以下几个维度上的预测性能。Kelly等人(2023)认为,当涉及到股票回报的可预测性时,由于预测的方差,这可能是相当高的财务数据,传统的统计评估技术,如样本外或MSE并不含有太多信息。当预测的方差很大时,很容易为负,而在预计有最高回报的股票上做多策略的夏普比率,并卖空那些有最低预期回报的股票,可以实现相当高的正经济规模。换句话说,财务目标的可预见性绩效应基于特定投资策略的绩效进行评价。由于其高变异性,无法预测的盈余惊喜与股票回报一样具有挑战性。
根据Cohen等人(2020),作者调整了投资组合管理策略,根据股票的盈余惊喜预测将其排序为五分位数,然后评估高-低策略的OOS表现,该策略买入最高收益预测的五分位数,卖出最低收益预测的五分位数。作者评估等权重和市值加权的投资组合回报的表现,因为盈余惊喜的正负应该分别跟随更高或更低的股票回报。
对于那些通过投资组合绩效检验的指标,进一步验证了股票回报预测的横截面回归和时间序列回归结果的稳健性,并加入了时间和公司的固定效应,以及各种公司特征。
最后的稳健性检验是通过事件研究面板回归来预测盈余惊喜,或公告后5天的累积异常回报。
图表5给出了基于回归方法的组2和组3的统计量、MSE和。MSE可能看起来不是很大,因为在预测盈余惊喜的排名时,所有横截面观察都位于区间[0,1]内,因此横截面均值为0.5。即便如此,OLS方法仍然具有最高的均方误差(MSE),几乎是均值的一半。根据,OLS有很高的负值,说明对训练样本过拟合。其他具有高负值的方法有Lasso和NN。注意,只要是负指较大(Kelly等人,2023),就不能基于这些统计数据拒绝模型。其他模型的均为正向,其中RF和XGboost的值最高,分别为2.7%和1.4%。
4.1 投资组合分类
在这里,我们根据下个季度的预期回报,对股票投资组合的表现进行了评估。每个月,收集所有公开发布季报(10-Q)或年报(10-K)报告的股票。然后,依据下个季度的预期盈余惊喜,在月底将它们分成五分之一的投资组合,其中最高(最低)的投资组合包含下个季度预期盈余惊喜最高(最低)的股票。根据Cohen等人(2020),一旦被放置在一个五分位数投资组合中,一支股票将在这个投资组合中持有三个月,直到一个新的10-Q或10-K发布。然而,由于不同的公司在不同的月份提交报告,这些投资组合每月都会进行再平衡。
图表6报告了等权和市值加权,VW的在组1方法中的表现。对于每个投资组合,报告原始超额收益,一个因子(CAPM alpha),以及Fama-French的风险调整回报的五因子(FF5)和六因子(FF6)。Newey和West(1986)的3阶段滞后调整t统计量在括号中报告。此外,与Cohen等人(2020)相似,作者也报告了High-minus-Low策略的表现,即做多高五分位数投资组合(Q5),卖空低五分位数投资组合(Q1)。基于预测的投资战略的OOS绩效是在财务数据背景下对预测精度的最合适的评估(Kelly等人,2023)。
图表6的Panel A报告了基于2011年LM负面情绪得分的投资组合表现。High-minus-Low(H-L)组合的EW或VW收益率非常小,统计上不显著。这表明,目前基于负面词汇的情绪对未来表现并没有很强的预测作用。在基于否定句子的FinBERT分类和EW投资组合Panel B中也观察到了类似的现象。在VW投资组合和FinBERT分类中,结果与预期相反。这里负分值最高的投资组合Q5的收益率最高,这是一个错误的符号,H-L策略的正的,31个基点每月的原始收益率也是错误的。CAPM alpha也为正,每月25个基点(t=1.76)。即使在FF6因素调整后,它也没有变化,每月26个基点(t=1.83)。因此在VW投资组合中,FinBERT分类表现最差,因为它给出了相反的负面情绪表现预测。
Panel C报告MD&A长度的投资组合排序结果。在这里,对于EW和VW投资组合,长度最长的公司的投资组合具有最低的收益率,H-L投资组合的收益率分别为-0.189%(t=1.71)和-0.264%(t=1.92)。经市场变动调整后,这些投资组合的CAPM alpha分别为-0.23%(t=2.05)和-0.344%(t=2.48)。按年计算,MD&A长度最长的公司分别有3.8%和4.13%的表现不佳。这个结果非常有趣,因为像这样的简单度量方法优于更复杂如FinBERT的情绪度量方法。此外,具有最短长度Q1的投资组合具有正的且统计上显著的 alpha。因此,与文献中大多数成功捕获负面内容的其他指标不同(Loughran和McDonald(2011),Cohen等人(2020)),该指标能够识别积极信息。即使在FF6因子调整后,Q1的正alpha仍然具有统计学显著性。EW投资组合每月37个基点(t=5.88),或4.4%的年度基准表现,VW投资组合为19个基点(t=2.13),或2.3%的年度基准表现。此外,投资组合的alpha几乎单调下降,从Q1度到Q5的分位数的EW和VW的投资组合。然而,在FF5或FF6风险调整后,H-L策略在统计学上变得不显著。因此,该指标在识别负面信息方面不是特别稳健。
最后,Panel D报告了按RF部分长度排序的投资组合的表现。我们没有发现高和低RF长度的投资组合之间的未来表现差异的证据,和H-L收益差大多是不显著的,除了EW组合和FF5和FF6因子调整。在这里,原始超额收益率和CAPM alpha是微不足道的。然而,FF5和FF6 alpha突然变得比单独的CAPM alpha更高,H-L投资组合alpha也是如此。原因是这些投资组合的价值、盈余能力和投资FF5因子的贝塔值为负,这解释了与CAPM调整相比alpha的增加。请注意,FF6因子旨在解释相关的5到6个特征分类投资组合的溢价,而不一定适合文档长度分类投资组合溢价特征。此外,该结果不同于(Cohen等人,2020年),他们提供了与从一份报告到另一份报告的RF部分格式变化相关的时间序列证据,而本文提供了与报告总长度相关的横截面证据。
综上所述,这组表现最好的是一个简单的方法,MD&A部分的长度,并大多在最短长度是释放积极信息。
组2(基于词袋模型)类似的五分位投资组合业绩回报。识别经济和统计显著性的主要标准是EW和VW组合之间表现的一致性,以及风险调整后回报的显著性。本表中报告的模型均未通过对因子风险调整的一致性和稳健性检验。
最终作者结论是,词袋模型无法识别未来的积极或消极的盈余惊喜。
最后,图表7报告了LLM的投资组合绩效结果。与前面的所有表格不同,这里所有的H-L投资组合策略都具有经济和统计上的显著并且符号正确。
在Panel A中,投资组合基于FrozenBERT预测进行排序。原始超额收益和风险调整后的投资组合alpha几乎单调增加,从低到高五分位组合。对于VW投资组合,H-L原始超额收益率为每月43个基点(t=2.51),或每年5.16%。经过一个因子(CAPM alpha)风险调整后,它下降到每月37个基点(t=2.12)或每年4.44%。最后,经过FF6因素调整后,它变成每月32个基点(t=2.01)或每年3.8%,这仍然是一个经济意义上的高数字。这些异常回报中的大多数是由Q5五分位数,即多头头寸驱动的。结果是非常相似的EW投资组合。
Panel A显示了基于FtBERT预测的投资组合的更加一致和具有经济意义的结果。在这里,原始超额收益和风险调整后的alpha严格单调增加的投资组合五分位数。VW投资组合的结果在经济意义上更高。H-L原始超额收益率为每月56个基点(t=2.94),或每年6.74%。在CAPM风险调整后,这个数字几乎没有变化,每月50个基点(t=2.57),或每年6.01%。这令人印象深刻,因为FtBERT识别与一般市场运动无关。进一步风险调整导致H-L异常表现较低,FF5因子调整为每月33个基点(t=1.88),或每年4%,FF6因子风险调整为每月31个基点(t=1.77),或每年3.71%。与前面的讨论类似,FF5或FF6不是这些投资组合类型风险调整的最佳基准模型。例如,H-L价差随着FF5因子调整而减小,主要是因为低五分位数投资组合的alpha,即空头头寸,与相应的CAPM alpha相比在经济幅度上增加近10倍。例如,低市值加权五分位数(L)的未调整原始超额收益率为每月77个基点(t=2.67)。在CAPM风险调整后,它下降到每月-0.106%,在传统水平上微不足道。然而,在FF5调整后,它增加到-0.0002%,或在FF6调整后增加到正0.008%。
对于EW投资组合来说,这一点更加明显,低五分位数的CAPM投资组合alpha从统计上不显著的每月0.057%,跳到每月0.22%,在FF5之后变得显著(t=2.30),或者在FF6因子调整后每月0.234%(t=2.45)。这是由于FF5/6因子的负载荷造成的,除了市场因子。即使所有的H-L异常表现仍然保持显著的统计水平。作者认为一个简单的CAPM alpha是一个更好的指标来衡量这些投资组合的异常表现。
总的来说,OOS投资组合策略评估中唯一明确和一致的赢家,是财务数据中的主要准确性测试(Kelly等人(2023)),即组3(LLM)。在这一组中,FtBERT在经济规模上略优于FrozenBERT。组2在所有标准上都没有正确识别,而组1的唯一基本通过大多数标准的是MD&A小节长度。
随着时间的推移,这些投资组合的表现如何?图4显示了基于2003年1月初1美元初始投资的累积OOS投资组合表现(高/Q5与低/Q6)。FtBERT,FrozenBERT和MD&A长度分类的低/Q1五分位数,并进一步将其与作为基准的类似时期的S&P500累积收益进行比较。
FtBERT确定的高投资组合是表现最好的,在2003年1月至2022年3月的OOS期间,最初的1美元投资升值超过20倍。由FrozenBERT识别的高投资组合和由低MD&A长度五分位数识别的低投资组合相互跟踪。这是一个复杂的,预先训练的LLM。在微调之前,在识别积极信息方面做了非常相似的工作,作为一个非常简单的字符计数测量。FrozenBERT在2018年之前在所有互联网的文本语料库上进行了训练,即使它从未见过EDGAR文件本身,金融新闻也远不是训练文本的主要部分。因此,FrozenBERT带有非金融文本的“噪音”,在识别积极信息方面,它的表现与简单长度的MD&A部分没有什么不同。
此外,MD&A部分的长度较长并不一定意味着糟糕的表现,因为这个投资组合主要跟踪标准普尔500指数。换句话说,MD&A部分的长度无助于识别负面信息。
相反,FtBERT和FrozenBERT在识别负面信息或表现不佳的公司方面非常相似,因为这些指标的低五分位组合表现明显低于市场。因此,FrozenBERT非常类似于文献中的其他度量(例如,Cohen等人(2020)),其成功识别负面信息。与文献中的所有其他指标不同,FtBERT成功地确定了未来业绩的积极和消极信息。
在本节中,作者评估了在面板、时间序列和横截面回归中主要结果的稳健性,同时控制了其他知名公司特定的回报预测因子。
图表8给出了预测下个月超额公司收益的组1结果,在一个简单的单因子回归中(Panel A),添加主要的公司特征,如市值,账面市值比,动量和反转(Panel B)。每个面板都有时间(月)和公司固定效应。作者评估的主要预测因子是MD&A和RF长度,将其除以,使其与股票回报、FinBERT识别的负面句子的比例以及FrozenBERT和FtBERT预测盈余惊喜排名相同。
在单因子回归中,Panel A,类似于投资组合排序,FinBERT具有正向系数,与预期相反并且略微显著。在控制了企业效应和时间效应后,企业管理与决策长度不显著。FrozenBERT和FtBERT的系数均为正且极为显著。在Panel B中加入其他公司特定回报预测因子后,它们的系数仍然非常相似,并且在统计上高度显著。
在加入规模大小、BM、动量和反转控制变量后,FinBERT的系数变为负值,与预期相符,但与0在统计不显著。
FrozenBERT和FtBERT被明确训练来预测盈余惊喜。上述所有测试都集中在月回报的可预测性上,隐含的假设是正(负)盈余惊喜将导致随后的正(负)回报。在这里关注的是盈余公告本身,以及公告后的5天累计异常收益率。
潜在的问题是,鉴于目前的10-Q,10-K发布是关于未来回报的信息,并且这些信息是公开的,作者应该看到市场对当前发布的一些反应。例如,Huang等人(2020)认为,机构对最新消息反应迅速,他们的交易有助于价格发现,即预测股票回报的方向。因此,如果本文指标可以正确识别信息,他们也应该预测价格发现的方向,即在事件、归档日、窗口内,归档后返回。
10-Q、10-K报告可在提交两天后从EDGAR网站免费下载。只要支付特别费用,就可以在提交日立即获得它们。那么累计异常的报告日后日回报(CAR[1,5]),可以是基于对发布消息的快速反应的真实的交易利润(Huang等人,2020年)。因此,本文指标的最终稳健性测试是预测这种价格发现及其方向。
本文计算CAR异常收益率作为CAPM调整后的收益率,使用市值加权CRSP市场指数作为市场组合的代理。在每个月底,通过回归股票在过去一年中的每日超额收益来估计每只股票的市场beta系数,同时市场超额收益以及市场收益的五个滞后,以说明小市值股票的流动性不足(Dimson,1979)。作者将市场beta系数计算为六个OLS回归系数的总和。然后,通过将事件期间的市场超额收益乘以事件前一个月的预计市场beta来估计预期回报。然后计算报告日后5天累计异常收益率CAR[1,5],即5天累计已实现收益率与相应预期收益率之差。
图表9显示了FrozenBERT(Panel A)和FtBERT(Panel B)在提交日前后的回归结果。首先,这两种方法都积极且在统计上显著地预测了未来的盈余惊喜(SUE_(t+3))。这是因为他们被预期训练执行这些预测。然而,每个面板中的第一列提供了进一步的OOS稳健性检验。
最后的稳健性检验是这些指标是否正确地预测了回报的方向,即价格发现和价格影响与这些发布的知情机构交易相关(Huang等人,2020)。FrozenBERT没有通过这个测试,因为CAR[1,5]可预测性的系数尽管有正确的正符号,但是并不显著的。相比之下,FtBERT能够预测机构交易的方向,其CAR[1,5]的可预测性系数为正且在统计上显著。最终的结论是,只有FtBERT能够捕获专业机构投资者识别的信息。但是,考虑到之前的结果,作者也认为,在财报公布后,这些信息需要几个月的时间才能完全纳入股价。后一种结论与之前文献广泛报道的盈余公告后的趋势完全一致。
05
本文做出了以下贡献:(i)在最受公众关注的季报(10-Q)和年报(10-K)文件中,对不同的NLP方法在识别积极和消极信息内容方面的效率提供了全面的分析;(ii)在财务背景下引入LLM的新应用,特别是对信息进行分级聚合以及处理任意长度的公司披露;(iii)在10-Q和10-K归档文件中不仅能够识别出与以往文献相似的负向信息内容,也能够识别出正向信息内容,以及将未来的股票异常回报分为负向和正向。
本文有几个重要的结论。首先,没有一种传统的NLP方法能够稳健地识别未来正或负公司的估值变化。然而,这并不意味着10-Q或10-K报告在向市场参与者传达新的前瞻性信息方面没有用处。传统方法失败的部分原因是报告的复杂性。
第二,即使经过财务目标的培训,现成的LLM也可能不值得付出努力,因为它们与更简单的字符计数方法效果相同。
第三,对LLM的财务目标进行微调和训练,或在使用他们的预测之前“让LLM先学习金融”是一种解决方案,也是未来研究的一条富有成果的道路。在本文中引入的FtBERT在识别未来的积极和消极性能方面提供了无可比拟的结果。此外,作者还可以确定FtBERT在做出正面预测和负面预测时,哪些金融文本的权重最高。在事后进行了手工交叉检查,确认事后的表现是否确实归因于FtBERT最依赖的报告文本,并确认其高准确性。
最后,需要注意10-Q报告和10-K报告中有价值的信息内容。作者还发现,市场参与者对这一信息的反应非常缓慢,很大程度上是因为对其解释存在高度分歧。
文献来源:
核心内容摘选自Nicolas Chapados、Zhenzhen Fan、Russ Goyenko、Russ Goyenko、Fred Liu和Chengyu Zhang在Social Science Research Network Electronic Journal上的文章《Can AI Read the Minds of Corporate Executives?》
风险提示
文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。
149.《基于强化学习和障碍函数的自适应风险管理在组合优化中的应用》
130.《媒体效应如何影响基金投资者和基金经理的决策?》
50.《投资者评价基金时会考虑哪些因素?》
122.《科创板新股首日涨幅回暖,首批注册制主板新股迎来上市》
49.《多只新股破发,打新收益曲线调整》
43.《打新账户数量企稳,预计全年2亿A类收益率11.86%》
有态度的金融工程&FOF研究
本篇文章来源于微信公众号: 金工严选