谁主沉浮|王振州:GPT大规模预训练模型在量化投资应用的思考
主办单位:华西证券研究所
协办单位:南方基金
会议时间:2023年4月21日
会议地点:厦门天元酒店
论坛四 量化及ETF投资论坛
会议主持:华西证券研究所副所长,金融工程首席分析师 杨国平
演讲主题:GPT大规模预训练模型在量化投资应用的思考
演讲嘉宾:太平资产量化投资部总经理 王振州
王振州,现任职于太平资产,量化投资部总经理,20年以上资产管理投资相关从业经历。在太平资产带领部门在量化选股及人工智能选股上具市场领先水平。同时负责海外港股投资,FOF投资管理,对于投资业务具有深入的理解和研究。
演讲正文:
今天我主要是要分享的主题是:GPT大规模预训练模型在量化投资应用的一些思考,GPT大模型的应用从去年年底开始,到现在其实没有几个月。我觉得有很多的启发,今天主要是把我的心得来做一些分享,也希望能给大家一些想法,做些贡献。我主要会针对四个主题,第一个是从传统多因子到AI+量化,第二个部分是GPT大模型怎么用在量化投资上,我觉得是未来方向,另外我也会举应用的案例,最后思考以及未来的想法。
这个图表大家应该比较熟悉,是量化投资的一个流程,从一开始的数据收集、数据清洗到特征提取或多因子的工程,这里面我们就会用到人工智能。在特征提取的部分之后可以分两个方向,一个是用传统的线性模型来做多因子配权;第二个是用AI的方式来做,包含了可能用机器学习、深度学习、强化学习、注意机制等来做人工智能的配权,后面再做组合优化控制和交易拆单。以上是以前用传统的多因子策略,讲到人工智能的量化策略,接下来跟大家分析GPT大模型部分。
传统的多因子框架下,我们会把一些信息量高的特征先筛选出来,再做后续的处理。但对AI来讲信息越多越好,所以会引入各种各样的数据,万物皆金融,纳入更多的数据来补充复杂的市场逻辑,这两个方式是有点区别的。
在因子挖掘方面,人工挖掘因子是要逻辑的,所以财务报表再怎么加减乘除总是有限的,因子的个数通常是比较难超过两位数。用人工智能的策略,因子已经不叫因子而叫特征,因为它不是逻辑性的,而是相关性,用各种不同的数学模型所算出来的特征迭代会很快,但缺点是超额收益下滑的速度比较快。
在预测效果方面,预测效果好有一个基本要求就是避免过拟合,因为AI量化是一个非线性组合,所以它很容易过拟合,怎么样避免它过拟合就能有比较好的预测效果。我觉得AI量化更好的一个地方是自动调参数,传统的多因子模型是可以用量化的方式调参,但是是线性的,也有一些用人为的方式来调,投资经理可能会对某些因子想要主动地去配更高的权重或者减少权重。但是这也是风险之一,因为你没有办法确定每一次的决策一定正确。但是人工智能策略是自动调参,好处是我不用去考虑未来的市场到底是什么风格,它会跟着过去的市场风格来比较紧密贴近风格的变化。
我把AI+投资分成三部分:AI+研究、AI+交易、AI+量化,AI+量化是把高纬度大数据推理用在量化上面,在AI+研究部分,以前也用到非结构化和NLP,但当时只是做了一些情感分析或者情绪指标,但是效果不是很好,所以在那一块儿的应用比较少。但是现在GPT模型出现之后,我们觉得的AI+研究部分有很多可以做的事情,原来觉得是一些非结构化的数据可以大量结构化,比如以前我们在做量化的时候用了很多量价和财务之类的数据,但是公司公告、研报及会议等等信息都没有好好去应用,这可能是很多主动投资经理会考虑的,现在有了GPT大模型之后,很多这方面的数据可以去结构化,再更好地转化成量化可以用的方式。
先从NLP开始讲起。以前我们开始在做的时候是语法分析、句子分析、语义分析到信息抽取,现在有GPT大模型之后它可以做一些底层的任务,包含了文本摘要、问答系统、对话系统、阅读理解、自动文章分级。所以有了GPT大模型之后可以做的事情就非常多。
有了这个之后,其实我们就可以开始做一些预训练的模型,可以先由上下文网络结构任务来做一些扩展,可以多语言多模态地来做。我们可以先借由现有的大模型,不管是百度的或者是腾讯的或者阿里的这些大模型的API接口来做,之前很多人已经先用海外的ChatGPT来做形成一些相应的东西,但是如果要做的比较长久,一定要靠自己国内的大模型。
第一个用法是用于文本的生成和处理。但是需要注意的是,它常常有一些事实性错误,举个例子,有人用来做论文文献的检索,就让ChatGPT以某一个议题来推荐一些文献,你会发现,真的去检索它推荐的相关文献时候,很多是胡说八道自己编出来的,根本没有这个文献。所以,你要先知道,它讲的东西不是完全可信的。这也会造成我们在做金融决策时会有问题,做金融决策时候我们用的数据要正确,不能是一个错误的信息,错误信息会造成你后面错误的决策,所以信息准确性很重要,这也是我们垂直领域的机会。如果只是做文本生成和文本处理,我觉得相对没有什么问题,我们可以利用这样的一个GPT大模型的文本生成能力做一些另类数据处理或者文本挖掘。
第二个用法是进行代码生成和模型借鉴提升效率。
第三个用法是在基本面量化领域,我们不用给它知识图谱,它自己形成自己的知识图谱,因为所有的东西它都看过,上下游之间的关系、相关供应链的情况等等它都掌握着,甚至一些自己想不到的点它也知道,这个是我觉得蛮惊艳的地方。
在编程的部分我们做了几种尝试,左边的图是用日频的价格数据来预测未来每天的涨跌幅,让GPT大模型去写编程,输入相应的数据然后编成一个程序。同样的我看到现在网络上很多人运用GPT大模型来协助做交易策略,因为部分投资者之前不会编程,但是在有了GPT大模型之后,他可以把他的投资思路变成程序,放到交易软件里面去自动执行。除此之外,还可以做一些量化回测引擎,甚至我们也可以让他编写一些框架,比如组合优化规则等等。
关于编程运用,主要讲一下我们的体会,它有一些优点也有一些缺点。
优点是什么?
第一个优点是,可以很快的编程,我只要把思路说明清楚,GPT大模型就可以很快的把它编程出来,但是这是一个小模型的情况。如果我们真的要做一个大模型,例如说量化投资模型,它会有好多的中间步骤,从数据清洗、数据整理、形成特征、因子优化、不同模型下因子的配权等等,一种方法就是我分开步骤让它自己一个个跟下来,你很难让它一次性把所有东西都做完,不太适合把大框架或者长代码拿来直接用。
第二个优点是,它可以做一些框架的学习,还有做一些函数的查找,还有一些BUG修复来提高工作效率。
缺点是什么呢?对于真正会写代码的人,如果需要自己把代码细节思路用文字描述出来,那还不如自己去写。
对于不太了解模型怎么搭的,或者是不太了解编程怎么写的,我觉得GPT大模型可以有很大的帮助。如果自己能够很好的去编程的时候,其实GPT大模型能够提供的是效率提升。目前为止,我们现在试下来效果还算有限,另外是代码逻辑其实创意没有很多。
关于基本面的案例,我刚刚提到的比如说我可以输入一个公告,分析这个公告对某一个公司或者某一个行业会有什么样的影响,它自己会去考虑上下游之间的关系,也会去分析这个事件对公司会有什么样的影响,以及影响幅度有多少,这确实是连接主动跟量化之间一个蛮好的桥梁。前面也刚刚提到我们在量化上面很少用到文本的数据,但有了GPT大模型之后我可以批量处理这些数据,形成我想要的效果,这个是基本面量化的蛮好的范例。
我在考虑的是ABCD四点,这个想法其实从以前到现在都可以用,A是算法,B是应用场景,C是算力,D是数据。以前我们会考虑ABCD各种因素如何改变,来让超额收益更高,例如我有不一样的数据,或在我有不同的算法来运用。
现在如果我们是基于GPT大模型训练后的模型来做的话,我们主要考虑的重点变成,我有什么样的数据,来解决我的痛点,以及我的应用场景是什么。这是影响各行各业的,每一个行业有自己的数据,每一家公司有自己的数据,每一家公司有自己的应用场景,现在有AI+游戏,AI+教育和AI+电商等应用场景,同样思考在股票上面也是一样。你要去思考到底有什么样的数据是别人不可替代的,如果大家都在做的时候,那是不是就没有那么大的竞争力?未来算力的需求肯定是很强的,因为大家都要做自己的大模型。
另外,提醒大家两个部分,如果大家要运用GPT大模型,一定要注意你的数据安全,因为你的数据要喂给它,所以我们只能用公开数据训练大模型,二是你不要轻信GPT大模型所说的结果,刚才已经举好多例子就是说这样的一个情况。
2016年前大家会有比较多的声音是AI无用论,但是这次GPT大模型出来之后,大家反过来认为是AI决定论,AI将取代一切,但我觉得都不是,因为现在它还是一个弱人工智能,只能说它是越来越强的弱人工智能,所以AI不会取代你,但是会用AI的人会取代你。希望大家都能运用好AI,你把它当做高级的工具,来让自己站在AI的基础上越做越好越做越强,今天分享就到这,谢谢大家。
嘉宾发言仅代表其个人观点,华西证券不对其观点的准确性、完整性进行任何形式的确认、承诺或保证。
重要提示:
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过本订阅号发布的观点和信息仅面向华西证券的专业投资机构客户。若您并非华西证券客户中的专业投资机构客户,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。因本订阅号受限于访问权限设置,若给您造成不便,敬请谅解。市场有风险,投资需谨慎。
法律声明:
本订阅号为华西证券金融工程团队设立及运营。本订阅号不是华西证券研究报告的发布平台。本订阅号所载的信息仅面向华西证券的专业投资机构客户,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自华西证券研究所已经发布的研究报告或者是对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。
在任何情况下,本订阅号所推送信息或所表述的意见并不构成对任何人的投资建议。华西证券及华西证券研究所也不对任何人因为使用本订阅号信息所引致的任何损失负任何责任。
本订阅号及其推送内容的版权归华西证券所有,华西证券对本订阅号及推送内容保留一切法律权利。未经华西证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。
本篇文章来源于微信公众号: 华西量化研究