司帆:从ChatGPT看大数据的发展与未来
对话实录(主持人:傅开波)
陈宝健:ChatGPT是人工智能技术驱动的自然语言处理工具,它可以不停地学习和理解自己产生的语言和提问者的语言,并融合问答的上下文进行解答,给人的感觉就是很智能,像是在和人一样聊天对话。除此之外,它还可以写邮件、写文案、写代码,甚至还可以写论文和新闻报道。我们看微软之前就表示要把ChatGPT全部整合到搜索引擎、办公office、云服务等全部产品线之中,所以ChatGPT的应用场景还是比较广阔的。我们认为当前最值得期待,也是改善比较明显的场景,就是将ChatGPT应用到搜索引擎上。通过融合ChatGPT和传统搜索引擎融合,不仅得到的搜索效果更智能、更精准,也会给用户更好的使用体验。
司帆:2月13日,北京市经济和信息化局在北京人工智能产业创新发展大会上,对外正式发布了《2022年北京人工智能产业发展白皮书》,其中特别提到了支持头部企业打造对标ChatGPT的大模型,是国内首个明确政策支持类ChatGPT技术的地方政府。除了北京市的政策支持外,2019年以来国家陆续出台数据要素基础制度及配套政策,统筹推进全国数据要素市场体系,数据要素市场化将为人工智能等算法模型提供更多高质量的训练数据,进而推动数据生产力的释放。另外,据国家工信安全发展研究中心测算数据,2021年我国数据要素市场规模达到815亿元,预计“十四五”期间市场规模复合增速将超过25%,整体将进入群体性突破的快速发展阶段。在这个发展过程中,必然伴随着我国云计算、大数据行业的蓬勃发展。
具体到ChatGPT对我国云计算和大数据的拉动作用,主要表现在:1、国内类ChatGPT产品的落地。在ChatGPT推出后,国内的计算机、通信企业快速反应,纷纷推出自己的类ChatGPT产品,如百度的“文心一言”、阿里版聊天机器人、京东的产业版本ChatJD、科大讯飞版ChatGPT等,都是在已有技术储备下可以尽快上市的类ChatGPT产品。另一方面的影响更为显著,即由此带动的相关产业的需求增长。特别是针对支撑AI大模型算力的底层基础硬件的投资是更具确定性的主线。简单地说,AIGC产业链主要涵盖底层的芯片、云计算设施、数据收集,中间层的算法模型开发,以及终端的模型应用。随着ChatGPT带来的鲶鱼效应,国内外科技巨头加快生成式AI布局,未来对于算力资源和数据的需求将飞速增长,作为“卖铲人”的底层基础硬件供应商和数据供应商将持续受益。
司帆:我们考察大数据行业,其实应该从我国数字经济和数据要素市场的角度出发,这样才能将大数据行业看的更加透彻。所谓数据要素市场是将尚未完全由市场配置的数据要素转向由市场配置的动态过程,其目的是形成以市场为根本调配机制,实现数据流动的价值或者数据在流动中产生价值。从产业链的角度看,数据要素这个产业可以划分为数据采集、数据存储、数据加工、数据流通、数据分析、数据应用、生态保障等7个环节,覆盖数据要素从产生到发生要素作用的全过程。
数据采集行业是数据要素中游产业的起点,2021年数据采集行业集中度(CR4)为78%,行业集中度较高,其处于中等寡头垄断行列,当前已形成稳定的市场垄断局面。数据存储的市场竞争激烈,以华为、浪潮、曙光、联想等多家企业为代表,占据53.0%的市场份额,行业市场集中度算在中等寡头垄断行列。数据加工市场集中度较低,行业集中度(CR4)不足10%,市场竞争激烈,市场参与厂商众多,且企业整体规模较小。数据交易流通的发展仍处于起步阶段,其中数据确权是关键环节,也是目前发展最慢、难度最高的环节。数据分析市场集中度是最高的,且较为稳定,行业集中度(CR4)在90%左右,行业进入壁垒较高,数据的分析能力直接决定了数据的价值。数据应用方面,当前数据已应用于各个行业,包括金融、电信、能源等。从各个环节的竞争格局上来看,可以认为拥有数据资源、进行数据分析以及保障数据数据安全的企业有着较好的投资机会。大数据50ETF中对相关板块的股票都有覆盖。
陈宝健:我们看到国外比较有名的独角兽型的大数据分析公司,有Palantir、Premise、Datameer等等,这些知名独角兽或者龙头公司的表现大家有目共睹。它们的关注点和行动落脚点,我们可以以大家比较熟悉的Palantir为例进行分析。成立于2000年的Palantir是非常知名的大数据分析公司,它最早时候的业务是服务于FBI、CIA等政府机构,后来业务领域才逐渐扩大到金融、能源等多个领域。Palantir最出名的一次还是在帮助美国军方通过数据分析成功定位到本拉登的所在地,其市值最高时一度接近400亿美元。以Palantir为例是因为它的成长路径是非常具有代表性的,基本上可以分成三个阶段:第一阶段,在刚成立的时候专注于某个特定领域,比如Palantir最初专注于情报分析,在政府领域做得很好;第二阶段,开始快速拓展其业务范围,Palantir随后将业务拓展到了需求比较旺盛、客户付费能力比较强的金融领域;第三阶段,业务范围进一步扩大,Palantir的业务范围如今已经涉及到了医疗、零售、生物科技等各种各样不同的领域。另外,Palantir的技术是基于知识图谱,能够提供数据的集成、搜索、实时管理、协作发现等功能的大数据分析平台,它不仅可以同时处理多种数据来源,还可以允许用户通过多种方式浏览、查找、分析数据,甚至可以通过这些数据去对未来做出预测,因此很受欢迎。
我们通过了解Palantir的成长路径,可以看到国外大数据公司的普遍特点是技术实力强,业务覆盖的行业范围广。反观国内的大数据厂商,我们可以看到它们在数据的采集、存储、清洗、分析、可视化等应用层面进展明显,但在与大数据相关的一些技术理论、核心算法、关键软件等层面,可能还是存在一些不足。国内大数据厂商的优势其实还是在于对于本土的垂直市场更有了解,对相关行业的挖掘也更加深入,所以它们做的产品是更符合国人的需求和实际情况的。A股的大数据公司也有很多,比如拓尔思、东方国信、星环科技等等,它们在自己的业务领域也做得很有特色。
陈宝健:AIGC是用AI去生成内容,它也是人工智能非常重要的一个研究领域,它有几个非常重要的要素,分别是数据、算力和算法。那么我们就从A股相关各个环节,对这些公司进行分析:
首先是做数据的环节。A股有一些大数据的公司,另外还有一些做数据标注的公司,例如海天瑞声,也是之前炒AIGC的一个龙头公司。另外还有一部分是做算力的,其实就是与底层的一些芯片相关,包括浪潮信息,中科曙光,寒武纪,景嘉微,海光信息,龙芯中科,中国长城等等,这是第二个环节。还有第三个环节就是做算法,垂直场景应用的,比如说科大讯飞、360、金山办公、同花顺等等。以上分别是算力、数据、算法和场景三个环节。
整体上来看,最近因为计算机板块还是比较火,这些公司涨得也都还是比较多,估值也都比较贵;相对来看便宜一点的,可能是算力这个环节,就是做底层的芯片和服务器,比如说浪潮信息、中科曙光,他们对应的2023年的估值,大概目前来看还是不到30倍的。如果说做算法、做数据的环节,这些估值基本上就已经是非常贵了。
司帆:先说长期投资逻辑。过去几年,数字经济快速增长,数据作为新的生产要素参与经济发展。数字经济成为驱动我国经济发展的关键力量,根据国家工业信息安全发展研究中心发布的数据,2021年,数据要素对GDP增长的贡献率和贡献度分别为14.7%和0.83个百分点,数据要素成为我国经济发展的又一引擎。站在当前时点看,大数据产业具有政策+技术双轮驱动的特征。政策方面,2020年4月9日,中共中央、国务院印发《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据明确为生产要素。国家及地方政策不断出台,为数据要素产业发展注入强心剂。2022年12月19日,作为我国首份专门针对数据要素的基础性文件,“数据二十条”《关于构建数据基础制度更好发挥数据要素作用的意见》发布,为我国数据要素市场建设起到“指南针”的作用。数据要素市场广阔,产业链迎来发展良机。技术方面,人工智能等技术落地,加速数字经济发展。新一轮科技周期持续演进,我国数字经济产业蓬勃发展,正推动人工智能、量子计算等前沿技术突破和应用。
再谈一下技术现状和趋势。总体来说,先发国家在数字经济发展上的主导优势不变,但新兴市场国家正加速缩小差距。从专利数量看,通过对全球PCT专利数据的分析,相比20年前全球90%的PCT专利聚集在欧美等西方发达经济体,近年来在以中韩等为代表的新兴力量带动下,亚洲地区PCT专利占全球总量的比例从16.6%提高到54%。其中,数字技术专利申请是关键因素,从2021年PCT专利申请量来看,中国排名前三的技术领域是计算机技术、数字通信和视听技术,韩国排名前三的是数字通信、电子设备和计算机技术。国家知识产权局数据显示,截至2022年6月,中韩日三国5G标准必要专利占全球比例已达57.2%,其中我国占比40%领跑全球,韩国和日本分别占比9.2%和8%,位列第三和第四位。
最后说一下可能脱颖而出的产业,主要还是集中在计算机信创、通信和半导体等几个行业上。
陈宝健:因为最近ChatGPT比较火,整个计算机板块热度也都还比较高,很多公司的估值也都是涨了一波,涨幅也比较多。对于这个整体的大数据情况来看,可以分为数据的采集,存储,分析,交易,数据的安全等等。
从数据的采集、存储、分析、交易环节来看,经过这一轮上涨,估值其实都已经很贵了,对应着2023年都已经是大几十倍的一个估值。目前来看,关于数据的安全这个环节,相对来讲估值还是比较便宜的,因为参与到数据安全、网络安全的很多公司,他们大概对应2023年的估值,现在来看的话,大概也就是30到40倍的一个水平。
另外,对于大数据的环节,我们是当下更看好数据的分析,还有数据的交易这两个环节,这两个环节的价值量是比较大。对于数据的分析,是可以挖掘数据的潜在价值,对企业的价值也比较大;而数据交易,则可以使数据开始流通,现在我们看到各地也都设立了一些大数据的交易所,因为这个数据在流动的时候,它才会产生更大的价值,也可以创造更好的经济和社会效益。
从投资角度来看,数据交易在国内目前还是属于试水和不断完善的这个阶段,但是我们觉得随着设计规划的出台,还有交易制度逐渐的完善,数据交易这个环节是可以爆发很大的潜力,因为现在也是数字经济时代,数字经济时代的一个底层是数据要素,就是大数据,那你这个数据要怎么样去流通,数据怎么样去进行交易,怎么样在交易中产生更大的价值,我觉得不管是产业还是资本市场当前都是大家关注的一个焦点,所以这也是我看好的一个方向。
司帆:对于2023年市场风格的判断,我本人还是比较看好成长板块的投资机会的。主要原因是2023年经济、货币等因素。我们都知道,对股票估值一般都是用自由现金流折现法。对于成长股来说,它的自由现金流主要集中在多年后的未来,价值股的自由现金流则主要呈现匀速分布或集中于当前。2022年,全球股指之所以下跌严重,也正是由于折现率的上升,其背后原因是因地域政治动荡引起的全球性通货膨胀,进而导致了美联储多次加息。随着加息已经达到接近5%的水平,以及国际货币基金组织对于2023年全球经济增速相对放缓的预测,我认为进一步加息的可能性不大,甚至有可能出现货币再次宽松的可能。在这个背景下,市场将有利于成长股的估值。
具体到大数据的投资机会上,就像前面说的,数据产业在我国还属于一个新兴行业,具备成长股的典型属性,因此成长风格也必然会带动大数据板块的行情。
司帆:对于看好人工智能、大数据和云计算板块的投资者,有两种选择,或直接投资股票,或通过ETF投资于行业。然而投资个股对于个人投资者其实并不是特别好的策略,主要原因是个人投资者在精力投入、个股研究深度和持仓分散化等方面都难以做到最优,特别是持仓分散化不足会导致投资风险剧增。在这种背景下,个人投资者投资于特定行业或主题的ETF是一个比较好的选择。
对于这三个板块,华夏基金都发行了相关的ETF,分别是华夏中证人工智能ETF、大数据50ETF和云计算50ETF,看好的投资者可以通过这三个ETF进行一键布局。在ETF方面,华夏基金具有丰富的管理经验,严格按照完全复制的方法进行管理,追求对标的指数的紧密跟踪,尽量为投资者降低波动风险。
人工智能概念直接相关的有华夏人工智能AIETF(515070)及联接基金(008585/008586),跟踪的指数是选取业务涉及大数据、云计算、云存储、机器学习、机器视觉、人脸识别、语音语义识别、智能芯片等领域的上市公司证券作为待选样本,所以一个产品打包了人工智能的三要素;数据和算力要素相关的产品有华夏大数据50ETF(516000),它跟踪的指数选取业务涉及大数据存储设备、大数据分析技术、大数据运营平台、大数据生产、大数据应用等领域的上市公司证券作为指数样本;华夏云计算50ETF(516630)跟踪的指数从沪深市场中选取50只业务涉及提供云计算服务、大数据服务以及上述服务相关硬件设备的上市公司证券作为指数样本。
做「开源」的量化研究
to be a quant,to be open-minded.
更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊
end
团队介绍
开源证券金融工程团队,致力于提供「原创、深度、讲逻辑、可验证」的量化研究。团队负责人:魏建榕,开源证券研究所所长助理、金融工程首席分析师、金融产品研究中心负责人,复旦大学理论物理学博士,浙江大学金融硕士校外导师、复旦大学金融专硕校外导师。专注量化投资研究10余年,在实证行为金融学、市场微观结构等研究领域取得了多项原创性成果,在国际学术期刊发表论文7篇。代表研报《蜘蛛网CTA策略》系列、《高频选股因子》系列、《因子切割论》系列,在业内有强烈反响。2016年获新财富最佳分析师第6名、金牛分析师第5名、水晶球分析师第6名、第一财经最佳分析师第5名。团队成员:魏建榕/张翔/傅开波/高鹏/苏俊豪/胡亮勇/王志豪/盛少成/苏良/何申昊。
本篇文章来源于微信公众号: 建榕量化研究