论文解析 炒股逻辑
2023/5/20 17:43:06责编:梦泽
原文标题:《500% 回报率?史上最强基金经理 造!》
论文教你用 炒股,收益最高能到 500%!
,要把人类基金经理也给替代了?
英国的一家金融咨询网站 表示,他们在 3 月 6 日创立了一个由 选择的股票组成的投资组合,这个组合在两个月后上涨了 4.93%。
而同期之内,英国 10 大最受欢迎的基金的平均表现为-0.78%,而且在 87% 的交易日中表现都不及「 指数」。
同样的,同期标准普尔 500 指数(包含美国最有价值的 500 家公司的指数)也只上涨了 3%。
难道除了文字工作者们的岗位受到了威胁之外,「打工人」的脸面 —— 基金经理们也要失业了吗?
未曾设想的道路
谁能想到,国外研究者还真整了篇论文出来,细致入微地探索 AI 炒股的能力。
具体来说,就是「喂」给 一些新闻标题,让 来用情感分析( )判断这些事件对股市的影响。
会判断出,某一事件对股票价格有利、不利,还是不相关。之后,研究者会依照该结果打分,用真实的股市回报来看 准不准。
研究人员表示, 要比别的模型强多了,像什么 GPT-1、GPT-2 都预测的不准。
这说明两件事,第一,股市的回报预测能力对语言模型来说是一个亟待进一步探究的能力。第二,更高级的语言模型一定能生成更准确的预测。
研究团队主要使用的三个数据集分别是证券价格研究中心(CRSP)的每日收益率汇总,各大新闻头条,以及 。
而数据样本的覆盖范围从 2021 年 10 月开始,到 2022 年 12 月结束。
选择这个时间段的道理也很简单。 自己的训练数据是到 2021 年 9 月,也就是说 10 月之前的数据根本就不用让它预测,它自己早就知道结果如何了。所以,21 年 10 月以后的新数据正好让 拿来练手。
三个数据集中,CRSP 的每日收益数据集包含了在美国主要的证券交易所上市的各种公司的股票的每日收益,包括股票价格、交易量和市值等数据。
其次,研究者搜集所有包含有公司名称或者股票代码的新闻,来源则是各类主要的新闻机构、金融新闻网站和社交媒体平台。
对于每家公司而言,研究人员会收集样本期间的所有新闻。
最后, 值得着重介绍一下。
自 2003 年以来, 一直是金融服务领域领先的数据分析供应商之一。
他们帮助企业从大量的信息中快速而轻松地有价值的部分。 的产品使客户能够提高收益、减少风险并提高运营效率。
总的来说, 的作用,就是保证喂给 的都是有效 / 相关的信息。
最终,研究团队从 上匹配出 4138 家公司的 67586 条新闻标题。
同时,研究人员会给每条新闻打分,从 0 到 100,衡量每条新闻和所提及的公司的关系。
0 分意味着在新闻中是被动提到某家公司的,可能只是捎带手提了一嘴。研究人员追求的是 100 分的相关性。
同时,所有只介绍股市趋势的新闻也排除在外,这种新闻违背了预测的初衷。相同内容的重复报道也被研究团队规避,这样收集到的数据才能为实验更好的服务。
到这里,该收集的数据就差不多了,下一步就是该分析了。
打分制炒股
既然要让 输出内容,那首先就是设计一个 出来。
研究团队使用的是以下这个 :
假设你是一个金融专家,且是一个有股票推荐经验的金融专家。如果这条新闻是好消息,请回答「YES」,如果是坏消息,请回答「NO」,如果不确定,请在第一行回答「」,然后在下一行用一个短小精悍的句子进行阐述。
这个新闻对 _____(公司名称)的股票价格来说,在 _____ 内(短期、长期)是好是坏?
新闻标题:_____
可以看到,研究人员让 一个有股票推荐经验的金融专家,而横线的部分则用具体信息替代。
举个栗子:
输入新闻标题: 在与甲骨文的诉讼案中被罚 63 万美元
评价对象:甲骨文股价
时间跨度:短期
输出的回答是这样的:
「YES。对 的罚款会间接促进投资者的信心,相信甲骨文有能力保护自己的知识产权,维护自身产品和服务的需求提升。」
然后,研究人员会根据 的回答进行打分。YES 算 1 分,NO 算-1 分, 算 0 分。
如果关于一家公司一天之内有很多新闻,那就把分数汇总一下,输出一个平均值。
最后,再用这个预测的分数和之后真实的结果进行匹配。
散户福音!
通过利用新闻标题数据和生成的情绪得分,研究人员发现 评估结果与样本中股票的后续每日回报之间存在很强的相关性。
而且 的情绪评分比现有的传统的数据供应商提供的情绪指标还要能更加准确地预测股票的收益。
研究团队认为, 之所以比现有的情绪指数好,还是要归因于强大的语言理解能力,使得它能够捕捉新闻标题中的细微差别,从而使得生成的情绪得分更为可靠。
所以将大语言模型作为工具能够提供比传统的情绪指数更好的投资参考。
研究团队还进一步发现, 情感评分对于小盘股的收益预测能力要好于大盘股。说明对于股东套利的限制可能会降低这个策略的收益能力。
研究团队用 生成的情绪的分来指导股票操作。
具体操作方式就是,只要有消息放出,就买入(积极消息)或者短暂卖出(消极消息)股票。
消息如果是交易时间内放出,就以当时价格进行交易,如果是交易时间之外放出,就以第二天开盘价进行交易。
(黑线代表零成本的收益,绿线代表 5% 的交易成本的收益,蓝线代表 10% 的交易成本收益,深蓝色的线代表 25% 的交易成本收益,红线代表市场整体收益)
这个表展示了操作的回归分析的结果,很直观地体现了第二天股票收益与 生成的情绪得分之间的相关性。
回报率 500%!?
用 对新闻标题进行情感分析,从而预测股票收益的表现是优于主要供应商的传统情绪指数的。
说明了继续开发探索大语言模型在金融行业的应用是非常有潜力的的。
随着 AI 本身技术的发展,设计更复杂的模型在金融市场搞钱是一个很靠谱的事情。
宏观来看,考虑到未来如果大部分金融从业人员都使用基于大语言模型的工具进行决策,也会对金融市场的价格的形成机制,信息的传播途径,和市场稳定性产生深远的影响。
那么,具体的回报是什么样子的呢?
多空策略,即购买有好消息的公司并卖空有坏消息的公司,回报率最高,超过 500%。
只做空策略,只关注卖空有坏消息的公司,回报率接近 400%。
只做多的策略,只买入有好消息的公司,回报率约为 50%。
当然,这个数字看着唬人,其实也就是一个理想情况。
但是,抛开冷冰冰的数字, 的这项能力确实有很大的发挥空间。
这可能会改写股票交易,散户现在有机会获得比企业情绪分析更强大的工具。
一般来说, 正在使其他公司倾注在专有机器学习模型中多年的工作变得过时。
它跨越了数百万美元的研发费用,任何人都可以轻松获得这种能力。
对于普通投资者来说,跑赢大盘就挺好。
对于没有很复杂金融知识和股票交易的经验的普通人,当然做不了如此复杂的分析和精度很高的操作。
那么根据开头提到的跑赢标普 500 的「 投资组合」中推荐的选股策略:
低负债率
历史上持续稳定的增长
拥有能够产生竞争优势的资产。
也能挑选出不错的公司,帮助你高效配置自己的资产。
但需要注意的是, 给出的回复并不能作为投资的事实性依据。
参考资料: