Financial Statement Analysis with Large Language Models论文精读

作者：神奇cpp | 2024-06-25 03:39:43

踩

Financial Statement Analysis with Large Language Models 论文精读

Abstract

我们研究了一种大型语言模型（LLM）是否能够像专业人类分析师一样成功地进行财务报表分析。我们向GPT-4提供标准化且匿名的财务报表，并指示模型分析这些报表以预测未来的收益变化方向。即使在没有任何叙述性或行业特定信息的情况下，LLM在预测收益变化方面的表现优于财务分析师。LLM在分析师通常表现不佳的情况下表现出相对优势。此外，我们发现LLM的预测准确性与经过专门训练的最先进机器学习模型的表现相当。LLM的预测并非来自其训练数据的记忆。相反，我们发现LLM生成了关于公司未来表现的有用见解。最后，基于GPT预测的交易策略比基于其他模型的策略产生了更高的夏普比率和阿尔法。综上所述，我们的研究结果表明，LLM可能在决策过程中发挥重要作用。

核心速览

研究背景

本文探讨了大语言模型（LLM），特别是GPT-4，在财务报表分析中的能力。财务报表分析是一项需要批判性思维、推理和判断的传统定量任务。

数据与模型：
- 使用结构化且匿名化的财务报表数据。
- 采用复杂的链式思维（Chain-of-Thought）提示来模拟人类分析师处理财务信息的方式。
实验设计：
- 对比GPT与人工神经网络（ANN）和逻辑回归模型的预测能力。
- 使用1962-2021年的数据，通过滚动五年的训练窗口训练模型，评估其对未来一年收益的预测能力。
- 设计并评估基于预测的投资策略。
主要发现
- 预测准确性：
  - GPT在预测未来收益方向上的准确性优于专业人类分析师。
  - GPT和ANN的表现相当，并且两者的预测包含互补信息。
- 信息来源：
  - GPT的预测能力主要来源于其对趋势和财务比率的分析，而非其“记忆”。
  - GPT生成的叙述性财务分析具有显著的信息价值。
- 投资策略：
  - 基于GPT预测的投资策略在风险调整后的回报方面（夏普比率和阿尔法）优于基于ANN和逻辑回归的策略。
  - 特别是，GPT在分析小型和波动性较大的公司时表现更佳。
实践意义
- 应用潜力：
  - GPT不仅能辅助投资者（如总结财务报表），还可以在做出明智决策中发挥更积极的作用。
  - LLMs有潜力民主化财务信息处理，使非专业投资者能够更好地利用财务数据。
- 人机互补：
  - AI模型在分析师表现不佳或存在偏见和分歧时表现更好，而人类分析师在需要额外上下文时增值更多。
结论

GPT展示了在财务报表分析中的卓越能力，达到了甚至超越了专业机器学习模型的表现。这表明LLMs在金融领域具有很大的应用潜力，值得投资者和监管者关注。未来的研究应进一步探讨AI在实际金融决策中的影响。

研究细节

baseline

在这里插入图片描述

该图描述了论文中使用的baseline模型及预测方法

样本数据部分
1. 首先，从Compustat数据集中抽取了1968-2021年的财务报表数据。(保留了2022年的数据，以预测2023年的财政年度收益)
2. 其次，求每个观测值具有非缺失的总资产、年末资产价值超过一百万美元、年末股价超过每股一美元，以及财政期末日期为12月31日。我们还删除了资产负债表方程不成立的观测值。
3. 最终，我们剩下了来自15,401家不同公司的150,678个观测值
数据预处理部分
1. 格式遵循Capital IQ的平衡模型，重建了财务报表的结构，行为指标，列为时间。
2. 匿名化：省略了任何标识信息，如公司名称或财务报表的日期
模型选择
1. 我们使用了 gpt-4-0125-preview，这是OpenAI在我们进行实验时最新的GPT模型。
2. 将温度参数设置为零，以确保模型响应的变化最小化。
3. 我们没有指定最大标记数量，而top-p抽样参数设置为一（即模型以概率一采样最可能的单词）
通过Chain-of-Thought提示模拟人类分析师处理财务信息的方式
1. 识别特定财务报表项目中的显著变化
2. 计算关键的财务比率，而不明确限制需要计算的比率集。在计算比率时，我们提示模型首先陈述公式，然后进行简单的计算。
3. 还指示模型对计算的比率提供经济解释。
使用基本的定量信息及其产生的见解，指示模型预测
1. 伴随有理由陈述的二元预测(下一年的EPS增加方向)
2. 提供盈利变化的预测幅度(幅度包括三个类别：大、中等和小)
3. 答案的信心水平(零（随机猜测）到一（完全知情）)

GPT与分析师对比

分析师样本: 1983-2021的IBES数据，样本量39,533
每个观察值至少有三个分析师预测，取中位数作为 pred
Pred Analyst1m表示在前一年盈利发布后的一个月内发布的预测
3m和6m则是发布后的3个月与6个月发布的预测(相较于GPT，分析师获得的信息更多)

在这里插入图片描述

基于上一年财务报表发布后第一个月的预测，分析师的准确率为 52.71%，F1 分数为 54.48%，这在预测一年后的收益变化方向时优于基于简单模型的预测（准确率 = 49.11%，F1 分数 = 53.02%）。然而，这些结果也重申了一个观点，即收益变化非常难以预测，即使是对复杂的金融分析师也是如此。

正如预期的那样，分析师的预测准确率在 t+1 年内随着时间的推移有所提高，分别在第三个月和第六个月的预测中达到了 55.95% 和 56.58%。转向 GPT 的预测，我们观察到以下几点：

使用简单的提示指示 GPT 分析财务报表并预测未来收益方向时，模型的准确率为 52.33%，F1 分数为 54.52%。因此，在没有 CoT 推理的情况下，模型的性能与财务报表发布后第一个月的分析师共识预测相当。然而，当我们利用基于 CoT 的 GPT 预测时，性能显著提高。通过链式思维提示，GPT 达到 60.35% 的准确率，相比财务报表发布后一个月的分析师预测提高了 7 个百分点。这个差异在 1% 的水平上具有统计显著性。

因为我们没有向语言模型提供任何分析师可获得的叙述性或背景信息，除了资产负债表和损益表。综上所述，我们的结果表明，即使没有任何特定的叙述性背景，GPT 也可以通过财务报表分析超过人类分析师。我们的结果还强调了类似人类的逐步分析的重要性，这使得模型能够遵循人类分析师通常执行的步骤。相比之下，仅仅指示模型分析复杂的财务报表并不会产生强有力的预测结果。

人类分析师与 GPT 的互补性

错误预测的来源

I(incorrect = 1) 是一个指示变量，当收益预测与实际收益变化不匹配时等于 1,否则为0
$X_{it}$ 是公司 i 在 t 年的特征向量(资产规模、杠杆率、市净率、收益波动率、亏损指标和固定资产比例)
$δ_year$ 和 $δ_ind$ 分别表示年份和行业的固定效应

$1)_{it} = \beta X_{it} +\delta_{year}+\delta_{ind}+ \epsilon_{it}$

在这里插入图片描述

列 (1) 中，我们记录了 GPT 预测不准确的情况更多出现在公司规模较小、杠杆率较高、报告亏损以及收益波动较大的公司中。
列 (2)、(3) 和 (4) 中，我们报告了分析师预测不准确的决定因素。与列 (1) 相比，出现了几个有趣的差异。首先，尽管分析师在预测小公司收益方面面临困难，但这些系数的幅度几乎是列 (1) 中系数的一半（所有三种比较的 p 值均小于 1%）
另一个显著的差异是，当公司报告亏损和收益波动较大时，分析师相对于 GPT 更不容易出错。这些发现适用于所有分析师预测指标，因为列 (2)、(3) 和 (4) 中关于亏损和收益波动的系数幅度始终小于列 (1) 的系数。

增量信息增益

我们测试分析师的预测是否在准确性较低的情况下，仍然能提供增量信息，补充 GPT 的预测。
I(Increase= 1) 是一个指示变量，当下一期收益增加时，该变量等于 1，否则为 0。
$Pred_X$ 是一个指示变量，当“X”（可以是“GPT”或“Analyst”）预测收益增加时，该变量等于 1，否则为 0。
$δ_year$ 和 $δ_ind$ 分别表示年份和行业的固定效应

在这里插入图片描述

GPT预测的系数（
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/754811

Financial Statement Analysis with Large Language Models论文精读