当前位置:   article > 正文

评测AI 在金融领域的能力:开源大语言模型的比较分析

评测AI 在金融领域的能力:开源大语言模型的比较分析

造访我们的GitHub 储存库:造访我们的GitHub 页面以探索资料集、下载程式码并查看与我们的开源大型语言模型测试相关的文件。该储存库旨在为教育工作者、研究人员和任何对人工智慧模型测试感兴趣的人提供资源。

介绍:

在快速发展的金融世界中,人工智慧的整合已成为推动创新解决方案和增强决策流程的基石。最近,我踏上了一段迷人的旅程,评估专门针对金融问答场景量身定制的各种开源大型语言模型(LLM) 的功能。我的目标是了解这些模型在标准化提示设定下的执行情况,其中每个模型都充当“财务分析师”,以JSON 格式简洁地回答查询。该分析不仅揭示了人工智慧在金融查询中的现状,而且旨在指导金融科技领域的未来发展和实施

测试目的

此探索性分析的主要目标是确定哪种开源大型语言模型最适合处理金融领域的特定任务。此初步测试着重于两个关键领域:

  • 金融术语理解:每个模型准确理解和回应涉及复杂金融术语的查询的能力。这对于确保金融领域人工智慧应用的可靠性和资讯量至关重要。
  • 基本财务推理:评估每个模型执行有关交易和投资情境的基本推理的能力。这包括了解市场动态、预测潜在的财务结果以及根据给定数据提供初步财务建议。

目的是确定哪个大语言模型能够为这些任务提供最有效和最准确的表现,为未来金融服务中的AI应用提供有价值的处理能力。透过进行这种分析,我们可以更了解每种模型的优点和局限性,并指导开发人员和企业根据其在金融领域的特定需求选择合适的人工智慧工具。

方法

为了对用于财务问答任务的开源大型语言模型(LLM) 进行全面评估,采用了一种结构化且可复制的测试方法,使用以下方法:

使用的工具:

  • ollama :所有测试都是使用ollama进行的,它可以在不同的法学硕士之间进行一致和公平的比较。该工具提供了一个标准化环境,可以在相同条件下运行每个模型。
    资料集创建:
  • 问题生成:此测试的资料集是使用ChatGPT-4 产生的,确保每个问题都与金融术语和基本交易概念相关。这种方法有助于维持资料集的品质和特异性,并专注于金融领域。 Basic Financial Q&A v0.3资料集可以从GitHub下载。
  • 答案验证:每个问题都设计有一个简单、可验证的答案,以便对模型输出进行直接评估,确保可以客观地评估每个模型的准确性。

测试执行:

  • 重复试验:每个模型都会对每个问题进行多次处理,以考虑反应的变异性。这种重复有助于评估每个模型在提供正确可靠答案方面的一致性。
  • 问题的一致性:为了确保所有模型在相同的条件下进行评估,所有测试都使用相同的提示范本。模型被指示充当金融分析师,仅以预先定义的JSON 格式进行回应,严格关注答案,无需额外解释。

这种方法不仅为评估每个大语言模型的能力提供了一个强大的框架,而且还确保研究结果是基于一致和透明的测试过程。

物理环境

为了提供一个高效且有效的测试环境来评估开源大型语言模型在金融问答任务上的性能,我们开发了一个尖端的 Multi-Agent System 多代理系统。此设定利用了多台 Mac 电脑的高级功能,特别是利用了它们的高效能功能。以下是设定概述:

使用的硬体:

  • 配备M2 Ultra 晶片的Mac Studio:我们的测试环境的骨干由多个配备M2 Ultra 晶片的Mac Studio 设备组成,具有192GB 统一记忆体。这种强大的配置特别适合运行大型模型,例如我们测试的1320 亿参数模型,确保平稳运行和快速处理时间,而不会影响计算效率。
  • 配备M2 和M3 晶片的Mac Mini:配备高达64GB 的小型Mac 统一内存,适合较小模型的工作。

系统配置:

  • 多代理系统:我们设计了一个多代理系统,可以在多台Mac 电脑之间无缝管理和分配任务。该系统对于处理运算负载和协调工作流程至关重要,从而最大限度地利用硬体资源。多代理方法允许并行处理任务,显著加快测试过程并提高生产力。此MAS 设定还确保每台电脑都执行适当的作业。 192GB Mac Studio 首先承担较大模型的工作负载。
  • 自动化任务处理:自动化是我们系统的关键组成部分。从启动模型运行到收集输出,每项任务都是自动化的。这不仅减少了人为错误的可能性,而且还确保每个模型在完全相同的条件下进行测试,从而保持了测试的完整性和一致性。

这种强大的实体设定使我们能够进行广泛的测试,而不受与处理大型资料集和复杂模型相关的典型限制。透过利用先进的硬体和客制化软体解决方案,我们确保对大语言模型的评估不仅全面,而且高效且可扩展。

结果

这是按模型正确和错误答案的摘要。完整结果可以从我们的GitHub testset_20240525–1_results.csv下载。

模型正确率

在这里插入图片描述

模型正確率正確次數錯誤次數
llama3:70b-instruct-q8_00.6697880434
llama3:70b0.6657890447
llama3:70b-instruct-fp160.6619881450
mixtral:8x22b-instruct-v0.1-q8_00.6441865478
mixtral:8x22b0.6019809535
wizardlm2:8x22b-q8_00.5943797544
wizardlm2:8x22b0.5930797547
qwen:32b0.5305713631
dbrx:132b0.5248689624
mixtral:8x7b-instruct-v0.1-q8_00.5000672672
mixtral:8x7b0.4621621723
qwen:110b0.4595386454
gemma:7b-instruct-v1.1-fp160.4481527649
gemma:7b-instruct-v1.1-q8_00.4447523653
deepseek-llm:67b0.4427595749
gemma:7b-v1.10.4175491685
command-r-plus:104b0.3698497847
llama3:8b-instruct-q6_K0.3542476868
llama3:8b-instruct-q8_00.3542476868
llama3:8b-instruct-fp160.3504471873
command-r:35b0.3475467877
llama3:8b0.3415459885
qwen:72b0.3385455889
llama2:70b0.3281441903
phi3:3.8b-mini-instruct-4k-fp160.3155371805
gemma:7b0.3146370806
phi3:3.8b0.3112366810
deepseek-coder:33b0.2946396948
wizardlm2:7b-fp160.2887291717
starling-lm:7b0.2872297737
wizardlm2:7b-q8_00.2837286722
yi:34b0.2828366928
wizardlm2:7b0.2817284724
openchat:7b0.2815331845
qwen:14b0.2804293752
solar:10.7b0.2798282726
starling-lm:7b-beta-q8_00.2569259749
mistral:7b-instruct-v0.2-q8_00.2543299877
mistral:7b-instruct-v0.2-fp160.2528297878
llama2-uncensored:70b0.25223391005
mistral:v0.20.2423285891
qwen:7b0.2364235759
mistral:7b0.2245264912
orca2:13b0.2185257919
zephyr:7b0.2173219789
dolphin-llama3:8b-v2.90.2100247929
neural-chat:7b0.2075244932
llama2:13b0.1947229947
codellama:13b0.1896223953
wizardlm-uncensored:13b0.1687170838
deepseek-llm:7b0.1677197978
deepseek-coder:6.7b0.13691611015
orca2:7b0.12161431033
yi:6b0.093394914
llama2:7b0.09071061063
gemma:2b-v1.10.0765901086
llama2-uncensored:7b0.0748881088
gemma:2b0.0663781098
qwen:4b0.065064921
llama2-chinese:7b0.0621731103
phi:2.7b0.0491591142
qwen:1.8b0.032833973
deepseek-coder:1.3b0.0102121161
qwen:0.5b0.00505995
falcon:7b-instruct0.002631167
qwen-chat:7b0.000001015

分析

  • Llama3:70b 系列:「llama3:70b」系列中的模型在财务问答测试中展现了最强的表现。这表明他们的训练和架构特别适合处理金融术语和推理任务的细微差别。它们的高准确率表明强大的语言理解能力,这对于精确的财务分析至关重要。
  • Mixtral:7x22b 和Wizrdlm2:8x22b:这些模型的表现也值得称赞,仅落后于「llama3:70b」系列。与「llama3:70b」模型相比,效能稍低可能是由于其训练资料集或模型架构的变化,这可能会影响其在特定财务查询中的效率。
  • 较大的模型表现不佳:令人惊讶的是,「dbrx:132b」、「command-r-plus:104b」和「qwen:110b」等较大模型尽管参数数量较多,但并未达到预期。这种表现不佳可能是由于过度拟合,即模型过于适合其训练数据,从而降低了其在现实世界任务(例如测试的财务问答场景)中的实际有效性。
  • Gemma:7b-v1.1 的惊人成功:「gemma:7b-v1.1」模型尽管规模较小,但正确率达到了约45%。这意想不到的成功凸显出,高效的训练和模型最佳化有时可以胜过语言模型中参数的庞大规模。它表明「gemma:7b-v1.1」可能在处理和理解金融内容方面具有特定的优势,这可能是透过对相关资料集进行更有针对性的培训。

量化对模型表现的影响

我们的研究结果表明,量化水平(本质上是模型数值计算中的细节和精度)可能不会一致地影响不同架构中模型响应的正确性。这种见解是透过观察具有不同量化层级的各种模型之间的表现差异而得出的:

  • Llama3 精度的一致性:「llama3」模型的三种不同精度变体显示出几乎相同的正确性水平。这种一致性表明,对于「llama3」架构,量化的修改并没有显著影响模型正确回答财务问答任务的能力。这显示「llama3」模型的架构足够强大,尽管运算精度发生变化,仍能保持效能。
  • Mixtral不同精度的差异:相较之下,「mixtral:8x22b」模型在其量化变体之间表现出显著的性能差异。具体来说,与q4 版本相比,q8_0 版本表现出明显更高的正确性。这种变化强调,对于某些模型(例如“mixtral”),较低的量化(例如q4)可能会降低效能,这可能是由于处理语言处理中细微差别的能力降低或在模型计算期间丢失关键讯息所致。

这些观察结果强调了在调整量化等级时考虑模型特定特征的重要性。虽然某些模型可能不会在精度较低的情况下表现出明显的性能下降,但其他模型可能需要更高的量化才能发挥最佳作用,特别是在需要高精度和细致入微的理解的任务中,例如财务分析。

透过进一步探索这些差异,我们可以更好地针对特定应用客制化模型配置,优化计算效率和任务有效性。

结论

此测试的结果为了解各种大型语言模型在处理财务问答任务中的表现提供了宝贵的见解,但值得注意的是:

  • 特定任务的表现:在「llama3:70b」系列等模型中观察到的较高正确率表明这些模型特别擅长处理它们所测试的特定财务问答任务。然而,这并不一定意味着这些模型在语言处理或其他类型任务的所有方面都优越。
  • 模型性能的可变性:值得注意的是,某些模型可能在同一测试集中的特定类型问题上表现出色。这种可变性表明,虽然某些模型经过调整可以在广泛的范围内表现良好,但其他模型可能具有专门的功能,使它们更适合特定的子任务或问题类型。
  • 提示模板的影响:测试中使用的提示模板也会显著影响反应的正确性。不同的提示表述可能会导致模型解释和回答问题的方式发生变化,进而影响其表面表现。在评估模型能力以及在实际应用中为这些模型设计任务时必须考虑这个因素。
  • 更广泛的影响:这些发现强调了在现实世界场景中部署大语言模型的背景和特殊性的重要性。使用者和开发人员应考虑每种模型的特定优势和局限性,尤其是在金融等专业领域,以确保最佳性能和可靠性。

这种分析不仅有助于理解金融环境中最先进的语言模型的当前能力,而且还强调了人工智慧性能的微妙本质,它可能会根据任务和条件的不同而有很大差异。

未来更进一步的工作

基于从初始测试阶段获得的见解,我们未来的工作将旨在扩展和加深我们对跨各个领域的开源大型语言模型功能的理解。这是我们下一步计划要探索的内容:

  • 更多的提示范本:认识到提示设计对模型效能的影响,我们将尝试各种提示范本。这种方法将帮助我们评估不同的提示结构如何影响模型反应的准确性和相关性,使我们能够微调这些输入以获得最佳结果。
  • 问答集的扩展:我们将开发专门针对金融业及其他领域的其他问答集。透过扩大查询范围,我们的目标是创建一个更全面的资料集,以测试更广泛的金融知识和分析技能。
    金融以外的探索:虽然我们目前的重点主要是金融主题,但我们计划将测试扩展到其他领域。这项扩展将包括医疗保健、法律和技术等领域,大语言模型的准确性和适应性可以显著影响决策过程和营运效率。
  • 比较效能分析:当我们将测试扩展到其他领域时,我们还将进行比较分析,以确定哪些模型在特定情况下表现最佳。这将为寻求实施适合其特定需求的人工智慧解决方案的开发人员和企业提供宝贵的见解。

透过这些举措,我们希望不仅增强法学硕士在实际应用中的效用,而且透过分享我们的发现和方法为更广泛的人工智慧社群做出贡献。我们的目标是为各行业更明智、更有效地使用人工智慧技术铺路。

邀请您参与其中

我们致力于扩大开源大型语言模型的测试,并希望纳入读者的贡献。您的意见可以帮助提高我们未来测试的准确性和相关性。

我们邀请您透过以下方式参与:

  • 提交您的问答:如果您认为您的问题或答案会对这些法学硕士提出挑战或提供新的见解,请与我们分享。无论是与金融相关还是其他领域,您的贡献都是有价值的。
  • 建议提示范本:提示的结构在模型如何解释和回应查询方面起着至关重要的作用。如果您对提示模板有想法,这些模板可能会从模型中产生更细致或更详细的回应,我们将渴望在即将进行的实验中测试这些模板。

如何贡献

请将您的问答建议和提示范本发送至support@osmb.ai。我们将审查所有提交的内容并考虑将其纳入我们未来的测试中。这是了解尖端人工智慧模型如何处理现实世界查询并为人工智慧研究的进步做出贡献的绝佳机会。

透过参与,您将直接为人工智慧领域做出贡献,并帮助塑造各行业的技术未来。我们期待您的见解,并提前感谢您所做的宝贵贡献!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/652176
推荐阅读
相关标签
  

闽ICP备14008679号