赞
踩
造访我们的GitHub 储存库:造访我们的GitHub 页面以探索资料集、下载程式码并查看与我们的开源大型语言模型测试相关的文件。该储存库旨在为教育工作者、研究人员和任何对人工智慧模型测试感兴趣的人提供资源。
在快速发展的金融世界中,人工智慧的整合已成为推动创新解决方案和增强决策流程的基石。最近,我踏上了一段迷人的旅程,评估专门针对金融问答场景量身定制的各种开源大型语言模型(LLM) 的功能。我的目标是了解这些模型在标准化提示设定下的执行情况,其中每个模型都充当“财务分析师”,以JSON 格式简洁地回答查询。该分析不仅揭示了人工智慧在金融查询中的现状,而且旨在指导金融科技领域的未来发展和实施
此探索性分析的主要目标是确定哪种开源大型语言模型最适合处理金融领域的特定任务。此初步测试着重于两个关键领域:
目的是确定哪个大语言模型能够为这些任务提供最有效和最准确的表现,为未来金融服务中的AI应用提供有价值的处理能力。透过进行这种分析,我们可以更了解每种模型的优点和局限性,并指导开发人员和企业根据其在金融领域的特定需求选择合适的人工智慧工具。
为了对用于财务问答任务的开源大型语言模型(LLM) 进行全面评估,采用了一种结构化且可复制的测试方法,使用以下方法:
这种方法不仅为评估每个大语言模型的能力提供了一个强大的框架,而且还确保研究结果是基于一致和透明的测试过程。
为了提供一个高效且有效的测试环境来评估开源大型语言模型在金融问答任务上的性能,我们开发了一个尖端的 Multi-Agent System 多代理系统。此设定利用了多台 Mac 电脑的高级功能,特别是利用了它们的高效能功能。以下是设定概述:
这种强大的实体设定使我们能够进行广泛的测试,而不受与处理大型资料集和复杂模型相关的典型限制。透过利用先进的硬体和客制化软体解决方案,我们确保对大语言模型的评估不仅全面,而且高效且可扩展。
这是按模型正确和错误答案的摘要。完整结果可以从我们的GitHub testset_20240525–1_results.csv下载。
模型 | 正確率 | 正確次數 | 錯誤次數 |
---|---|---|---|
llama3:70b-instruct-q8_0 | 0.6697 | 880 | 434 |
llama3:70b | 0.6657 | 890 | 447 |
llama3:70b-instruct-fp16 | 0.6619 | 881 | 450 |
mixtral:8x22b-instruct-v0.1-q8_0 | 0.6441 | 865 | 478 |
mixtral:8x22b | 0.6019 | 809 | 535 |
wizardlm2:8x22b-q8_0 | 0.5943 | 797 | 544 |
wizardlm2:8x22b | 0.5930 | 797 | 547 |
qwen:32b | 0.5305 | 713 | 631 |
dbrx:132b | 0.5248 | 689 | 624 |
mixtral:8x7b-instruct-v0.1-q8_0 | 0.5000 | 672 | 672 |
mixtral:8x7b | 0.4621 | 621 | 723 |
qwen:110b | 0.4595 | 386 | 454 |
gemma:7b-instruct-v1.1-fp16 | 0.4481 | 527 | 649 |
gemma:7b-instruct-v1.1-q8_0 | 0.4447 | 523 | 653 |
deepseek-llm:67b | 0.4427 | 595 | 749 |
gemma:7b-v1.1 | 0.4175 | 491 | 685 |
command-r-plus:104b | 0.3698 | 497 | 847 |
llama3:8b-instruct-q6_K | 0.3542 | 476 | 868 |
llama3:8b-instruct-q8_0 | 0.3542 | 476 | 868 |
llama3:8b-instruct-fp16 | 0.3504 | 471 | 873 |
command-r:35b | 0.3475 | 467 | 877 |
llama3:8b | 0.3415 | 459 | 885 |
qwen:72b | 0.3385 | 455 | 889 |
llama2:70b | 0.3281 | 441 | 903 |
phi3:3.8b-mini-instruct-4k-fp16 | 0.3155 | 371 | 805 |
gemma:7b | 0.3146 | 370 | 806 |
phi3:3.8b | 0.3112 | 366 | 810 |
deepseek-coder:33b | 0.2946 | 396 | 948 |
wizardlm2:7b-fp16 | 0.2887 | 291 | 717 |
starling-lm:7b | 0.2872 | 297 | 737 |
wizardlm2:7b-q8_0 | 0.2837 | 286 | 722 |
yi:34b | 0.2828 | 366 | 928 |
wizardlm2:7b | 0.2817 | 284 | 724 |
openchat:7b | 0.2815 | 331 | 845 |
qwen:14b | 0.2804 | 293 | 752 |
solar:10.7b | 0.2798 | 282 | 726 |
starling-lm:7b-beta-q8_0 | 0.2569 | 259 | 749 |
mistral:7b-instruct-v0.2-q8_0 | 0.2543 | 299 | 877 |
mistral:7b-instruct-v0.2-fp16 | 0.2528 | 297 | 878 |
llama2-uncensored:70b | 0.2522 | 339 | 1005 |
mistral:v0.2 | 0.2423 | 285 | 891 |
qwen:7b | 0.2364 | 235 | 759 |
mistral:7b | 0.2245 | 264 | 912 |
orca2:13b | 0.2185 | 257 | 919 |
zephyr:7b | 0.2173 | 219 | 789 |
dolphin-llama3:8b-v2.9 | 0.2100 | 247 | 929 |
neural-chat:7b | 0.2075 | 244 | 932 |
llama2:13b | 0.1947 | 229 | 947 |
codellama:13b | 0.1896 | 223 | 953 |
wizardlm-uncensored:13b | 0.1687 | 170 | 838 |
deepseek-llm:7b | 0.1677 | 197 | 978 |
deepseek-coder:6.7b | 0.1369 | 161 | 1015 |
orca2:7b | 0.1216 | 143 | 1033 |
yi:6b | 0.0933 | 94 | 914 |
llama2:7b | 0.0907 | 106 | 1063 |
gemma:2b-v1.1 | 0.0765 | 90 | 1086 |
llama2-uncensored:7b | 0.0748 | 88 | 1088 |
gemma:2b | 0.0663 | 78 | 1098 |
qwen:4b | 0.0650 | 64 | 921 |
llama2-chinese:7b | 0.0621 | 73 | 1103 |
phi:2.7b | 0.0491 | 59 | 1142 |
qwen:1.8b | 0.0328 | 33 | 973 |
deepseek-coder:1.3b | 0.0102 | 12 | 1161 |
qwen:0.5b | 0.0050 | 5 | 995 |
falcon:7b-instruct | 0.0026 | 3 | 1167 |
qwen-chat:7b | 0.0000 | 0 | 1015 |
我们的研究结果表明,量化水平(本质上是模型数值计算中的细节和精度)可能不会一致地影响不同架构中模型响应的正确性。这种见解是透过观察具有不同量化层级的各种模型之间的表现差异而得出的:
这些观察结果强调了在调整量化等级时考虑模型特定特征的重要性。虽然某些模型可能不会在精度较低的情况下表现出明显的性能下降,但其他模型可能需要更高的量化才能发挥最佳作用,特别是在需要高精度和细致入微的理解的任务中,例如财务分析。
透过进一步探索这些差异,我们可以更好地针对特定应用客制化模型配置,优化计算效率和任务有效性。
此测试的结果为了解各种大型语言模型在处理财务问答任务中的表现提供了宝贵的见解,但值得注意的是:
这种分析不仅有助于理解金融环境中最先进的语言模型的当前能力,而且还强调了人工智慧性能的微妙本质,它可能会根据任务和条件的不同而有很大差异。
基于从初始测试阶段获得的见解,我们未来的工作将旨在扩展和加深我们对跨各个领域的开源大型语言模型功能的理解。这是我们下一步计划要探索的内容:
透过这些举措,我们希望不仅增强法学硕士在实际应用中的效用,而且透过分享我们的发现和方法为更广泛的人工智慧社群做出贡献。我们的目标是为各行业更明智、更有效地使用人工智慧技术铺路。
我们致力于扩大开源大型语言模型的测试,并希望纳入读者的贡献。您的意见可以帮助提高我们未来测试的准确性和相关性。
我们邀请您透过以下方式参与:
请将您的问答建议和提示范本发送至support@osmb.ai。我们将审查所有提交的内容并考虑将其纳入我们未来的测试中。这是了解尖端人工智慧模型如何处理现实世界查询并为人工智慧研究的进步做出贡献的绝佳机会。
透过参与,您将直接为人工智慧领域做出贡献,并帮助塑造各行业的技术未来。我们期待您的见解,并提前感谢您所做的宝贵贡献!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。