赞
踩
Chatlaw:集成外部知识库的开源法律大语言模型
论文地址:https://arxiv.org/abs/2306.16092
项目地址:https://github.com/PKU-YuanGroup/ChatLaw
大语言模型(LLM)已经显示出在各个领域革新自然语言处理任务的潜力,引发了对特定于垂直领域的大型模型的极大兴趣。然而,与BloombergGPT和FinGPT等利用其独特的数据积累在金融领域取得进展的专有模型不同,中国法律领域没有多少类似的大语言模型来促进其数字化转型。
本文提出了一个名为ChatLaw的开源法律大语言模型。由于数据质量的重要性,我们精心设计了一个法律领域微调数据集。此外,为了克服参考数据检索中合法数据筛选的模型幻觉问题,我们引入了一种将向量数据库检索与关键词检索相结合的方法,以有效降低单纯依赖向量数据库检索的不准确性。此外,我们提出了一种自我注意方法,以增强大模型克服参考数据中存在的错误的能力,进一步优化模型水平上的模型幻觉问题,并提高大模型的问题解决能力。
本文的主要贡献如下:
此外,我们观察到,一个通用的合法LLM可能无法在该领域的所有任务中发挥最佳性能。因此,我们针对各种场景训练了不同的模型,例如选择题、关键词提取和问答。为了处理这些模型的选择和部署,我们使用HuggingGPT [6]提供的方法,采用了一个大的LLM作为控制器。这个控制器模型根据每个用户的请求动态地确定调用哪个特定的模型,确保最合适的模型用于给定的任务。
在构建数据集时,我们采用了多种方法来确保其全面性和多样性。数据集组成方法如下:收集大量原始法律数据:这包括收集法律新闻、社交媒体内容和来自法律行业论坛的讨论。这些来源提供了各种现实世界的法律文本,提供了对各种法律主题和讨论的见解。
通过整合来自这些不同来源和构建方法的数据,我们的数据集涵盖了广泛的法律背景,确保开发的模型能够有效地理解和处理各种法律场景。一旦收集了这些数据组件,数据集将经历一个严格的清理过程。这包括过滤掉简短和不连贯的回答,确保只包含高质量和有意义的文本。此外,为了增强数据集,我们利用ChatGPT API进行辅助构建,允许我们基于现有数据集生成补充数据。
关键词LLM是从用户提出的抽象咨询问题中提取关键词的语言模型。另一方面,法律LLM提取用户咨询中可能涉及的法律术语。ChatLaw LLM是向用户输出响应的终极语言模型。它参考相关法律条款,并利用自己的总结和问答功能为用户提供咨询意见。
为了训练ChatLAW,我们在Ziya-LLaMA-13B [11]的基础上使用低秩自适应(LoRA) [3]对其进行了微调。此外,我们引入了自我暗示角色来进一步缓解模型幻觉问题。训练过程在多个A100 GPUs上进行,在deepspeed的帮助下训练成本进一步降低。
通过将特定于垂直行业的LLM与知识库相结合来创建ChatLaw产品,基于用户查询从知识库中检索相关信息至关重要。我们最初尝试了MySQL、Elasticsearch等传统的软件开发方式进行检索,结果都不尽如人意。因此,我们尝试使用预训练的BERT模型进行嵌入,然后使用Faiss [4]等方法计算余弦相似度,并提取与用户查询相关的前k个法律法规。然而,当用户的问题不明确时,这种方法经常产生次优的结果。因此,我们的目标是从用户查询中提取关键信息,并使用这些信息的向量嵌入来设计算法以提高匹配精度。
由于大型模型在理解用户查询方面的显著优势,我们对LLM进行了微调,以从用户查询中提取关键词。在获得多个关键词后,我们采用算法1检索相关法律条文。
我们使用937k个国家判例法实例的数据集来训练BERT模型,以从用户查询中提取相应的法律条款和司法解释。这个法律LLM模型是ChatLaw产品的重要组成部分。
评估大型语言模型(LLM)的性能一直是一个挑战。为此,我们收集了10年来的国家司法考试问题,并编制了一个包含2000个问题及其标准答案的测试数据集,以衡量模型处理法律选择题的能力。
然而,我们发现模型的准确率普遍很低。在这种情况下,简单地比较准确率似乎意义不大。因此,我们受电子竞技中的配对机制和聊天机器人竞技场[13]的设计的启发,建立了ELO积分的LLM比赛评估机制,以更有效地评估LLM处理法律选择题的能力。
通过对上述实验结果的分析,我们可以得出以下观察结果:(1)法律相关问答和法令数据的引入可以在一定程度上提高模型在选择题上的表现;(2)增加训练的特定任务类型显著提高了模型在这些任务上的性能。比如ChatLaw模型之所以优于GPT-4,是因为我们使用了大量的选择题作为训练数据;(3)法律选择题需要复杂的逻辑推理,因此参数数量较多的模型通常表现更好。
然而,由于基本模型的规模,我们的局限性出现了。我们在逻辑推理和演绎等任务中的表现并不是最佳的。此外,在纳入大量特定领域的数据后,需要进一步的研究来提高ChatLaw对一般任务的泛化能力。ChatLaw存在潜在的社会风险,我们建议用户出于正当目的使用我们的方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。