当前位置:   article > 正文

ChatLaw: Open-Source Legal Large Language Modelwith Integrated External Knowledge Bases

ChatLaw: Open-Source Legal Large Language Modelwith Integrated External Knowledge Bases

题目

Chatlaw:集成外部知识库的开源法律大语言模型

图片1

论文地址:https://arxiv.org/abs/2306.16092
项目地址:https://github.com/PKU-YuanGroup/ChatLaw

摘要

        大语言模型(LLM)已经显示出在各个领域革新自然语言处理任务的潜力,引发了对特定于垂直领域的大型模型的极大兴趣。然而,与BloombergGPT和FinGPT等利用其独特的数据积累在金融领域取得进展的专有模型不同,中国法律领域没有多少类似的大语言模型来促进其数字化转型。

        本文提出了一个名为ChatLaw的开源法律大语言模型。由于数据质量的重要性,我们精心设计了一个法律领域微调数据集。此外,为了克服参考数据检索中合法数据筛选的模型幻觉问题,我们引入了一种将向量数据库检索与关键词检索相结合的方法,以有效降低单纯依赖向量数据库检索的不准确性。此外,我们提出了一种自我注意方法,以增强大模型克服参考数据中存在的错误的能力,进一步优化模型水平上的模型幻觉问题,并提高大模型的问题解决能力。

主要贡献

图片1

本文的主要贡献如下:

  1. 减轻幻觉的有效方法:我们提出了一种解决幻觉的方法,通过增强模型的训练过程,并在推理过程中加入四个模块:“咨询”、“参考”、“自我暗示”和“反应”通过参考模块集成垂直模型和知识库,我们将特定领域的知识注入到模型中,并利用知识库中的准确信息,从而减少幻觉的发生。
  2. 基于LLM的法律特征词抽取模型:我们训练了一个从用户日常语言中抽取法律特征词的模型。该模型识别具有法律意义的单词,从而能够有效地识别和分析用户输入中的法律上下文。
  3. 基于BERT的法律文本相似度计算模型:我们训练一个模型来衡量用户日常语言与一个由93万个相关法律案例文本组成的数据集之间的相似度。这使得能够建立一个矢量数据库,以便有效检索类似的法律文本,便利进一步的分析和参考。
  4. 构建中文法律考试测试数据集:我们设计了一个专门用于测试中文法律领域知识的数据集。此外,我们设计了一个ELO竞技场评分机制来比较不同模型在法律选择题中的表现。

        此外,我们观察到,一个通用的合法LLM可能无法在该领域的所有任务中发挥最佳性能。因此,我们针对各种场景训练了不同的模型,例如选择题、关键词提取和问答。为了处理这些模型的选择和部署,我们使用HuggingGPT [6]提供的方法,采用了一个大的LLM作为控制器。这个控制器模型根据每个用户的请求动态地确定调用哪个特定的模型,确保最合适的模型用于给定的任务。

数据集

        在构建数据集时,我们采用了多种方法来确保其全面性和多样性。数据集组成方法如下:收集大量原始法律数据:这包括收集法律新闻、社交媒体内容和来自法律行业论坛的讨论。这些来源提供了各种现实世界的法律文本,提供了对各种法律主题和讨论的见解。

图片1
基于法律法规和司法解释的构建:为了确保法律知识的全面覆盖,我们将相关的法律法规和司法解释纳入数据集。这确保数据集反映法律框架,并提供准确和最新的信息。
图片1
抓取真实的法律咨询数据:我们检索真实的法律咨询数据,利用现有的法律咨询数据集。这使得能够包含用户经常遇到的真实世界的法律场景和问题,用实际的法律例子丰富数据集。
图片1
律师考试选择题的构建:我们专门为律师考试创建一套选择题。这些问题涵盖各种法律主题,测试用户对法律原则的理解和应用。
图片1

        通过整合来自这些不同来源和构建方法的数据,我们的数据集涵盖了广泛的法律背景,确保开发的模型能够有效地理解和处理各种法律场景。一旦收集了这些数据组件,数据集将经历一个严格的清理过程。这包括过滤掉简短和不连贯的回答,确保只包含高质量和有意义的文本。此外,为了增强数据集,我们利用ChatGPT API进行辅助构建,允许我们基于现有数据集生成补充数据。

训练

        关键词LLM是从用户提出的抽象咨询问题中提取关键词的语言模型。另一方面,法律LLM提取用户咨询中可能涉及的法律术语。ChatLaw LLM是向用户输出响应的终极语言模型。它参考相关法律条款,并利用自己的总结和问答功能为用户提供咨询意见。

        为了训练ChatLAW,我们在Ziya-LLaMA-13B [11]的基础上使用低秩自适应(LoRA) [3]对其进行了微调。此外,我们引入了自我暗示角色来进一步缓解模型幻觉问题。训练过程在多个A100 GPUs上进行,在deepspeed的帮助下训练成本进一步降低。

        通过将特定于垂直行业的LLM与知识库相结合来创建ChatLaw产品,基于用户查询从知识库中检索相关信息至关重要。我们最初尝试了MySQL、Elasticsearch等传统的软件开发方式进行检索,结果都不尽如人意。因此,我们尝试使用预训练的BERT模型进行嵌入,然后使用Faiss [4]等方法计算余弦相似度,并提取与用户查询相关的前k个法律法规。然而,当用户的问题不明确时,这种方法经常产生次优的结果。因此,我们的目标是从用户查询中提取关键信息,并使用这些信息的向量嵌入来设计算法以提高匹配精度。

        由于大型模型在理解用户查询方面的显著优势,我们对LLM进行了微调,以从用户查询中提取关键词。在获得多个关键词后,我们采用算法1检索相关法律条文。

图片1

        我们使用937k个国家判例法实例的数据集来训练BERT模型,以从用户查询中提取相应的法律条款和司法解释。这个法律LLM模型是ChatLaw产品的重要组成部分。

图片1

实验

        评估大型语言模型(LLM)的性能一直是一个挑战。为此,我们收集了10年来的国家司法考试问题,并编制了一个包含2000个问题及其标准答案的测试数据集,以衡量模型处理法律选择题的能力。

图片1

        然而,我们发现模型的准确率普遍很低。在这种情况下,简单地比较准确率似乎意义不大。因此,我们受电子竞技中的配对机制和聊天机器人竞技场[13]的设计的启发,建立了ELO积分的LLM比赛评估机制,以更有效地评估LLM处理法律选择题的能力。

图片1

        通过对上述实验结果的分析,我们可以得出以下观察结果:(1)法律相关问答和法令数据的引入可以在一定程度上提高模型在选择题上的表现;(2)增加训练的特定任务类型显著提高了模型在这些任务上的性能。比如ChatLaw模型之所以优于GPT-4,是因为我们使用了大量的选择题作为训练数据;(3)法律选择题需要复杂的逻辑推理,因此参数数量较多的模型通常表现更好。

        然而,由于基本模型的规模,我们的局限性出现了。我们在逻辑推理和演绎等任务中的表现并不是最佳的。此外,在纳入大量特定领域的数据后,需要进一步的研究来提高ChatLaw对一般任务的泛化能力。ChatLaw存在潜在的社会风险,我们建议用户出于正当目的使用我们的方法。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/379399
推荐阅读
相关标签
  

闽ICP备14008679号