论文学习：基于知识图谱的RAG进行客服问答_retrieval-augmented generation with knowledge grap

作者：代码探险家 | 2024-07-25 05:14:06

踩

retrieval-augmented generation with knowledge graphs for customer service qu

1.简介

文章名称： Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering（基于知识图谱的RAG进行客服问答）

2.摘要ABSTRACT

在客户服务技术支持中，迅速准确地检索相关的过往问题对于有效解决客户查询至关重要 【1.前景提要】。在大型语言模型（LLMs）的检索增强生成（RAG）中，传统的检索方法将大量过往问题跟踪工单视为普通文本，忽略了关键的问题内部结构和问题间关系，从而限制了性能 【2.老方法】。我们引入了一种新颖的客户服务问答方法，将RAG与知识图谱（KG）相结合。我们的方法从历史问题中构建知识图谱以用于检索，保留了问题内部结构和问题间关系 【3.新方法】。在问答阶段，我们的方法解析消费者查询，并从知识图谱中检索相关子图以生成答案。这种知识图谱的整合不仅通过保存客户服务结构信息提高了检索准确性，还通过减轻文本分割的影响提高了回答质量。 【4.新方法的过程和好处】 通过在我们的基准数据集上进行实证评估，利用关键检索（MRR、Recall@K、NDCG@K）和文本生成（BLEU、ROUGE、METEOR）指标，我们的方法在MRR方面比基准线提高了77.6%，在BLEU方面提高了0.32。我们的方法已在领英的客户服务团队中部署了大约六个月，将单个问题的中位解决时间缩短了28.6%。

摘要内容： 利用知识图谱增强RAG检索增强的能力，主要过程是对用户的Query进行解析，然后将解析到的实体通过知识图谱进行检索生成答案。【通过Query的关键词检索内容，提高了准确性以及减轻了文本分割提高了回答质量（因为有些内容是无需分割的，分割关键内容即可）】

3.引言INTRODUCTION

在客户服务中，有效的技术支持是产品成功的基石，直接影响客户满意度和忠诚度。鉴于客户查询经常与先前解决的问题相似，快速准确地检索相关的过往实例对于高效解决此类询问至关重要。最近，嵌入式检索（EBR）、大型语言模型（LLMs）和检索增强生成（RAG）的进步显著提升了技术支持客户服务的检索性能和问答能力。这一过程通常分为两个阶段：首先，将历史问题票据视为纯文本，分段为较小的块以适应嵌入模型的上下文长度约束；然后，将每个块转换为嵌入向量以进行检索。第二，在问答阶段，系统检索最相关的块，并将其作为上下文提供给大型语言模型，以生成对查询的答案。尽管这种方法显得简单直接，但仍存在一些限制。【原RAG的流程】

“限制1 - 由于忽略结构而导致检索准确性受损：问题跟踪文档，如Jira，具有固有结构，并且彼此之间相互连接，其引用如“问题A与问题B相关/复制自/由问题B引起”。将文档压缩成文本块的传统方法导致关键信息的丢失。我们的方法将问题工单解析为树状结构，并进一步连接单个问题工单以形成一个互相关联的图形，维护了这些实体之间的固有关系，从而实现了高检索性能。【将问题解析为树的结构，形成一个互相关联的图形，提高检索能力】

• 限制2 - 由于分段而导致答案质量降低：将庞大的问题工单分割为固定长度的段以适应嵌入模型的上下文长度限制可能导致相关内容的断开，从而造成回答不完整。例如，一个问题工单描述了问题的开始和解决方案的结尾，在文本分段过程中可能会被分割，导致解决方案的关键部分被遗漏。我们的基于图形的解析方法通过保持工单部分的逻辑连贯性来克服这一问题，确保提供完整高质量的回复。【由于嵌入模型的上下文长度限制，问题如果较长会背分割成固定长度的段落，可能会导致相关内容被分开，导致语义出现错误，这里利用LLMs或者模板方法解析语义的关键部分并在图谱中检索】

引言总结： 通过知识图谱构建树的结构增强检索效果，并通过语义关键词拆分与匹配增强检索内容的匹配性。

4.相关工作

使用知识图谱（KG）进行问题回答（QA）可以被广泛分类为检索型、基于模板和语义解析型方法。检索型方法利用关系提取或分布表示从知识图谱中获取答案，但在涉及多个实体的问题上面临困难。基于模板的策略依赖于手动创建的模板来编码复杂查询，但受可用模板范围限制。语义解析方法将文本映射到包含知识图谱中谓词的逻辑形式。最近大型语言模型（LLMs）与知识图谱（KGs）的整合取得了显著进展。Jin等人对此整合进行了全面回顾，将LLMs的角色分类为预测器、编码器和对齐器。针对基于图的推理，Think-on-Graph和Reasoning-on-Graph通过整合知识图谱提升LLMs的推理能力。Yang等人提出利用知识图谱跨多个训练阶段增强LLMs的事实推理。对于基于LLM的问题回答，Wen等人的Mindmap和Qi等人利用知识图谱在医学和食品等专业领域增强LLMs的推理能力。这些贡献突显了LLM与KG组合在增强信息检索和推理任务中的日益有效性。（总结一下相关工作里的具体内容）

相关工作的内容：

基于模板的方法：预先设计好一系列的模板，来处理和回答用户的查询。这些模板是一些固定的模式或格式，可以填入特定的信息来生成答案。
语义解析方法：将用户的自然语言查询转换为计算机可以理解的逻辑形式。这种方法利用知识图谱中的谓词（关系和属性）来解析和回答问题。

总结：

基于模板的方法：通过预先设计的模板快速生成答案，简单高效但受模板数量限制。
语义解析方法：将自然语言查询解析为逻辑形式，灵活强大但实现复杂，需要高质量的知识图谱和解析算法。

5.方法Methods

我们介绍了一种基于LLM的客服问答系统，它将召回增强生成（RAG）与知识图谱（KG）无缝集成在一起。我们的系统（见图1）包括两个阶段：首先，在知识图谱构建阶段，我们的系统从历史客服问题工单中构建一个全面的知识图谱。它将每个问题构建成树状结构表示，并基于关系上下文相互链接。它还为每个节点生成嵌入以便后续语义搜索。其次，在答疑阶段，我们的方法解析消费者查询以识别命名实体和意图。然后在知识图谱中导航以找到相关子图来生成答案。

图1知识图谱增强RAG流程
第一阶段：知识图谱构建
在这个阶段，我们的系统从历史客户服务问题工单中构建一个全面的知识图谱。具体流程如下：

树状结构表示：将每个问题构建成树状结构表示，保留问题的层次结构和详细信息。
问题间链接：基于关系上下文将不同的问题相互链接。例如，一个问题可能是从另一个问题克隆而来，或者与其他问题相似。
节点嵌入生成：为每个节点生成嵌入，这些嵌入用于后续的语义搜索，帮助系统在回答问题时快速找到相关信息。

第二阶段：问答
在这个阶段，我们的方法解析消费者查询【核心在于解析Query->实体+意图】，以识别命名实体和意图。具体流程如下：

实体检测：系统首先检测查询中的关键命名实体。
意图分类：确定查询的意图，例如是想要了解问题的解决步骤。
子图导航：在知识图谱中导航，找到与查询相关的子图。这些子图包含了回答查询所需的关键信息。
答案生成：根据找到的相关子图，生成并提供答案给消费者。

总结： 图1展示了这个系统的详细流程。左侧部分是知识图谱的构建过程，包括如何将历史问题工单解析成树状结构并进行链接，以及如何生成嵌入。右侧部分展示了问答过程，包括解析查询、导航知识图谱和生成答案的步骤。

3.1 知识图谱结构

3.1.1 图结构定义。在为历史问题表示定义知识图结构时，我们采用一个双层架构，将问题内部和问题间关系分开，如图1所示。问题内部树T
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/878512