多模态大模型到底理不理解文档图表？兼谈RAG如何解决全局摘要问答类问题_rag有表格摘要性的问答怎么做

作者：从前慢现在也慢 | 2024-08-01 22:15:34

踩

rag有表格摘要性的问答怎么做

今天我们来谈谈2个问题，一个是RAG如何应用于全局摘要问答类问题，另一个是最近所关注的图表理解问题，尤其是图表信息抽取，引发了关于大模型是否真正理解图表的疑问，大家可以看看。

问题1：RAG如何应用于全局摘要问答类问题

我们先来看一类问题，RAG无法回答针对整个文本语料库的全局性问题，例如"数据集中的主要主题是什么？"，因为这本质上是一个以查询为重点的摘要（QFS）任务，而不是一个明确的检索任务。

很自然的，这类问题，我们实现做多个聚类，然后建立索引，最后根据query，找到对应的若干个聚类文本，最终再做summary合并即可。

因此，这就涉及到聚类的实现以及类簇的选择两个问题。

《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》(https://arxiv.org/pdf/2404.16130) 这个工作给出了一个思路。使用大型语言模型(LLM)构建了一个基于图的文本索引，从源文件生成实体知识图，然后为所有相关实体组生成摘要。给定一个问题，每个摘要用于生成部分回答，然后所有部分回答再次总结为最终答案。

其核心在于，使用LLM分两个阶段建立基于图Graph的文本索引及查询回复：

在index time阶段，首先从源文档中导出实体知识图，然后为所有密切相关的实体组预先生成社区摘要，也就是图中的从source Documents到切分为额Text Chunks，再处理成元素摘要，为啥用图，这个图作为语义内容组织的锚&#

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/916155