当前位置:   article > 正文

问答数据构建框架 | SciQAG:一个具有细粒度评估的自动生成科学问答数据集的框架_问答数据集生成

问答数据集生成

【摘要】使用问答(QA)对来训练和评估大型语言模型(LLM)引起了相当大的关注。然而,很少有可用的 QA 数据集是基于科学文献中的知识。在这里,我们通过提出自动生成科学问题答案(SciQAG)来弥补这一差距,这是一个自动生成和评估来自已发表的科学文献的科学问答对的框架。我们对开源 LLM 进行微调,从全文科学论文中生成960000个科学 QA 对,并提出一个五维指标来评估生成的 QA 对的质量。我们通过基于 LLM 的评估表明,生成的 QA 对在五个维度上始终达到 2.5 分(满分 3 分)的平均分,这表明我们的框架可以大规模地将论文中的关键知识提炼成高质量的 QA 对。我们公开数据集、模型和评估代码。

原文:SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation
地址:https://arxiv.org/abs/2405.09939
代码:未知
出版: 未知
机构:GreenDynamics Pty. Ltd

1 研究问题

本文研究的核心问题是: 如何基于科学文献自动生成高质量的问答对。

在科学研究领域,研究人员经常需要阅读大量文献来获取所需的知识和见解。然而,如果能够从科学文献中自动提取知识并转化为问答对的形式,将极大地提高研究效率和知识获取的便利性。例如,一位研究人员正在研究碳纳米管的合成方法,如果有一个基于相关文献自动生成的问答数据集,他就可以快速获取所需的知识,而不必亲自通读所有文献。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • 大多数现有的问答数据集都是基于通用领域文本或者维基百科生成的,缺乏专门针对科学文献的数据集。科学文献通常包含大量领域特定的专有名词、化学方程式、数学公式等,为问答对的生成带来了额外的挑战。

  • 大部分现有的自动问答生成方法需要预先给定答案,然后根据答案生成相应的问题。但是对于科学文献来说,很难预先确定每一个潜在的答案,这使得这类方法在科技文献场景下的应用受到限制。

  • 传统的基于规则或模板的问答生成方法缺乏灵活性,难以应对科学文献内容的多样性和复杂性。需要一种能够理解上下文、抓取关键信息的生成模型。

  • 需要一种高效的评估方法,能够全面衡量生成问答对的质量,包括相关性、独立性、完整性、准确性和合理性等多个维度。

针对这些挑战,本文提出了一种基于大型语言模型的"SciQAG"框架:

SciQAG的核心思想是利用大型语言模型(LLM)强大的理解和生成能力,结合人工设计的提示,从科学论文中提取关键知识并生成问答对。它包含三个主要步骤:

  1. Seed QA生成: 使用GPT-4辅助专家设计合适的提示,从少量论文中生成种子问答数据,用于后续微调LLM。

  2. 科学QA生成: 基于种子数据,微调一个开源的LLM模型,作为生成器对大量论文进行问答对生成。

  3. QA评估: 使用另一个LLM模型对生成的问答对进行多维度评估,保证质量。

整个过程中,SciQAG灵活引入了多个选择性微调步骤,例如使用评估过滤器对生成器进行迭代改进等。它设计了一个新颖的五维评估指标RACAR,从相关性、独立性、完整性、准确性和合理性五个方面对生成的问答对进行综合评估。

总的来说,SciQAG就像一位"科学文献摘要大师",能够高效提取论文核心内容并以问答形式呈现。它集成了人工智能和人类领域知识的优势,为科学知识获取提供了一种全新的范式。

2 研究方法

2 研究方法

论文提出了一种名为SciQAG的框架,用于从科学文献中自动生成高质量的问答(QA)对。该框架由三个主要步骤组成:种子QA生成、科学QA生成和QA评估。

2.1 种子QA生成

为了生成初始的高质量QA数据作为语言模型微调的基础,论文采用了 GPT-4 大型语言模型辅助的方式。具体过程如下:

  1. 论文收集并选取了123篇来自材料科学、化学、物理和能源等领域的文献作为种子论文集。

  2. 邀请了相关领域的专家,经过多次迭代设计了一个提示语句。该提示语句的目的是指导 GPT-4 从论文内容中提取关键知识点,生成独立于原文上下文的QA对。

  3. 将提示语句和种子论文的内容一并输入到 GPT-4 中,获得由 GPT-4 生成的初始QA数据集。

论文采用 GPT-4 的主要原因是其强大的理解和生成能力,能够基于提示语有效地从论文中提取知识。同时,GPT-4 对于领域术语、公式等内容也有较好的处理能力。

2.2 科学QA生成

基于种子QA数据集,论文微调了一个开源的大型语言模型 Vicuna,将其用作生成器对更多论文生成QA对。具体步骤包括:

  1. 将种子QA数据转化为符合Vicuna输入格式的"instruction"形式数据。

  2. 使用改良的Longformer注意力机制对Vicuna模型进行微调,以支持较长的文本输入。

  3. 在微调过程中采用了数据增广的策略,使用微调后的中间模型生成部分新数据,与原始种子数据混合作为最终微调数据。

  4. 将微调完成的Vicuna模型应用于论文数据集,为96,000篇论文自动生成了960,000个QA对。

论文选择使用Vicuna是因为其开源、能处理较长序列、性能较好。同时通过微调的方式,使模型专门针对生成科学QA对进行了定制。

2.3 QA评估

为了评估生成的QA对的质量,论文设计了一个五维评估指标RACAR:

  1. Relevance - 评估问题与原论文内容的相关性

  2. Agnosticism - 评估问题是否独立于原论文的特定内容(如图表)

  3. Completeness - 评估答案是否全面完整地回答了问题

  4. Accuracy - 评估答案在事实层面上的准确性

  5. Reasonableness - 评估答案在逻辑层面上的合理性

具体评估过程是:使用GPT-4根据设计好的提示,对每个QA对在上述五个维度上给出1-3分的评价,并生成文字说明。

除了RACAR,论文还从以下几个方面对QA质量进行了评估:

  1. 问题的多样性 - 通过计算问题之间的语义相似度,确保生成的问题不是彼此的重复。

  2. 答案的覆盖率 - 计算答案所引用的句子在原文的分布,确保答案覆盖了文章的各个方面。

  3. 数值的来源 - 统计答案中数值出现在原文的比例,避免"虚构"数字。

通过自动化的评估方式,论文对96万个生成的QA对进行了质量把控。此外,人工专家评估的结果也表明,RACAR的评价与人工评价高度一致。

为了提高质量,论文还提出了一种迭代改进的方法:利用高分QA对对生成器进行进一步微调,使其产生更加优质的结果。

总的来说,SciQAG框架通过组合GPT-4辅助数据构建、语言模型微调和自动化评估等技术,实现了从科学文献中高效、自动化地提取知识并生成高质量独立QA对的目标。

3 实验

3.1 实验场景介绍

该论文提出了一个自动生成科学问答数据集的框架SciQAG,论文实验核心验证SciQAG生成QA对的质量,以及与其他模型的对比效果。

3.2 实验设置

  • Datasets:从Web of Science核心数据库收集超过600万篇物理、化学、材料、能源领域的科学论文,每个类别选择引用量最高的4000篇,共9.6万篇

  • Baseline:GPT-3.5, Vicuna (开源), LongChat (开源)

  • Implementation details:
    • 数据增强:先在种子论文上训练中间模型,用其生成额外数据,再混合新老数据微调最终模型

    • 训练超参数:在8×A800 GPU上用Flash-Attention2和DeepSpeed进行15轮微调,batch size为1,max length为12288,累积8步梯度,学习率2e-5,无权重衰减,warm-up 20步

  • metric:
    • RACAR metric:由GPT-4(3.5可以不)在5个维度(相关性、无指代、完整性、准确性、合理性)评分(1-3分)

    • 问题多样性:用CoT prompting评估问题间相似度

    • 答案覆盖率:答案与原文各句的相似度,跨段落覆盖率

    • 数值真实性:答案中数值在原文中出现的比例

3.3 实验结果

3.3.1 实验一、不同模型生成QA对的RACAR评分对比

目的:评估SciQAG微调模型相比其他开源模型和GPT-3.5在QA对生成质量上的优势

涉及图表:表1

实验结果简述:

  • SciQAG模型在所有开源模型中表现最佳,但略逊于GPT-3.5

  • 论文推测GPT-4可能偏好同系列模型的输出,但SciQAG在可处理长文本的开源模型中效果最好

3.3.2 实验二、SciQAG生成QA对的质量评估

目的:全面评估SciQAG在大规模语料上生成的96万QA对的整体质量

涉及图表:图4,图5

结果:

  • RACAR平均得分:在100篇论文生成的QA上,5个维度平均分在2.3-2.8之间,质量较高

  • 问题多样性:在100篇论文生成的问题中,69%成对相似度<0.3,整体多样性好

  • 答案覆盖率:平均覆盖原文68%的段落,说明答案具有广泛性

  • 数值真实性:96.7%的答案数值在原文中出现,虚构率低

3.3.3 实验三、人工评估与GPT-4自动评估的对比

目的:验证GPT-4自动评估QA对质量的有效性

涉及图表:图3

结果:

  • 两个领域专家人工评估了随机抽取的100个QA对

  • 人工评分与GPT-4自动评分的Spearman和Pearson相关系数均在0.6以上,说明自动评估与人工评估具有较好的一致性,可作为评估QA对质量的有效方法

4 总结后记

本论文针对大规模科学问答数据集构建问题,提出了一种名为SciQAG的自动生成框架。该框架利用种子问答引导LLMs生成更多问答数据,并设计了一个五维度的RACAR指标用于自动评估生成的问答质量。实验结果表明,SciQAG生成的96万个科学问答对在RACAR指标上平均得分达到2.5分(满分3分),证明了该框架能大规模生成高质量的科学领域问答数据。

疑惑和想法:

  1. 除了物理、化学、材料和能源这四大学科,SciQAG是否可以拓展到生物、医学等其他科学领域?不同领域的适用性如何?

  2. RACAR指标中的五个维度是否能覆盖科学问答质量评估的全部关键因素?是否可以引入更多维度如难度、创新性等?

  3. 如何利用SciQAG生成的问答数据来提升现有科学领域的问答系统性能?是否可以探索更多下游应用?

可借鉴的方法点:

  1. 利用种子数据引导LLMs生成更多样本的思路可以推广到其他需要构建大规模数据集的任务中,如科学论文摘要、实验方案设计等。

  2. 多维度质量评估指标的设计思想可以借鉴到其他需要评估生成文本质量的场景,提供更全面客观的评价。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/872622
推荐阅读
相关标签
  

闽ICP备14008679号