赞
踩
今天分享一篇接受到EMNLP 2023的文章,Title: PromptMix: A Class Boundary Augmentation Method for Large Language Model Distillation。这篇论文致力解决文本分类中训练数据有限的问题。这篇文章提出了一种名为PromptMix的数据增强方法来解决文本分类在训练数据有限的情况下的问题。
该方法分为两步:1)生成靠近类别边界的挑战性文本增强数据;2)运用基于提示的LLM分类器对增强数据重新标记,提升生成数据标签的准确性。
本文在四个文本分类数据集上进行测试:Banking77、TREC6、Subjectivity(SUBJ)和Twitter Complaints,实验表明,PromptMix方法在所有数据集上都取得了很高的准确率,尤其是在B77和SUBJ数据集上,其性能与NN+GPT3.5相当,甚至在某些情况下超过了NN+GPT3.5。
Title: PromptMix: A Class Boundary Augmentation Method for Large Language Model Distillation
链接: https://arxiv.org/abs/2310.14192
代码: https://github.com/servicenow/promptmix-emnlp-2023
Authors: Gaurav Sahu, Olga Vechtomova, Dzmitry Bahdanau, Issam H. Laradji
论文通过提出PromptMix方法来解决提出的问题,该方法包括两个步骤:
步骤一:挑战性文本增强生成: 根据已有的分类数据,在类别边界附近生成新的例子,从而提高模型面对边界情况的识别能力。
prompt分为三个部分,Instruct,Part1: 每个类别简要的概述。part2: 对于每一个类别 C i C_{i} Ci,随机选择一个 C j C_j Cj,按一定混合比例生成两者的难样本数据。
注意:生成结果中,有些分类是错的、有些结果是对的,需要进一步优化生成的Example。
步骤二:基于提示的LLM分类器重标记: 由于在类别边界附近生成的文本增强可能会增加假阳性的风险,所以使用基于提示的LLM分类器对这些数据进行重新标记,以保证生成数据的标签准确性。
**结论:**Mixup能有效的将两个类别的信息进行混合,从而提升最终难样本的分类效果。
展示了在四个不同的文本分类数据集(Banking77、TREC6、SUBJ和Twitter Complaints)上,使用不同方法进行数据增强后的测试分类准确率。这些方法包括基线(Baseline)、NN+GPT3.5、Sahu等人的方法(Sahu et al. (2022))、PromptMix及其变体(包括有无Mixup的PromptMix)、Easy Data Augmentation (EDA)、GPT3Mix等。表格中还包含了使用GPT3.5-turbo生成的句子在重新标记(Relabeling)前后的变化,以及在不同方法下GPT3.5-turbo重新标记生成示例的百分比。
说明:
结论:
生成的数据由于使用Mixup混合策略,很容易产生badcase,利用Relabeling策略可以对这些标签进行修正,实验看出这一步带来效果的提升也非常大。
**结论:**基座模型能力越强,数据增强带来的效果越好,一方面是生成的质量越高带来的,另一方面Relabling阶段,LLM效果越好,也可能分的更准。
这篇论文介绍了PromptMix,一种新颖的类边界数据增强方法,用于在训练数据有限的情况下提高大型语言模型的文本分类效果。该方法通过生成挑战性文本并结合Relabeling策略,生成类别精确的难样本,以便更好地迁移大型模型(如GPT3.5-turbo)的知识到更小、更经济高效的分类器(如DistilBERT和BERTbase)。论文的实验表明,PromptMix在2-shot场景中的效果优于多个5-shot数据增强方法。
结论1: PromptMix通过生成有挑战性样本和Relabeling策略可以有效将LLM知识迁移到小模型。 该方法通过生成接近类别边界的增强数据,然后使用LLM进行精准的Relabeling,有效提升了few-shot场景小模型的效果,可以大量降低人工的标注成本。
结论2: PromptMix为文本分类领域提供了一种新的数据增强策略。 本文所提出的方法在处理少量训练数据的情况下,为提升分类器的性能提供了新的思路和方案。这意味着我们用少量样本就可以训练处一个效果非常不错的分类模型,在工业界可能有着比较大的应用空间。
结论3: Relabeling策略可以带来非常大的效果提升。 说明直接用LLM生成样本效果不一定好,还需要进一步的处理策略,例如使用本文提到的Relabing策略,再利用LLM对增强的数据进行优化,从而整体上提升数据增强的质量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。