ACL20 - Zero-shot Text Classification via Reinforced Self-training_benchmarking zero-shot text classification: datase

作者：笔触狂放9 | 2024-03-17 11:33:44

踩

benchmarking zero-shot text classification: datasets, evaluation and entailm

Ye Z, Geng Y, Chen J, et al. Zero-shot text classification via reinforced self-training[C]. In ACL 2020.

文章目录

摘要

传统自训练（self-training）方法采用固定的探索式算法，在不同数据集上表现不一。

本文采用强化学习框架学习数据选择策略，提供更可靠的数据。

介绍

处理零样本文本分类通常有两个主要的方法，目前工作主要在第1点，忽略了第2点：

整合更多的外部知识，建立更多复杂的类型连接
整合无标签数据提升泛化能力

直接用传统的自训练方式可能会遇到一些问题：

传统自训练方式采用手工制定的探索式算法选择数据，调整选择策略开销很大
传统的自训练方法在跨领域方面不太可靠，主要是数据选择方法不太可靠

本文主要贡献：

本文提出的方法利用了无标签数据，并且能够缓解领域迁移问题
提出了一个强化学习框架，可用于自动选择数据
实验效果在选定的数据集上提升很大

自训练

自训练有两个缺陷：

如果数据选择策略是简单的基于自信度，那么数据选择可能不太可靠，造成误差传播
自训练依赖于预先定义的自信度，不同数据集手动调整训练开销大

方法

模型框架如下：
请添加图片描述

首先在训练集上训练基础的文本匹配模型，然后在测试集上预测。策略网络在预测的结果中进行样本的挑选，策略网络的奖励来源于匹配模型在验证集上的效果。若当前策略网络采取了正确的策略，挑选出了高质量的样本，那么模型期望会在验证集上获得较好的 performance，则会获得正向的奖励；相反若策略网络采取错误的策略，则模型获得较差的结果和负向的奖励。

对于基础的文本匹配模型，本文采用了预训练模型 BERT，BERT 的输入为句子和类别文本的拼接输出为该句子和类别的匹配分数，如图所示。
请添加图片描述

强化学习模块

state：当前状态包括两部分：[CLS]对应的向量表示 $c_{x,y^*}$ ，以及预测的confidence分数 $p_{x,y*}$
action：agent 需要判断是否选择当前实例 $x, y^*)$
reward：根据验证集的匹配效果计算 reward，计算公式如下：
$r_{k}=\frac{\left(F_{k}^{s}-\mu^{s}\right)}{\sigma^{s}}+\lambda \cdot \frac{\left(F_{k}^{u}-\mu^{u}\right)}{\sigma^{u}}$
其中：

$F^S$ ：可以看见类型的序列
$F^U$ ：不可以看见类型的序列
λ：权重
μ：均值
σ：方差

policy Network：使用多层感知机作为挑选策略网络，输入为state，输出为是否挑选当前实例的概率（action 的概率），计算公式如下，

\begin{matrix} z_{t} = ReLU (W_{1}^{T} c_{x, y^{*}} + W_{2}^{T} p_{x, y^{*}} + b_{1}) \\ P (a ∣ s_{t}) = softmax (W_{3}^{T} z_{t} + b_{2}) \end{matrix}

$\begin{gathered} z_{t}=\operatorname{ReLU}\left(W_{1}^{T} c_{x, y^{*}}+W_{2}^{T} p_{x, y^{*}}+b_{1}\right) \\ P\left(a \mid s_{t}\right)=\operatorname{softmax}\left(W_{3}^{T} z_{t}+b_{2}\right) \end{gathered}$