赞
踩
这篇论文出自2021 NeurIPS,通讯作者是卡耐基梅隆大学博士后刘鹏飞(prompt综述作者),论文全名:《BARTSCORE:
Evaluating Generated Text as Text Generation》
BARTSCORE采用无监督学习 对不同方面 (e.g. informativeness, fluency, or factuality) 进行评估。
在本文中,我们将生成文本的评估公式化为文本生成问题,通过从其他文本输入和输出生成 或 生成其他文本输入和输出的概率直接评估文本。这与底层的预训练任务更好地匹配,并且允许我们更充分地利用在预训练阶段学到的参数。
我们用预训练的序列到序列(seq2seq)模型解决建模问题,特别是BART,并设计了一个名为 BARTSCORE 的指标,它具有以下特征:(1)BARTSCORE 具有parameter- and data-efficient。在架构上除了预训练本身的参数外没有额外的参数,并且是一种不需要人工判断的无监督指标。 (2) BARTSCORE可以更好的支持从不同角度对生成的文本进行评价(例如,信息量、连贯性、事实性)通过调整条件的输入和输出文本生成问题。 (3) BARTSCORE 可以通过 (i) 提供文本提示来进一步增强评估任务更接近预训练任务,或 (ii) 通过微调更新底层模型基于下游生成任务(例如,文本摘要)的 BART。
其实就是计算预训练模型应用在某任务时的weighted log probability。
代码实例:
# To use the CNNDM version BARTScore
from bart_score import BARTScorer
bart_scorer = BARTScorer(device='cuda:0', checkpoint='facebook/bart-large-cnn')
bart_scorer.score(['This is interesting.'], ['This is fun.']) # generation scores from the first list of texts to the second list of texts.
# [out]
# [-2.510652780532837]
# To use our trained ParaBank version BARTScore
from bart_score import BARTScorer
bart_scorer = BARTScorer(device='cuda:0', checkpoint='facebook/bart-large-cnn')
bart_scorer.load(path='bart.pth')
bart_scorer.score(['This is interesting.'], ['This is fun.'])
# [out]
# [-2.336203098297119]
import torch
import torch.nn as nn
import traceback
from tra
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。