赞
踩
我最近在看自动文摘相关的预训练模型,BART模型是2019-2020左右提出来的,首先介绍下它的基本情况。
论文:https://arxiv.org/abs/1910.13461
github:
BART 采用了一个标准的 Seq2Seq Transformer 结构,类似 GPT 将 ReLU 激活函数替换为 GeLUs。对于基线模型,采用了一个 6 层的编码和解码器,更大的模型采用了 12 层的结构。相比于 BERT 的架构主要有以下两点不同:
主要是在encoder训练部分引入了噪声(5种):
在下游任务上,论文分别针对文本分类(序列到标签)问题和机器翻译(序列到序列)问题进行了介绍。
【未完待续】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。