赞
踩
参考Introduction - Hugging Face Course
参考Hugging Face教程 - 1、transformers模型库 - 知乎 (zhihu.com),建议大家直接去看这篇。本文是参照这一篇将自己想要学习的地方记录下来了。
目录
模型包括两个主要模块:
根据任务,可以灵活选择编码器或解码器组成模型。
编码器模型只使用Transformer架构的编码器模块。在架构的每一层,注意力层可以获得输入的完成表示。该类模型也被称为双向注意力模型和自编码模型。
该类模型的预训练任务,一般是通过对给定文本加上噪声的方式进行预训练(例如随机掩码部分单词,然后通过训练预测这些单词)。
编码器模型非常擅长获取文本的语义表示,在文本分类、自然语言处理(词分类)和抽取式问答任务中表示出色。
解码器模型只使用Transformer架构的解码器模块。在架构的每一层,一个给定单词只计算其所在句子中之前单词的注意力。该类模型也成为自回归模型。
解码器模型的预训练一般基于一段文本来预测下一个单词作为训练任务。
该类模型擅长文本生成类任务。
编码器-解码器模型(也被称为序列到序列模型、seq2seq模型)使用Transformer架构的编码器和解码器模块。在架构的每一层,编码器的注意力层计算全部输入的注意力,解码器的注意力层只计算单词所在句子中之前单词的注意力。
seq2seq2模型的预训练可以是编码器模型或解码器模型的预训练任务,只是会更显复杂一些(难度更大一些)。例如T5的预训练任务是随机将一个句子中的span用掩码替换,然后在输出中预测生成这个span。
seq2seq模型擅长基于一个给定输入文本得到一个新文本的任务,例如生成式摘要、翻译和生成式问答
模型 | 典型架构 | 任务 |
---|---|---|
编码器架构Encoder | ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa | 文本分类、命名实体识别和抽取式问答 |
解码器架构Decoder | CTRL, GPT, GPT-2, Transformer XL | 文本生成 |
Seq2seq架构Encoder-decoder | BART, T5, Marian, mBART | 摘要、翻译和生成式问答 |
在深入Transformer模型之前,官网想在这里说明架构和检查点之间的区别。
例如,BERT是一个架构,而bert-base-cased
是Google训练好的一个检查点。也可以表述为"BERT模型"或"bert-base-cased模型"。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。