中文Transformer（BERT，GPT，T5等）预训练模型权重_gpt2-chinese-cluecorpussmall

作者：码创造者 | 2024-08-08 01:13:02

踩

gpt2-chinese-cluecorpussmall

中文Transformer预训练模型权重

最近业余时间把我们去年和今年之前训练的基于开源语料的预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线推理接口轻易的使用这些权重。

这些权重有如下特点：

可复现；我们在huggingface上开源的所有权重，均是使用公开的语料进行训练的，并且我们在huggingface模型权重的readme中给出了详细的训练过程的说明，用户如果有足够的算力可以轻易的复现。我们认为这些权重可以作为一个可靠的中文基准。
模型质量较好；我们通过定量和定性的方式对这些预训练权重进行了评估。这些预训练权重有着比较有竞争力的表现。
类型丰富；我们提供了各种类型的预训练权重，后面会具体介绍。
所有的权重均使用 UER-py 预训练得到，然后通过转换脚本进行转换，用Huggingface Transformers进行加载推理。这套流程在我们的实践中用起来比较可靠和舒服。当然UER项目内部也提供了比较完善的微调推理相关的脚本，欢迎大家使用。

这里对我们目前开源的权重进行简要的描述：
1 我们借鉴Google在英文上的工作，预训练24个不同大小的RoBERTa权重：

https://huggingface.co/uer/chinese_roberta_L-2_H-128
在这里插入图片描述

Tiny，Mini，Small，Medium，Base模型在六个常用的分类数据集上的效果：
在这里插入图片描述

2 目前主流的中文预训练模型是基于字的。但是我们发现相同条件下，基于词的预训练模型往往有着更好的表现。其他工作，例如WoBERT也有类似的结论。并且基于词的模型由于有着比较短的sequence length，速度会更快一些。这里我们发布了5个大小不同的基于词的RoBERTa预训练模型：
https://huggingface.co/uer/roberta-tiny-word-chinese-cluecorpussmall

在这里插入图片描述

并对基于词和基于字的预训练模型进行了系统的比较。下面是基于词的Tiny，Mini，Small，Medium，Base模型在六个常用的分类数据集上的效果（和基于字的模型进行对比）：
在这里插入图片描述

可以看到基于词的模型相对于基于字的模型，在效果上有一定的优势。再考虑到推理速度，在实际场景中我们更推荐使用基于词的模型。

3 通用语料GPT-2权重。我们利用CLUECorpusSmall语料训练了两个尺寸的GPT-2权重：
https://huggingface.co/uer/gpt2-chinese-cluecorpussmall
https://huggingface.co/uer/gpt2-distil-chinese-cluecorpussmall

4 古诗GPT-2权重：
https://huggingface.co/uer/gpt2-chinese-poem
在这里插入图片描述

5 对联GPT-2权重：
https://huggingface.co/uer/gpt2-chinese-couplet
在这里插入图片描述

6 古文GPT-2权重：
https://huggingface.co/uer/gpt2-chinese-ancient

在这里插入图片描述

7 歌词GPT-2权重：
https://huggingface.co/uer/gpt2-chinese-lyric

8 利用三个经典阅读理解数据集训练的中文阅读理解权重：
https://huggingface.co/uer/roberta-base-chinese-extractive-qa
在这里插入图片描述

9 利用五个大规模分类数据集训练的中文分类权重。其中三个是情感分析数据集，两个是新闻主题分类数据集：
https://huggingface.co/uer/roberta-base-finetuned-jd-full-chinese
在这里插入图片描述

基于JD full情感分析的微调模型在线推理接口示例：
在这里插入图片描述

基于Ifeng新闻主题分类的微调模型在线推理接口示例：
在这里插入图片描述

10 基于CLUECorpusSmall语料的T5预训练权重：
https://huggingface.co/uer/t5-small-chinese-cluecorpussmall
在这里插入图片描述

11 基于CLUECorpusSmall语料的T5-v1_1预训练权重：
https://huggingface.co/uer/t5-v1_1-small-chinese-cluecorpussmall
在这里插入图片描述

后续我们还会基于开头提到的原则，发布更多的预训练权重。如果大家有什么想法，欢迎和我们进行联系。我们可以业余时间一起做一些有意思的东西。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/945377