赞
踩
最近业余时间把我们去年和今年之前训练的基于开源语料的预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线推理接口轻易的使用这些权重。
这些权重有如下特点:
这里对我们目前开源的权重进行简要的描述:
1 我们借鉴Google在英文上的工作,预训练24个不同大小的RoBERTa权重:
https://huggingface.co/uer/chinese_roberta_L-2_H-128
Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果:
2 目前主流的中文预训练模型是基于字的。但是我们发现相同条件下,基于词的预训练模型往往有着更好的表现。其他工作,例如WoBERT也有类似的结论。并且基于词的模型由于有着比较短的sequence length,速度会更快一些。这里我们发布了5个大小不同的基于词的RoBERTa预训练模型:
https://huggingface.co/uer/roberta-tiny-word-chinese-cluecorpussmall
并对基于词和基于字的预训练模型进行了系统的比较。下面是基于词的Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果(和基于字的模型进行对比):
可以看到基于词的模型相对于基于字的模型,在效果上有一定的优势。再考虑到推理速度,在实际场景中我们更推荐使用基于词的模型。
3 通用语料GPT-2权重。我们利用CLUECorpusSmall语料训练了两个尺寸的GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-cluecorpussmall
https://huggingface.co/uer/gpt2-distil-chinese-cluecorpussmall
4 古诗GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-poem
5 对联GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-couplet
6 古文GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-ancient
7 歌词GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-lyric
8 利用三个经典阅读理解数据集训练的中文阅读理解权重:
https://huggingface.co/uer/roberta-base-chinese-extractive-qa
9 利用五个大规模分类数据集训练的中文分类权重。其中三个是情感分析数据集,两个是新闻主题分类数据集:
https://huggingface.co/uer/roberta-base-finetuned-jd-full-chinese
基于JD full情感分析的微调模型在线推理接口示例:
基于Ifeng新闻主题分类的微调模型在线推理接口示例:
10 基于CLUECorpusSmall语料的T5预训练权重:
https://huggingface.co/uer/t5-small-chinese-cluecorpussmall
11 基于CLUECorpusSmall语料的T5-v1_1预训练权重:
https://huggingface.co/uer/t5-v1_1-small-chinese-cluecorpussmall
后续我们还会基于开头提到的原则,发布更多的预训练权重。如果大家有什么想法,欢迎和我们进行联系。我们可以业余时间一起做一些有意思的东西。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。