花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

训练一个中文gpt2模型_gpt2中文训练模型

作者：花生_TL007 | 2024-02-25 00:26:23

赞

踩

gpt2中文训练模型

前言

这是我的github上的一个介绍，关于如何训练中文版本的gpt2的。
链接为: https://github.com/yuanzhoulvpi2017/zero_nlp

介绍

本文，将介绍如何使用中文语料，训练一个gpt2
可以使用你自己的数据训练，用来：写新闻、写古诗、写对联等
我这里也训练了一个中文gpt2模型，使用了612万个样本，每个样本有512个tokens，总共相当于大约31亿个tokens

⚠️安装包

需要准备好环境，也就是安装需要的包

pip install -r requirements.txt
1

像是pytorch这种基础的包肯定也是要安装的，就不提了。

数据

数据来源

获得数据:数据链接，关注公众号【统计学人】，然后回复【gpt2】即可获得。
获得我训练好的模型(使用了15GB的数据(31亿个tokens)，在一张3090上，训练了60多小时)

数据格式

数据其实就是一系列文件夹声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号