当前位置:   article > 正文

训练一个中文gpt2模型_gpt2中文训练模型

gpt2中文训练模型

前言

  1. 这是我的github上的一个介绍,关于如何训练中文版本的gpt2的。
  2. 链接为: https://github.com/yuanzhoulvpi2017/zero_nlp

介绍

  1. 本文,将介绍如何使用中文语料,训练一个gpt2
  2. 可以使用你自己的数据训练,用来:写新闻、写古诗、写对联等
  3. 我这里也训练了一个中文gpt2模型,使用了612万个样本,每个样本有512个tokens,总共相当于大约31亿个tokens

⚠️安装包

需要准备好环境,也就是安装需要的包

pip install -r requirements.txt
  • 1

像是pytorch这种基础的包肯定也是要安装的,就不提了。

数据

数据来源

  1. 获得数据:数据链接,关注公众号【统计学人】,然后回复【gpt2】即可获得。
  2. 获得我训练好的模型(使用了15GB的数据(31亿个tokens),在一张3090上,训练了60多小时)

数据格式

  1. 数据其实就是一系列文件夹
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/137152
推荐阅读
相关标签