当前位置:   article > 正文

中文对话数据集预处理_50w中文闲聊语料

50w中文闲聊语料

本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法,从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。

一、数据集介绍

本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】 ,中文闲聊语料的内容样例如下:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着

二、环境配置

python 3.6

pytorch 1.7.0

transfomers 4.4.2

1、创建新的环境(eg.gpt)

conda create -n your_name python==3.6 

2、激活环境并进入

conda activate gpt 

3、使用conda安装pytorch1.7.0(CPU版本)

 conda install pytorch==1.7.0 torchvision torchaudio cpuonly -c pytorch

4、安装transfomers4.4.2

pip3 install transfomers 

 报错:

->安装wheel包 

pip install wheel

->重新安装transfomers4.4.2

pip3 install transfomers==4.4.2 

三、运行preprocess.py

python preprocess.py --train_path data/train.txt --save_path data/train.pkl 

报错:

 ->安装pandas包

pip install pandas 

 报错:

->安装jieba 包

pip install jieba 

继续尝试运行,成功。

 四、结果展示

数据预处理后的文件格式为.pkl,想要查看预处理后的文件

  1. # show_pkl.py
  2. import pickle
  3. path = 'D:/model/GPT2-chitchat-master/train.pkl'
  4. # path='/root/……/aus_openface.pkl' pkl文件所在路径
  5. f = open(path, 'rb')
  6. data = pickle.load(f)
  7. print(data)
  8. print(len(data))

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/378921
推荐阅读
相关标签
  

闽ICP备14008679号