中文对话数据集预处理_50w中文闲聊语料

作者：weixin_40725706 | 2024-04-07 13:47:47

踩

50w中文闲聊语料

本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法，从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。

一、数据集介绍

本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】，中文闲聊语料的内容样例如下:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某，还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗？
一天比一天严重
吃药不管用，去打一针。别拖着

二、环境配置

python 3.6

pytorch 1.7.0

transfomers 4.4.2

1、创建新的环境（eg.gpt）

conda create -n your_name python==3.6

2、激活环境并进入

conda activate gpt

3、使用conda安装pytorch1.7.0(CPU版本)

conda install pytorch==1.7.0 torchvision torchaudio cpuonly -c pytorch

4、安装transfomers4.4.2

pip3 install transfomers

报错：

->安装wheel包

pip install wheel

->重新安装transfomers4.4.2

pip3 install transfomers==4.4.2

三、运行preprocess.py

python preprocess.py --train_path data/train.txt --save_path data/train.pkl

报错：

->安装pandas包

pip install pandas

报错：

->安装jieba 包

pip install jieba

继续尝试运行，成功。

四、结果展示

数据预处理后的文件格式为.pkl，想要查看预处理后的文件


# show_pkl.py
 
import pickle
 
path = 'D:/model/GPT2-chitchat-master/train.pkl'
 
# path='/root/……/aus_openface.pkl' pkl文件所在路径
 
f = open(path, 'rb')
 
data = pickle.load(f)
 
print(data)
 
print(len(data))

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/378921