赞
踩
本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法,从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。
一、数据集介绍
本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】 ,中文闲聊语料的内容样例如下:
谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着
二、环境配置
python 3.6
pytorch 1.7.0
transfomers 4.4.2
1、创建新的环境(eg.gpt)
conda create -n your_name python==3.6
2、激活环境并进入
conda activate gpt
3、使用conda安装pytorch1.7.0(CPU版本)
conda install pytorch==1.7.0 torchvision torchaudio cpuonly -c pytorch
4、安装transfomers4.4.2
pip3 install transfomers
报错:
->安装wheel包
pip install wheel
->重新安装transfomers4.4.2
pip3 install transfomers==4.4.2
三、运行preprocess.py
python preprocess.py --train_path data/train.txt --save_path data/train.pkl
报错:
->安装pandas包
pip install pandas
报错:
->安装jieba 包
pip install jieba
继续尝试运行,成功。
四、结果展示
数据预处理后的文件格式为.pkl,想要查看预处理后的文件
- # show_pkl.py
-
- import pickle
-
- path = 'D:/model/GPT2-chitchat-master/train.pkl'
-
- # path='/root/……/aus_openface.pkl' pkl文件所在路径
-
- f = open(path, 'rb')
-
- data = pickle.load(f)
-
- print(data)
-
- print(len(data))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。