赞
踩
- #!/usr/bin/env python
- # -*- coding:utf-8 _*-
- """
- @description: 搜集多个数据集 合并数据集 todo
- """
- import glob
-
- from tqdm import tqdm
- import json
- import json
- import os
-
- from tqdm import tqdm
- from zhconv import convert
-
-
-
- # =====================================================
- # 中文wiki数据集
- # =====================================================
-
- # 中文wiki下载地址: https://dumps.wikimedia.org/zhwiki/
- # 利用wikiextractor处理文本格式
- # pip install wikiextractor
- # -b 10M 其中10M是指单个文件允许的最大的占用硬盘的大小
- # ./zhwiki 指输出数据存放文件夹
- #
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。