当前位置:   article > 正文

LLM-预训练-数据集:wiki中文数据集【使用wikiextractor 提取wiki数据】

wiki中文数据集

wikiextractor包链接地址:GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
安装wikiextractor: pip install wikiextractor
然后下载wiki语料库,下载地址: Index of /zhwiki/latest/
我下载的是:zhwiki-latest-pages-articles.xml.bz2
然后使用下面命令:

  1. # 中文wiki下载地址
  2. # https://dumps.wikimedia.org/zhwiki/
  3. # pip install wikiextractor
  4. # wikiextractor -o ./zhwiki-20230401 -b 100M --json --processes 4 ./zhwiki-20230401-pages-articles.xml.bz2
  5. # -b 100M 其中100M是指单个文件允许的最大的占用硬盘的大小,如果设置的小,则会生成多个文件夹(AA、AB、AC...)
  6. # ./zhwiki-20230401-b 指输出数据存放文件夹
  7. # ./zhwiki-20230401-pages-articles.xml.bz2 指原始语料文件

然后就开始提取wiki数据了,如果上述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/961830
推荐阅读
相关标签
  

闽ICP备14008679号