赞
踩
wikiextractor包链接地址:GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
安装wikiextractor: pip install wikiextractor
然后下载wiki语料库,下载地址: Index of /zhwiki/latest/
我下载的是:zhwiki-latest-pages-articles.xml.bz2
然后使用下面命令:
- # 中文wiki下载地址
- # https://dumps.wikimedia.org/zhwiki/
- # pip install wikiextractor
- # wikiextractor -o ./zhwiki-20230401 -b 100M --json --processes 4 ./zhwiki-20230401-pages-articles.xml.bz2
- # -b 100M 其中100M是指单个文件允许的最大的占用硬盘的大小,如果设置的小,则会生成多个文件夹(AA、AB、AC...)
- # ./zhwiki-20230401-b 指输出数据存放文件夹
- # ./zhwiki-20230401-pages-articles.xml.bz2 指原始语料文件
然后就开始提取wiki数据了,如果上述
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。