当前位置:   article > 正文

利用sentencepiece训练中文分词器,并与LLaMA分词器合并_sentencepiece中文分词

sentencepiece中文分词

零、数据下载、处理

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 _*-
  3. """
  4. @description: 搜集多个数据集 合并数据集 todo
  5. """
  6. import glob
  7. from tqdm import tqdm
  8. import json
  9. import json
  10. import os
  11. from tqdm import tqdm
  12. from zhconv import convert
  13. # =====================================================
  14. # 中文wiki数据集
  15. # =====================================================
  16. # 中文wiki下载地址: https://dumps.wikimedia.org/zhwiki/
  17. # 利用wikiextractor处理文本格式
  18. # pip install wikiextractor
  19. # -b 10M 其中10M是指单个文件允许的最大的占用硬盘的大小
  20. # ./zhwiki 指输出数据存放文件夹
  21. #
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/395605
推荐阅读
相关标签
  

闽ICP备14008679号