当前位置:   article > 正文

LLM-大模型训练-步骤(一):词表扩充【sentencepiece】​_llama扩充词表 不起作用

llama扩充词表 不起作用

GitHub项目Chinese-LLaMA-Alpaca

由于原版LLaMA对中文的支持非常有限,本项目在原版LLaMA的基础上进一步扩充了中文词表。

  • 在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并
  • 排除重复的token后,得到的最终中文LLaMA词表大小为49953
  • 需要注意的是,在fine-tune阶段Alpaca比LLaMA多一个pad token,所以中文Alpaca的词表大小为49954

更多关于中文词表扩充的动机,可参考FAQ。如果欲了解扩充词表的具体方法,或者使用自己的词表对LLaMA tokenizer进行扩充,我们提供了代码

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/558616
推荐阅读
相关标签
  

闽ICP备14008679号