当前位置:   article > 正文

LLM:SentencePiece(词表扩充必备工具)_vicuna 词表大小

vicuna 词表大小

背景

随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双语进行训练,LLaMA主要以英语为主要语言的拉丁语系进行训练,而Bloom使用了46种自然语言、13种编程语言进行训练。

模型 训练数据量 模型参数 训练数据范围 词表大小 分词算法 分词器(Tokenizer)后端
LLaMA 1T~1.4T tokens(其中,7B/13B使用1T,33B/65B使用1.4T) 7B~65B 以英语为主要语言的拉丁语系 32000 BBPE 基于SentencePiece工具实现
ChatGLM-6B 约 1T tokens 6B 中英双语 130528 BBPE 基于SentencePiece工具实现
Bloom
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/315750
推荐阅读
相关标签
  

闽ICP备14008679号