LLM：SentencePiece（词表扩充必备工具）_vicuna 词表大小

作者：花生_TL007 | 2024-03-26 08:28:29

踩

vicuna 词表大小

背景

随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以英语为主要语言的拉丁语系进行训练，而Bloom使用了46种自然语言、13种编程语言进行训练。

模型	训练数据量	模型参数	训练数据范围	词表大小	分词算法	分词器（Tokenizer）后端
LLaMA	1T～1.4T tokens(其中，7B/13B使用1T，33B/65B使用1.4T)	7B～65B	以英语为主要语言的拉丁语系	32000	BBPE	基于SentencePiece工具实现
ChatGLM-6B	约 1T tokens	6B	中英双语	130528	BBPE	基于SentencePiece工具实现
Bloom

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/315750