当前位置:   article > 正文

[论文笔记] Qwen-7B tokenizer_qwen tokenizer

qwen tokenizer

https://github.com/QwenLM/Qwen/blob/main/tokenization_note_zh.md#%E6%99%AE%E9%80%9Atoken

https://huggingface.co/Qwen/Qwen-7B

一、Qwen-7B 介绍

        Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖tiktoken这一高效的软件包执行分词。 Qwen-7B中有两类token,即源于BPE、bytes类型的普通token和特殊指定、str类型的特殊token。

  1. from transformers import AutoTokenizer
  2. tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen-7B', trust_remote_code=True)

二、词表扩展

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/677563
推荐阅读
相关标签
  

闽ICP备14008679号