当前位置:   article > 正文

【大模型】公主大人,别再用jieba做分词了!看看隔壁ChatGLM用了什么高科技!_glm在线分词器

glm在线分词器

目录

一、介绍

二、运行程序

三、词典

1.生成字典

2.特殊字符

四、编码过程

1.删除空格、变小写

2.转换回车、制表符和空格

3.虚拟空格

4.生成token_id

5.拼接特殊字符

五、解码过程


一、介绍

        ChatGLM是优秀的国产开源大模型,研究的人也比较多,要用它完成自己的任务,还是需要了解它的一些玩法,细节还是很多的。ChatGLM已经更新了几个版本,我就从第一版代码开始记录笔记,后面的版本都是在前一版本进行修改,不会有天翻地覆的变化,所以看到新版本的时候只需要关注变化就可以啦。

        大模型的内容肯定是很多的,就从比较前置的Tokenizer开始吧。

二、运行程序

        首先下载ChatGLM项目,尽量科学上网,下载稳定些。

        ChatGLM-6B:https://github.com/THUDM/ChatGLM-6B

        模型文件:https://huggingface.co/THUDM/chatglm-6b/tree/main

        下载完成后,把模型文件放在项目目录的THUDM/chatglm-6b中,执行下面的代码能出结果,证明程序运行正常:

  1. from transformers import AutoTokenizer, AutoConfig
  2. if __name__ == "__main__":
  3. model_name = "THUDM/chatglm-6b"
  4. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  5. text = "我爱学习"
  6. tokens = tokenizer.encode(text)
  7. print("tokens:", tokens)
  8. ''' 打印结果:
  9. tokens: [5, 76202, 63992, 130001, 130004]
  10. '''

        咱们再来看模型文件,Tokenizer相关的文件有三个,如下图:

        ice_text.model:存储分词模型的参数文件;

        tokenization_chatglm.py:实现分词相关的逻辑;

        tokenizer_config.json:分词的配置文件

三、词典

1.生成字典

        我们可以通过下面的代码查看词典规模,运行下面的代码我们将得到完整的词典,存在vocab.txt文件中:

  1. import sentencepiece as spm
  2. sp = spm.SentencePieceProcessor()
  3. sp.load('THUDM/chatglm-6b/ice_text.model')
  4. save_vocab = []
  5. for id in range(sp.vocab_size()):
  6. save_vocab.append(str(id)+"\t"+sp.id_to_piece(id))
  7. print(sp.id_to_piece(id))
  8. with open("vocab.txt", 'w+', encoding='utf-8') as f:
  9. f.write('\n'.join(save_vocab))

       vocab.txt文件也可以直接下载:https://download.csdn.net/download/xian0710830114/88791662

        分析vocab.txt文件我们可以发现词典规模130344,而且中英文的比例基本保持在1:1。

2.特殊字符

        下面是模型用到的特殊字符:

特殊字符token_id说明
<n>        4回车
5连接符,标记了一个词的开头
[gMASK]130001生成下文用的mask
<sop>130004output的开始
<eop>130005output的结尾
<|tab|>130008制表符
<|blank_{length}|>130009-130087

每n个连续的空格会被组成一个特殊字符,

上限80,即<|blank_80|>

       (1)连接符

        ChatGLM和LLaMA的分词都用了SentencePiece 库,SentencePiece 库的_EncodeAsPiecesBatch 方法返回的每段(每段是用空格分隔的)数据最前面有一个特殊的下划线 ▁,我们称之为连接符。因为 SentencePiece 使用连接符来表示一个词的开始。值得注意的是他不是普通的下划线,普通的下划线是这样的_。连接符标记了一个词的开头,这有助于区分连续的词汇。

        这样做的目的有如下两个好处:

        a.词边界标记:SentencePiece 处理的文本通常没有明确的空格或者其他明显的词边界标记(尤其是在某些亚洲语言中)。使用连接符作为词的前缀可以帮助模型识别词的边界。

        b.可逆性:在 SentencePiece 的编码和解码过程中,连接符的使用保证了操作的可逆性。这意味着你可以从编码的子词序列准确地重建原始文本,包括空格和词边界。

        下面看一个有意思的例子:

  1. from transformers import AutoTokenizer, AutoConfig
  2. if __name__ == "__main__":
  3. model_name = "THUDM/chatglm-6b"
  4. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  5. vocab = tokenizer.get_vocab()
  6. vocab_exchange = dict([val, key] for key, val in vocab.items())
  7. text1 = "苹果我是昨天买的"
  8. tokens1 = tokenizer.encode(text1, add_special_tokens=False)
  9. print("tokens1:", tokens1)
  10. participles1 = [vocab_exchange[token] for token in tokens1]
  11. print("participles1:", participles1)
  12. text2 = "我是昨天买的苹果"
  13. tokens2 = tokenizer.encode(text2, add_special_tokens=False)
  14. print("tokens2:", tokens2)
  15. participles2 = [vocab_exchange[token] for token in tokens2]
  16. print("participles2:", participles2)
  17. '''
  18. tokens1: [5, 65319, 65806, 67363, 68543]
  19. participles1: ['▁', '苹果', '我是', '昨天', '买的']
  20. tokens2: [71232, 67363, 68543, 65319]
  21. participles2: ['▁我是', '昨天', '买的', '苹果']
  22. '''

        可以看到第一个例子符合我们前面说的每段的开头会自动加一个▁ 但是第二个例子的▁被融合到了起始的分词中,这是因为在这段的开头加完▁后,能在词典中找到能匹配的'▁我是',根据匹配是长度优先的原则,肯定是选择组合成一个:'▁我是',而不是分成两个:'▁'和'我是'。

        再看一下“每段”的概念,段是单独的用空格分隔的,下面的例子一目了然,每个单独的空格会认为是新的开始。值得注意的是“单独的空格”会被用作分段,多个空格会被是做普通的空格并合并成<|blank|>标记,如下面的第三个例子:

  1. from transformers import AutoTokenizer, AutoConfig
  2. if __name__ == "__main__":
  3. model_name = "THUDM/chatglm-6b"
  4. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  5. vocab = tokenizer.get_vocab()
  6. vocab_exchange = dict([val, key] for key, val in vocab.items())
  7. # 1
  8. text1 = "Hello World"
  9. tokens1 = tokenizer.encode(text1, add_special_tokens=False)
  10. print("tokens1:", tokens1)
  11. participles1 = [vocab_exchange[token] for token in tokens1]
  12. print("participles1:", participles1)
  13. # 2
  14. text2 = "我是 昨天买的苹果"
  15. tokens2 = tokenizer.encode(text2, add_special_tokens=False)
  16. print("tokens2:", tokens2)
  17. participles2 = [vocab_exchange[token] for token in tokens2]
  18. print("participles2:", participles2)
  19. # 3
  20. text3 = "我是 昨天买的苹果"
  21. tokens3 = tokenizer.encode(text3, add_special_tokens=False)
  22. print("tokens3:", tokens3)
  23. participles3 = [vocab_exchange[token] for token in tokens3]
  24. print("participles3:", participles3)
  25. '''
  26. tokens1: [14833, 398]
  27. participles1: ['▁hello', '▁world']
  28. tokens2: [71232, 70831, 68543, 65319]
  29. participles2: ['▁我是', '▁昨天', '买的', '苹果']
  30. tokens3: [71232, 130009, 67363, 68543, 65319]
  31. participles3: ['▁我是', '<|blank_2|>', '昨天', '买的', '苹果']
  32. '''

        (2)[gMASK]

        [gMASK]是生成下文用的mask,表示从这里开始往下生成,在训练的时候会先mask掉[gMASK]后面的内容,然后预测后面的内容。ChatGLM的注意力模式是Prefix decoder,也就是下面的第二种,[gMASK]的功能可以理解为分隔input和output,这个到介绍结构时再说。

        (3)<sop> 和 <eop>

        ChatGLM中的这两个标记分别被当做<bos>(Beginning Of Sentence)和<eos>(Ending Of Sentence)来使用,会被加在output的头尾。

        下面看一个例子,数据是训练集中的一行,因为是训练数据所以是有明确的输出作为Ground Truth,训练之前数据预处理的过程就是这样的:

  1. from transformers import AutoTokenizer, AutoConfig
  2. def preprocess(tokenizer, config, example, max_seq_length):
  3. prompt = example["context"]
  4. target = example["target"]
  5. prompt_ids = tokenizer.encode(prompt, max_length=max_seq_length, truncation=True)
  6. target_ids = tokenizer.encode(
  7. target,
  8. max_length=max_seq_length,
  9. truncation=True,
  10. add_special_tokens=False)
  11. input_ids = prompt_ids + target_ids + [config.eos_token_id]
  12. return {"input_ids": input_ids, "seq_len": len(prompt_ids)}
  13. if __name__ == "__main__":
  14. model_name = "THUDM/chatglm-6b"
  15. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  16. config = AutoConfig.from_pretrained(model_name, trust_remote_code=True, device_map='auto')
  17. max_seq_length = 200
  18. example = {
  19. "context": "你是谁",
  20. "target": "人家是城堡中的小公主"
  21. }
  22. token = preprocess(tokenizer, config, example, max_seq_length)
  23. print("token:", token)
  24. '''
  25. token: {'input_ids': [5, 108293, 130001, 130004, 5, 65870, 63829, 75581, 64102, 103559, 130005], 'seq_len': 4}
  26. '''

        上面的代码实现的是将问答对转换成tokens,数据的转换过程如下:

四、编码过程

        Tokenizer用了sentencepiece包,但是在调用sentencepiece之前还有很多操作,下面的例子是一行训练数据的编码过程,我们来看一下整个过程发生了什么:

  1. from transformers import AutoTokenizer, AutoConfig
  2. def preprocess(tokenizer, config, example, max_seq_length):
  3. prompt = example["context"]
  4. target = example["target"]
  5. prompt_ids = tokenizer.encode(prompt, max_length=max_seq_length, truncation=True)
  6. target_ids = tokenizer.encode(
  7. target,
  8. max_length=max_seq_length,
  9. truncation=True,
  10. add_special_tokens=False)
  11. input_ids = prompt_ids + target_ids + [config.eos_token_id]
  12. return {"input_ids": input_ids, "seq_len": len(prompt_ids)}
  13. if __name__ == "__main__":
  14. model_name = "THUDM/chatglm-6b"
  15. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  16. config = AutoConfig.from_pretrained(model_name, trust_remote_code=True, device_map='auto')
  17. max_seq_length = 200
  18. example = {
  19. "context": "你要干什么",
  20. "target": "小公主 我们来玩吧\nHAHA\tHAHA"
  21. }
  22. token = preprocess(tokenizer, config, example, max_seq_length)
  23. print("token:", token)
  24. '''
  25. token: {'input_ids': [85117, 72675, 130001, 130004, 5, 103559, 130010, 63869, 111415, 63956, 4, 26650, 130008, 26650, 130005], 'seq_len': 4}
  26. '''

        下面涉及的代码没有特殊说明的都在tokenization_chatglm.py中,程序入口ChatGLMTokenizer._tokenize()。

1.删除空格、变小写

        这里是可以配置的,配置项在tokenizer_config.json中:

  1. ...
  2. "remove_space": false,
  3. "do_lower_case": true,
  4. ...

        因为删除空格会影响下面的<|blank|>,所以这里我只变小写,代码如下:

  1. def preprocess_text(self, inputs):
  2. if self.remove_space:
  3. outputs = " ".join(inputs.strip().split())
  4. else:
  5. outputs = inputs
  6. if self.do_lower_case:
  7. outputs = outputs.lower()
  8. return outputs

2.转换回车、制表符和空格

        \n替换成<n>; \t替换成<|tab|> ;空格被替换成<|blank_{length}|>,{length}是空格的个数,最多到80,值得注意的是,虽然80这个值是一个参数,但是只能小于等于80,因为词典中没有超过80的token。

        代码如下:

  1. @staticmethod
  2. def _encode_whitespaces(text: str, max_len: int = 80):
  3. # 替换制表符
  4. text = text.replace("\t", SPTokenizer.get_tab_token())
  5. # 替换空格
  6. for i in range(max_len, 1, -1):
  7. text = text.replace(" " * i, SPTokenizer.get_blank_token(i))
  8. return text
  9. def _preprocess(self, text: str, linebreak=True, whitespaces=True):
  10. if linebreak:
  11. # 替换回车
  12. text = text.replace("\n", "<n>")
  13. if whitespaces:
  14. text = self._encode_whitespaces(text, max_len=self.max_blank_length)
  15. return text

3.虚拟空格

        可以在开头添加虚拟空格,其实是<n>,默认是不加这个虚拟空格的,代码如下:

4.生成token_id

        上面的处理之后,调用sentencepiece的EncodeAsIds()方法生成token,特殊的下划线就是这个时候拼上的。sentencepiece还是值得研究一下的,ice_text.model也是使用它训练的,从词典能看出来,用的是BPE (Byte Pair Encoding)算法。

5.拼接特殊字符

        在encode完成的tokens后面拼上130001([gMASK])和130004(<sop>)。值得注意的是,在准备数据的时候,output后面不拼这两个token而是130005(<eop>),这一步需要我们自己做。代码如下:

  1. def build_inputs_with_special_tokens(
  2. self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
  3. ) -> List[int]:
  4. """
  5. Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and
  6. adding special tokens. A BERT sequence has the following format:
  7. - single sequence: `[CLS] X [SEP]`
  8. - pair of sequences: `[CLS] A [SEP] B [SEP]`
  9. Args:
  10. token_ids_0 (`List[int]`):
  11. List of IDs to which the special tokens will be added.
  12. token_ids_1 (`List[int]`, *optional*):
  13. Optional second list of IDs for sequence pairs.
  14. Returns:
  15. `List[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens.
  16. """
  17. gmask_id = self.sp_tokenizer[self.gmask_token]
  18. eos_id = self.sp_tokenizer[self.eos_token]
  19. token_ids_0 = token_ids_0 + [gmask_id, self.sp_tokenizer[self.bos_token]]
  20. if token_ids_1 is not None:
  21. token_ids_0 = token_ids_0 + token_ids_1 + [eos_id]
  22. return token_ids_0

        执行拼接,在transformers包tokenization_utils_base.py中的DispatchService.build_inputs_with_special_tokens()方法中,将特殊字符拼接到了tokens的最后面,代码如下:

  1. def build_inputs_with_special_tokens(
  2. self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
  3. ) -> List[int]:
  4. """
  5. Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and
  6. adding special tokens.
  7. This implementation does not add special tokens and this method should be overridden in a subclass.
  8. Args:
  9. token_ids_0 (`List[int]`): The first tokenized sequence.
  10. token_ids_1 (`List[int]`, *optional*): The second tokenized sequence.
  11. Returns:
  12. `List[int]`: The model input with special tokens.
  13. """
  14. if token_ids_1 is None:
  15. return token_ids_0
  16. return token_ids_0 + token_ids_1

        下面是完整编码过程的示意图,部分流程略有调整,主要是为了易于理解:

五、解码过程

         最后再看一下decode,过程比较简单,一句话就能概括。就是按照词典在把token_id转换成字符串,同时连接符会被去掉:

  1. from transformers import AutoTokenizer, AutoConfig
  2. if __name__ == "__main__":
  3. model_name = "THUDM/chatglm-6b"
  4. tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
  5. vocab = tokenizer.get_vocab()
  6. vocab_exchange = dict([val, key] for key, val in vocab.items())
  7. tokens = [5, 19316, 932]
  8. participles = [vocab_exchange[token] for token in tokens]
  9. print("participles:", participles)
  10. decode_tokens = tokenizer.decode(tokens)
  11. print("decode_tokens:", decode_tokens)
  12. '''
  13. participles: ['▁', '▁Hello', '▁World']
  14. decode_tokens: Hello World
  15. '''

        现在还有一个问题,词典(ice_text.model)是怎么生成的,ChatGLM和LLaMA其实都使用了sentencepiece包中的BPE,sentencepiece实现了BPE (Byte Pair Encoding)、Unigram、Word和Char四种算法,那这四种算法是什么,最终为什么选择BPE,因为篇(lan)幅(de)有(xie)限(le)以后会单独说。

        ChatGLM的Tokenizer就介绍到这里,关注不迷路(#^.^#)...

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/536388
推荐阅读
相关标签
  

闽ICP备14008679号