赞
踩
tokenizer.tokenize :先分词,再转成id,直接输出tensor
tokenizer.encode :直接输出id,需要转换为tensor
- sentence = "Hello, my son is cuting."
- input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True))
- # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])
-
- input_token2 = tokenizer.tokenize(sentence)
- # ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']
- input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)
- # tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])
- # 并没有开头和结尾的标记:[cls]、[sep]
普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()
tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别
1、tokenizer.encode仅返回input_ids
2、 tokenizer.encode_plus返回所有的编码信息,具体如下:
- # 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好
-
- import torch
- from transformers import BertTokenizer
- model_name =" bert-base-uncase"
-
- tokenizer = BertTokenizener.from_pretrained(model_name)
- sentence= "hello,myson"
-
-
- -----------------------
-
- print(tokenizer.encode(sentence))
-
- [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]
- 当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]
-
- -----------------------
-
- print(tokenizer.encode_plus(sentence))
-
- {'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102],
- 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],
- 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。