赞
踩
- from transformers import AutoTokenizer,AutoModel
- tokenizer=AutoTokenizer.from_pretrained(r'G:\pLMs\bert-base-uncased')
- text='i like apple'
- Input1=tokenizer.tokenize(text)
- print(Input1)
- Input2=tokenizer.encode(text)
- print(Input2)
- Input3=tokenizer.encode_plus(text)
- print(Input3)
- Input4 =tokenizer(text)
- print(Input4)
第一种方式tokenizer.encode(text)仅仅进行分词,把句子变为列表['i', 'like', 'apple']
第二种方式tokenizer.encode_plus(text)在分词后,还通过字典进行了词到id的映射 [101, 1045, 2066, 6207, 102]
第三种方式不仅返回id列表,还以一个字典形式返回句子类型,注意力类型
{'input_ids': [101, 1045, 2066, 6207, 102], 'token_type_ids': [0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1]}
第四种方式与上一个返回结果一样
结果如下图。
最后推荐一直用encode_plus
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。