当前位置:   article > 正文

tokenizer,tokenizer.tokenize,tokenizer.encode,tokenizer.encode_plus它们到底有什么不一样?_tokenizer和tokenizer.tokenize分词数量不一致

tokenizer和tokenizer.tokenize分词数量不一致
  1. from transformers import AutoTokenizer,AutoModel
  2. tokenizer=AutoTokenizer.from_pretrained(r'G:\pLMs\bert-base-uncased')
  3. text='i like apple'
  4. Input1=tokenizer.tokenize(text)
  5. print(Input1)
  6. Input2=tokenizer.encode(text)
  7. print(Input2)
  8. Input3=tokenizer.encode_plus(text)
  9. print(Input3)
  10. Input4 =tokenizer(text)
  11. print(Input4)

第一种方式tokenizer.encode(text)仅仅进行分词,把句子变为列表['i', 'like', 'apple']

第二种方式tokenizer.encode_plus(text)在分词后,还通过字典进行了词到id的映射 [101, 1045, 2066, 6207, 102]

第三种方式不仅返回id列表,还以一个字典形式返回句子类型,注意力类型
 {'input_ids': [101, 1045, 2066, 6207, 102], 'token_type_ids': [0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1]}
第四种方式与上一个返回结果一样

结果如下图。

 最后推荐一直用encode_plus

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/559383
推荐阅读
相关标签
  

闽ICP备14008679号