当前位置:   article > 正文

关于 NLP 中的 tokenize 总结

tokenize

Tokenize

关于 tokenize 的总结,翻译自Summary of Tokenize

Subword tokenization

transformers 使用混合tokenization:Word-Level 和 Character-Level

Subword tokennizaiton算法基于这样一个原则,即经常使用的词不应该被分割成更小的子词,而稀有词应该被分解成有意义的子词。

对于BertTokenizer:

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
print(tokenizer.tokenize("I have a new GPU!"))

['i', 'have', 'a', 'new', 'gp', '##u', '!']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

前边的词都存在字表中,GPU 没有存在常用字表中,所以被拆分成gp##u, “##”表示token的其余部分应连接到前一个token,与字母之间是相连的(用于解码或反转令牌化).

对于 XLNetTokenizer:

from transformers import XLNetTokenizer

tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")
tokenizer.tokenize("Don't you love 
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/828533
推荐阅读
相关标签