赞
踩
关于 tokenize 的总结,翻译自Summary of Tokenize
transformers 使用混合tokenization:Word-Level 和 Character-Level
Subword tokennizaiton算法基于这样一个原则,即经常使用的词不应该被分割成更小的子词,而稀有词应该被分解成有意义的子词。
对于BertTokenizer:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
print(tokenizer.tokenize("I have a new GPU!"))
['i', 'have', 'a', 'new', 'gp', '##u', '!']
前边的词都存在字表中,GPU 没有存在常用字表中,所以被拆分成gp
和 ##u
, “##”表示token的其余部分应连接到前一个token,与字母之间是相连的(用于解码或反转令牌化).
对于 XLNetTokenizer:
from transformers import XLNetTokenizer
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")
tokenizer.tokenize("Don't you love 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/828533
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。