赞
踩
对于sentence要先分词,对每个词做一个word embedding,这个过程叫tokenize,所以用tokenizer这个类。
那对于中文来说,选用什么tokenizer好?
可以见https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models
假定我要用nlptown/bert-base-multilingual-uncased-sentiment
这个模型,则from_pretrain
是很重要的方法,你需要传入一个mode id来确定tokenizer的适配的模型。
from transformers import AutoTokenizer
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(model_name)
encoding = tokenizer("We are very happy to show you the 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/449819
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。