当前位置:   article > 正文

huggingface transformer 真 quickstart_ckiplab/albert-base-chinese-ner

ckiplab/albert-base-chinese-ner

tokenizer

对于sentence要先分词,对每个词做一个word embedding,这个过程叫tokenize,所以用tokenizer这个类。

那对于中文来说,选用什么tokenizer好?
可以见https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models

假定我要用nlptown/bert-base-multilingual-uncased-sentiment这个模型,则from_pretrain是很重要的方法,你需要传入一个mode id来确定tokenizer的适配的模型。

from transformers import AutoTokenizer

model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(model_name)
encoding = tokenizer("We are very happy to show you the 
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/449819
推荐阅读
相关标签