huggingface transformer 真 quickstart_ckiplab/albert-base-chinese-ner

作者：笔触狂放9 | 2024-04-19 03:59:24

踩

ckiplab/albert-base-chinese-ner

tokenizer

对于sentence要先分词，对每个词做一个word embedding，这个过程叫tokenize，所以用tokenizer这个类。

那对于中文来说，选用什么tokenizer好？
可以见https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models

假定我要用nlptown/bert-base-multilingual-uncased-sentiment这个模型，则from_pretrain是很重要的方法，你需要传入一个mode id来确定tokenizer的适配的模型。

from transformers import AutoTokenizer

model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(model_name)
encoding = tokenizer("We are very happy to show you the 声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/449819

推荐阅读

相关标签