赞
踩
进入huggingface网站
在搜索栏中搜索chinese【根据自己的需求来,如果数据集是中文这的搜索】
打开第一个bert-base-chinese
复制下面这段话到vscode里
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModelForMaskedLM.from_pretrained("bert-base-chinese")
''' Description: 快速入门 Autor: 365JHWZGo Date: 2022-01-21 11:54:58 LastEditors: 365JHWZGo LastEditTime: 2022-01-21 12:13:41 ''' from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese') # encode word_embeding = tokenizer('我是中国人,我骄傲!') print(word_embeding) ''' { 'input_ids': [101, 2769, 3221, 704, 1744, 782, 8024, 2769, 7734, 1000, 8013, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1] } ''' # decode decode_word = tokenizer.decode(word_embeding['input_ids']) print(decode_word) # [CLS] 我 是 中 国 人 , 我 骄 傲 ! [SEP]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。