赞
踩
用的是transformers,进入 hugging face 的这个网站:bert-base-chinese · Hugging Face
在 Files and Versions 中对应下载或另存为(有的下完要重命名一下)
所需要的就是 config.json, pytorch_model.bin, vocab.txt 这几个文件
建立了如下文件夹路径来存放这些文件
└─bert
│ vocab.txt
│
└─bert-base-chinese
config.json
pytorch_model.bin
- from transformers import BertTokenizer
-
- vocab_file = 'bert/vocab.txt'
-
- tokenizer = BertTokenizer(vocab_file)
- from transformers.modeling_bert import BertModel
-
- bert = BertModel.from_pretrained("bert/bert-base-chinese/")
此处用的 transformers的版本是3.2.0
往下具体再怎么使用,可以去github找一些具体任务,
如文本分类之类的项目代码,看处理步骤。
放一个我以前跟着做的法研杯的一个任务,有基线代码
学会使用pytorch的bert也是从这个基线代码学到的,不过单机多卡的分布式训练还没搞懂:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。