当前位置:   article > 正文

Bert中文预训练模型(Bert-base-chinese)

Bert中文预训练模型(Bert-base-chinese)

介绍

Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型,具有以下特点:

  • 12个隐层
  • 输出768维张量
  • 12个自注意力头
  • 110M参数量

该模型的主要作用是获取每个汉字的向量表示,后续通过微调可应用于各种简体和繁体中文任务。

使用

  1. import torch
  2. from transformers import BertTokenizer, BertModel
  3. # 第一步:离线下载
  4. # from transformers import BertModel, BertTokenizer
  5. # model_name = "bert-base-chinese"
  6. # # 下载模型和分词器
  7. # model = BertModel.from_pretrained(model_name)
  8. # tokenizer = BertTokenizer.from_pretrained(model_name)
  9. # # 保存模型和分词器到本地路径
  10. # model.save_pretrained("./bert-base-chinese")
  11. # tokenizer.save_pretrained("./bert-base-chinese")
  12. # 第二步:加载模型和分词器
  13. model_path = "./bert-base-chinese"
  14. tokenizer = BertTokenizer.from_pretrained(model_path)
  15. model = BertModel.from_pretrained(model_path)
  16. def encode_text_with_bert(text):
  17. """
  18. 使用bert-base-chinese模型对文本进行编码
  19. :param text: 输入的文本
  20. :return: 编码后的张量
  21. """
  22. # 使用tokenizer对文本进行编码,并去掉起始和结束标志
  23. encoded_text = tokenizer.encode(text)[1: -1]
  24. # 把列表转成张量
  25. encoded_tensor = torch.LongTensor([encoded_text])
  26. # 不自动进行梯度计算
  27. with torch.no_grad():
  28. output = model(encoded_tensor)
  29. # 返回编码后的张量(取last_hidden_state)
  30. return output[0]
  31. if __name__ == '__main__':
  32. text1 = "你好,美丽中国"
  33. result = encode_text_with_bert(text1)
  34. print('text1编码的形状:', result.size())
  35. print('text1编码:\n', result)

text1编码的形状: torch.Size([1, 7, 768])
text1编码:
 tensor([[[ 0.0781, -0.7386, -0.5120,  ...,  1.0695, -0.4252, -0.3970],
         [ 0.3118, -0.2283, -0.2513,  ..., -0.0618,  0.8715, -0.0833],
         [ 0.0287, -0.4937, -0.5554,  ...,  0.1643,  0.8771,  0.0019],
         ...,
         [-0.3068, -0.3406,  0.0525,  ...,  0.5506,  0.8915, -0.3713],
         [-0.1079, -0.0951, -0.1549,  ...,  0.8432,  0.7255, -0.5235],
         [-0.0414, -0.3786,  0.1590,  ...,  0.3844,  0.7464, -0.4266]]]) 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/851814
推荐阅读
相关标签
  

闽ICP备14008679号