赞
踩
GLUE数据集由纽约大学, 华盛顿大学, Google联合推出,涵盖不同NLP任务类型,截止至2020年1月其中包括11个子任务数据集,成为衡量NLP研究发展的衡量标准
GLUE数据集的下载参考文章:https://zhuanlan.zhihu.com/p/135283598以及https://blog.csdn.net/Light2077/article/details/104561960有详细的介绍以及下载地址
运行脚本download_glue_data.py
即可下载glue数据集
GLUE数据集介绍:
NLP中流行的预训练模型有很多,比如BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM、RoBERTa、DistilBERT、ALBERT、T5、XLM-RoBERTa等等
上述这些预训练模型都是以transformer为基础,只是在模型结构如神经元连接方式,编码器隐层数,多头注意力的头数等发生改变,这些改变方式的大部分依据都是由在标准数据集上的表现而定,因此,对于我们使用者而言,不需要从理论上深度探究这些预训练模型的结构设计的优劣,只需要在自己处理的目标数据上,尽量遍历所有可用的模型对比得到最优效果即可
假设我们现在的任务是处理中文文本任务,需要加载的模型是BERT的中文模型: bert-base-chinese
示例如下:
import torch
from transformers import BertModel, BertTokenizer
# 加载预训练模型,指定模型名称,实例化分词器
model_name = 'bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(model_name)
# 输入文本
input_text = "人生该如何起头"
# 对输入文本进行字符映射
input_encode = tokenizer.encode(input_text)
# [101, 782, 4495, 6421, 1963, 862, 6629, 1928, 102],其中101、102 为SOS、EOS
# tokenizer映射后的结果, 101和102是起止符,
# 中间的每个数字对应"人生该如何起头"的每个字.
# 将映射后的编码转换为张量
input_tensor = torch.tensor([input_encode])
# 加载不带头的模型
model = BertModel.from_pretrained(model_name)
with torch.no_grad():
model_out = model(input_tensor)
print('不带头模型输出结果为:\t', model_out[0])
print("不带头的模型输出结果的尺寸:", model_out[0].shape)
Out:
不带头模型输出结果为: tensor([[[ 0.5421, 0.4526, -0.0179, ..., 1.0447, -0.1140, 0.0068],
[-0.1343, 0.2785, 0.1602, ..., -0.0345, -0.1646, -0.2186],
[ 0.9960, -0.5121, -0.6229, ..., 1.4173, 0.5533, -0.2681],
...,
[ 0.0115, 0.2150, -0.0163, ..., 0.6445, 0.2452, -0.3749],
[ 0.8649, 0.4337, -0.1867, ..., 0.7397, -0.2636, 0.2144],
[-0.6207, 0.1668, 0.1561, ..., 1.1218, -0.0985, -0.0937]]])
不带头的模型输出结果的尺寸: torch.Size([1, 9, 768])
加载预训练模型的时候我们可以选择带头或者不带头的模型,这里的头是指模型的任务输出层,选择加载不带头的模型,相当于使用模型对输入文本进行特征表示;选择加载带头的模型时,有三种类型的’头’可供选择,modelWithLMHead(语言模型头)、modelForSequenceClassification(分类模型头)、modelForQuestionAnswering(问答模型头)
不同类型的’头’,可以使预训练模型输出指定的张量维度。如使用’分类模型头’,则输出尺寸为(1,2)的张量,用于进行分类任务判定结果
加载带头的预训练模型:
from transformers import AutoModelWithLMHead, BertForSequenceClassification, BertForQuestionAnswering
# 加载带有语言模型头的预训练模型
lm_model = AutoModelWithLMHead.from_pretrained(model_name)
# 加载带有类模型头的预训练模型
classification_model = BertForSequenceClassification.from_pretrained(model_name)
# 加载带有问答模型头的预训练模型
qa_model = BertForQuestionAnswering.from_pretrained(model_name)
获取各种模型的输出结果:
with torch.no_grad():
lm_out = lm_model(input_tensor)
print("带语言模型头的模型输出结果:", lm_out[0])
print("带语言模型头的模型输出结果的尺寸:", lm_out[0].shape)
print("=================================================")
# 使用带有分类模型头的预训练模型获得结果
with torch.no_grad():
classification_out = classification_model(input_tensor)
print("带分类模型头的模型输出结果:", classification_out[0])
print("带分类模型头的模型输出结果的尺寸:", classification_out[0].shape)
print("=================================================")
# 使用带有问答模型头的模型进行输出时, 需要使输入的形式为句子对
# 第一条句子是对客观事物的陈述
# 第二条句子是针对第一条句子提出的问题
# 问答模型最终将得到两个张量,
# 每个张量中最大值对应索引的分别代表答案的在文本中的起始位置和终止位置.
input_text1 = "我家的小狗是黑色的"
input_text2 = "我家的小狗是什么颜色的呢?"
# 映射两个句子
indexed_tokens = tokenizer.encode(input_text1, input_text2)
# 用0,1来区分第一条和第二条句子
segments_ids = [0]*11 + [1]*14
# 转成张量形式
segments_tensors = torch.tensor([segments_ids])
tokens_tensor = torch.tensor([indexed_tokens])
with torch.no_grad():
qa_out = qa_model(tokens_tensor, token_type_ids=segments_tensors)
print("带问答模型头的模型输出结果:", (qa_out[0], qa_out[1]))
print('segments_ids长度为:', len(segments_ids))
print("带问答模型头的模型输出结果的尺寸:", (qa_out[0].shape, qa_out[1].shape))
Out:
带语言模型头的模型输出结果: tensor([[[ -7.9706, -7.9119, -7.9317, ..., -7.2174, -7.0263, -7.3746],
[ -8.2097, -8.1810, -8.0645, ..., -7.2349, -6.9283, -6.9856],
[-13.7458, -13.5978, -12.6076, ..., -7.6817, -9.5642, -11.9928],
...,
[ -9.0928, -8.6858, -8.4648, ..., -8.2368, -7.5684, -10.2419],
[ -8.9458, -8.5784, -8.6325, ..., -7.0547, -5.3288, -7.8077],
[ -8.4154, -8.5217, -8.5379, ..., -6.7102, -5.9782, -7.6909]]])
带语言模型头的模型输出结果的尺寸: torch.Size([1, 9, 21128])
=================================================
带分类模型头的模型输出结果: tensor([[-0.0769, 0.5593]])
带分类模型头的模型输出结果的尺寸: torch.Size([1, 2])
=================================================
带问答模型头的模型输出结果: (tensor([[-0.2749, 0.0092, 0.2135, 0.5658, 0.3289, 0.8302, -0.1749, 0.2905,
-0.4372, 0.1618, -0.1352, 0.5258, 0.1739, 0.3888, 0.3152, 0.7269,
0.0626, 0.4722, 0.1609, 0.0509, 0.0181, 0.4251, 0.6331, 0.2457,
-0.1352]]), tensor([[-0.3716, 0.3101, -0.9654, 0.4308, -0.5302, -0.7496, 0.0664, -0.7638,
-0.5381, -0.2097, -0.3282, 0.2683, -0.8065, 0.5906, -0.4676, -0.6432,
0.4774, 0.2185, -0.4065, -0.4240, -0.4468, 0.5315, -0.0225, -0.2061,
-0.3282]]))
# 输出为两个形状1x25的张量, 他们是两条句子合并长度的概率分布,
# 第一个张量中最大值所在的索引代表答案出现的起始索引,
# 第二个张量中最大值所在的索引代表答案出现的终止索引.
segments_ids长度为: 25
# 输出结果的最后一维大小为两个句子长度 + 3(一个101,两个102,第一个句长9,第二个句长13)
带问答模型头的模型输出结果的尺寸: (torch.Size([1, 25]), torch.Size([1, 25]))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。