赞
踩
class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)
num_embeddings (int) - 嵌入字典的大小
embedding_dim (int) - 每个嵌入向量的大小
padding_idx (int, optional) - 如果提供的话,输出遇到此下标时用零填充
max_norm (float, optional) - 如果提供的话,会重新归一化词嵌入,使它们的范数小于提供的值
norm_type (float, optional) - 对于max_norm选项计算p范数时的p
scale_grad_by_freq (boolean, optional) - 如果提供的话,会根据字典中单词频率缩放梯度
weight weight (Tensor) -形状为(num_embeddings, embedding_dim)的模块中可学习的权值
输入: LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
输出: (N, W, embedding_dim)
self.embed = nn.Embedding(vocab_size, embedding_dim)
self.embed.weight.data.copy_(torch.from_numpy(pretrained_embeddings))
embed = nn.Embedding.from_pretrained(feat)
先将glove向量转换成Word2vec向量。然后使用gensim库导入。
'''转换向量过程''' from gensim.test.utils import datapath, get_tmpfile from gensim.models import KeyedVectors # 已有的glove词向量 glove_file = datapath('test_glove.txt') # 指定转化为word2vec格式后文件的位置 tmp_file = get_tmpfile("test_word2vec.txt") from gensim.scripts.glove2word2vec import glove2word2vec glove2word2vec(glove_file, tmp_file) ‘’‘’导入向量‘’‘’ # 加载转化后的文件 wvmodel = KeyedVectors.load_word2vec_format(tmp_file) # 使用gensim载入word2vec词向量 vocab_size = len(vocab) + 1 embed_size = 100 weight = torch.zeros(vocab_size+1, embed_size) for i in range(len(wvmodel.index2word)): try: index = word_to_idx[wvmodel.index2word[i]] except: continue weight[index, :] = torch.from_numpy(wvmodel.get_vector( idx_to_word[word_to_idx[wvmodel.index2word[i]]])) #embed embedding = nn.Embedding.from_pretrained(weight)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。