当前位置:   article > 正文

Torch.nn.embedding_nn.embedding引用

nn.embedding引用

Torch.nn.embedding

相当于一个简单的存储固定大小的词典的嵌入向量的查找表,即,给定一个编号,嵌入层就能返回这个编号对应的嵌入向量,嵌入向量反映了各个编号代表的符号之间的语义关系。input为一个编号列表,output为对应的符号嵌入向量列表

主要作用

最早用于维度变化,也最常在nlp中所使用,即词嵌入操作,通俗来讲就是将文字转换为一串数字。词嵌入的过程,就相当于是制造出一本字典的过程。计算机可以通过这个字典来间接地识别文字。词嵌入向量的意思也可以理解成:词在神经网络中的向量表示。

现被使用于空间操作中,对于graph中各节点之间特征的潜在影响关系捕获。

调用参数

Embedding的输入参数如下:

Embedding(
num_embeddings: int, 
embedding_dim: int, 
padding_idx: Union[int, NoneType] = None,
max_norm: Union[float, NoneType] = None,
norm_type: float = 2.0, 
scale_grad_by_freq: bool = False, 
sparse: bool = False, 
_weight: Union[torch.Tensor, 
NoneType] = None)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

参数含义

参数解释

  • num_embeddings (python:int) – 词典的大小尺寸,比如总共出现5000个词,那就输入5000。此时index为(0-4999)
    *embedding_dim (python:int) – 嵌入向量的维度,即用多少维来表示一个符号。
  • padding_idx (python:int, optional) – 填充id,比如,输入长度为100,但是每次的句子长度并不一样,后面就需要用统一的数字
    填充,而这里就是指定这个数字,这样,网络在遇到填充id时,就不会计算其与其它符号的相关性。(初始化为0)
  • max_norm (python:float, optional) – 最大范数,如果嵌入向量的范数超过了这个界限,就要进行再归一化。
  • norm_type (python:float, optional) – 指定利用什么范数计算,并用于对比max_norm,默认为2范数。
  • scale_grad_by_freq (boolean, optional) – 根据单词在mini-batch中出现的频率,对梯度进行放缩。默认为False.
  • sparse (bool, optional) – 若为True,则与权重矩阵相关的梯度转变为稀疏张量。

Shape:

关于输入、输出维度
| - Input: :math:(*), LongTensor of arbitrary shape containing the indices to extract
| - Output: :math:(*, H), where * is the input shape and :math: H=\text{embedding_dim}

Examples::

| >>> # an Embedding module containing 10 tensors of size 3
| >>> embedding = nn.Embedding(10, 3)
| >>> # a batch of 2 samples of 4 indices each
| >>> input = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
| >>> embedding(input)
| tensor([[
| [-0.0251, -1.6902, 0.7172],
| [-0.6431, 0.0748, 0.6969],
| [ 1.4970, 1.3448, -0.9685],
| [-0.3677, -2.7265, -0.1685]],

| [[ 1.4970, 1.3448, -0.9685],
| [ 0.4362, -0.4004, 0.9400],
| [-0.6431, 0.0748, 0.6969],
| [ 0.9124, -2.3616, 1.1151]
| ]])

the shape of output:(2,4,3)

need attentioned points:

nn.embedding的输入只能是编号,不能是隐藏变量,比如one-hot,或者其它,这种情况,可以自己建一个自定义维度的线性网络层,参数训练可以单独训练或者跟随整个网络一起训练(看实验需要)
*
如果你指定了padding_idx,注意这个padding_idx也是在num_embeddings尺寸内的,比如符号总共有500个,指定了padding_idx,那么num_embeddings应该为501
*
embedding_dim的选择要注意,根据自己的符号数量,举个例子,如果你的词典尺寸是1024,那么极限压缩(用二进制表示)也需要10维,再考虑词性之间的相关性,怎么也要在15-20维左右,虽然embedding是用来降维的,但是>- 也要注意这种极限维度,结合实际情况,合理定义

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/363858
推荐阅读
相关标签
  

闽ICP备14008679号