当前位置:   article > 正文

词嵌入:CBOW和Skip-gram_pad字符在词嵌入模型中索引

pad字符在词嵌入模型中索引

词嵌入(word embedding)概念与方法

词表征学习:把词表示成一个向量,每个分量对应一个潜在的概念。
特点:

  1. 通过模型学习得到
  2. 表示成低维、连续(稠密)的词向量,
  3. 可以反映出词之间的语义、上下文的相关性

举个例子:
在这里插入图片描述
通过大型语料库的学习,得到的词嵌入向量可以描述词之间的不同关联性或相似性,包括:
句法关系,如:
• V(small)-V(smallest) = V(big)-V(biggest) 形容词原型-最高级的关系
• V(quick)-V(quickly)=obvious-obviously 形容词-副词的关系
语义关系,如:
• V(men)-V(king)= V(women)-V(queen) 男-女性别关系
• V(France)-V(Paris)=V(Germany)-V(Berlin) 城市-国家的隶属关系
这些词向量具有描述语义细节的能力,因此可以被用于很多基本的自然语言处理应用,比如机器翻译。

实现

基于统计 vs 基于预测
• 基于统计的方法,如隐语义检索Latent Semantic Indexing(LSI)和基于词与其他词之间的共现频率(co-occurrence)得到词向量;
• 基于预测的方法,如基于神经网络的语言模型

Word2Vec
中心词(target)和上下文(context words)之间的关联性
用窗口来得到上下文
比如: “the quick brown fox jumps over the lazy dog”(注:高亮部分为窗口size)
移动窗口,得到所有的{中心词-上下文}
• 以”lazy”作为中心词,当上下文窗口(context window) 大小为1时那么对应的上下文窗口内的词为“the”和”dog”。
• 以“fox”作为中心词,当上下文窗口(context window) 大小为2时那么对应的上下文窗口内的词为”quick”,“brown”,”jumps”和”over”。
可以看到当最开始几个词为中心词时,左边窗口,和最后几个词为中心词时的右边窗口为空,应该怎么处理?
答:用虚假词”PAD”代替。建立索引时可以使得PAD的索引为0.

Word2Vec-两种方法

  1. 通过周边的词来预测中心词 Continuous Bag of Words (CBOW)
  2. 用中心词来预测周边词Skip-gram

图示两种不同方法

训练样本

方法-CBOW:窗口内的词在映射空间表示的平均得到中心词在该空间的映射。取平均时并未考虑上下文中词的顺序。

CBOW训练样本表示:建立(输入、输出)关系对,其中上下文作为输入/数据,中心词作为标签。每个样本为:窗口内的2n 个context word(假设n为窗口大小),标签为对应的中心词。每个context word表示为长度为vocab_size(字典大小) 的one-hot向量。所以每个样本为一个矩阵 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/873969

推荐阅读
相关标签