赞
踩
词表征学习:把词表示成一个向量,每个分量对应一个潜在的概念。
特点:
举个例子:
通过大型语料库的学习,得到的词嵌入向量可以描述词之间的不同关联性或相似性,包括:
句法关系,如:
• V(small)-V(smallest) = V(big)-V(biggest) 形容词原型-最高级的关系
• V(quick)-V(quickly)=obvious-obviously 形容词-副词的关系
语义关系,如:
• V(men)-V(king)= V(women)-V(queen) 男-女性别关系
• V(France)-V(Paris)=V(Germany)-V(Berlin) 城市-国家的隶属关系
这些词向量具有描述语义细节的能力,因此可以被用于很多基本的自然语言处理应用,比如机器翻译。
基于统计 vs 基于预测
• 基于统计的方法,如隐语义检索Latent Semantic Indexing(LSI)和基于词与其他词之间的共现频率(co-occurrence)得到词向量;
• 基于预测的方法,如基于神经网络的语言模型
Word2Vec
中心词(target)和上下文(context words)之间的关联性
用窗口来得到上下文
比如: “the quick brown fox jumps over the lazy dog”(注:高亮部分为窗口size)
移动窗口,得到所有的{中心词-上下文}
• 以”lazy”作为中心词,当上下文窗口(context window) 大小为1时那么对应的上下文窗口内的词为“the”和”dog”。
• 以“fox”作为中心词,当上下文窗口(context window) 大小为2时那么对应的上下文窗口内的词为”quick”,“brown”,”jumps”和”over”。
可以看到当最开始几个词为中心词时,左边窗口,和最后几个词为中心词时的右边窗口为空,应该怎么处理?
答:用虚假词”PAD”代替。建立索引时可以使得PAD的索引为0.
Word2Vec-两种方法
方法-CBOW:窗口内的词在映射空间表示的平均得到中心词在该空间的映射。取平均时并未考虑上下文中词的顺序。
CBOW训练样本表示:建立(输入、输出)关系对,其中上下文作为输入/数据,中心词作为标签。每个样本为:窗口内的2n 个context word(假设n为窗口大小),标签为对应的中心词。每个context word表示为长度为vocab_size(字典大小) 的one-hot向量。所以每个样本为一个矩阵 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/873969
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。