赞
踩
在 Skip-gram 模型 中,softmax 的计算成本很大,因为它需要扫描整个词嵌入矩阵(
假设训练的语料库有
采用负采样:
从噪声分布中随机抽样
无负采样的
有负采样的
使用负采样的 Skip-gram 模型不再使用 softmax 去计算概率分布,而是使用 Sigmoid 函数(
假设中心词是 “regression”,那么比起 "regression" + {"zebra", "pimples", "Gangnam-Style", "toothpaste", "idiot"}成对出现,"regression" + {"logistic", "machine", "sigmoid", "supervised", "neural"}成对出现的可能性更高。模型最大化正例对出现的概率,最小化负例对出现的概率。词向量不再是通过给定一个中心词来预测上下文词学习得到,而是认为如果模型能区分正例对和负例对,那么就学习到了好的词向量表示。
负采样将多分类任务转化为了二分类任务,而新的目标是给定任意一对中心词和词
词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。