NLP论文总结+个人理解（一）：Efficient Estimation of Word Representations in Vector Space_deep learning in nlp (1)efficient estimation of wo

作者：小桥流水78 | 2024-08-12 05:03:07

踩

deep learning in nlp (1)efficient estimation of word representations in vect

写在前面

本文提出了两种用来从大数据集中计算连续词向量表示的新的模型架构。词向量表示的好坏的评估基于一个词相似度任务，结果与先前的基于神经网络的最好性能的一些技术进行了比较。准确率大幅度改进以及更低的计算复杂度。训练的词向量在语法和语义相似度上取得了state of the art 的性能。
许多传统的NLP系统和NLP技术将单词视作“原子单位”-单词之间没有相似度的概念，单词被表示为词表中的索引，这样做有几个好处在大数据集上训练简单的模型比在小数据集上训练复杂的模型更加的鲁棒，简洁。例如: 在大数据集下(trillions of words)训练统计语言模型：N-gram。
然而现实情况是不能够搜集到如此多的可以被使用的数据集，简单的对传统的方法改进不会提升模型性能很多。

随着机器学习技术近些年的不断进步，利用基于单词的分布式表示训练复杂的神经网络语言模型的效果超过了N-gram模型。
本文的目的是提出一种新技术基于单词分布式表示训练词向量。使得语法语义相近的单词在词向量空间中离得更近。

模型架构：

下面将要提到的几个模型的训练复杂度正比于：
$O = E * T * Q$
$E$ 为迭代次数， $T$ 为训练集中的单词数量， $Q$ 取决于不同的模型架构。所有模型基于随机梯度下降和反向传播训练。

前馈神经网络语言模型(NNLM)：

NNLM包含输入层， projection层，隐藏层，输出层，每一个样本的训练复杂度为：
$\tag 1$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/967837