赞
踩
从向量的共现信息中学习向量或单词的另一种众所周知的模型是GlobalVectors(GloVe)。 word2vec是一种预测模型,即一种前向神经网络,可以学习向量以提高预测能力,而GloVe是一种基于计数的模型。
一般来说,基于计数的模型通过对共现计数矩阵进行降维来学习向量。首先,他们构造一个大的共现信息矩阵,其中包含有关在某个“上下文”(各列)中看到每个“单词”(存储在行中)的频率的信息。 “上下文”的数量需要很大,因为它的大小实际上是组合的。之后,他们将这个矩阵分解为单词和特征的低维矩阵,其中每一行为每个单词生成一个矢量表示。它是通过最小化“重建损失”来实现的,该损失寻找可以解释高维数据差异的低维表示形式。
对于GloVe,通过对计数进行归一化和对数平滑来对计数矩阵进行预处理。与word2vec相比,GloVe允许并行实施,这意味着更容易训练更多数据。相信(GloVe)可以将word2vec跳过语法模型在单词类比任务中的优势与利用全局统计信息的矩阵分解方法的优势相结合。
几乎所有用于学习单词表示的无监督方法都将语料库中单词出现的统计信息作为主要信息来源,但是仍然存在一个问题,即如何从这些统计信息中产生含义,以及所得到的单词向量如何表示该含义。
Pennington等。 (2014年)提出了一个简单的例子,基于单词ice and steam进行了说明。
通过研究它们的共现概率与各种探测词k的比率,可以揭示这些词的关系。令P(k | w)为单词k在单词w的上下文中出现的可能性:与固体相比,冰与固体共生的频率要比与气体相比高,而与固体相比,蒸汽与气体共生的频率比与固体相比要高。这两个词经常与水同时出现(因为这是它们的共同财产),并且很少出现-与时尚无关。
换句话说,P(固体|冰)将相对较高,而P(固体|蒸汽)将相对较低。因此,P(固体|冰)/ P(固体|蒸汽)的比例将很大。如果我们使用与蒸汽有关但与冰无关的气体之类的词,则P(气体|冰)/ P(气体|蒸汽)之比反而会很小。对于与冰和蒸汽都相关的单词(例如水),我们希望该比例接近一个:
我们可以看到,词向量学习的合适起点可能确实是同现概率的比率,而不是概率本身。
GloVe预测周围单词的方式是通过执行动态逻辑回归最大化给定中心单词的上下文单词出现的概率。
在训练实际模型之前,先构建一个共现矩阵X,其中单元格Xij是一个“强度”,它表示单词i在单词j的上下文中出现的频率。一旦准备好X,就必须为语料库中的每个单词确定连续空间中的向量值,换言之,构建表示每个单词对i和j共同出现的单词向量。
我们将产生带有软约束的向量,该向量对于单词i和单词j的每个单词组合:
其中bi和bj分别是与词i和j相关联的标量偏差项。
为此,我们将目标函数J最小化,该函数根据上述方程式对所有平方误差的和进行加权,并用函数f加权:
其中V是词汇量。
但是,一些很少发生或从未发生过的同时发生比较嘈杂,并且所携带的信息少于频繁发生的信息。为了处理它们,使用了加权最小二乘回归模型。一类加权函数可以很好地工作,可以将其参数化为:
该模型生成两组词向量W和W̃。当X是对称的时,W和W̃是等效的,并且仅是由于它们的随机初始化而不同。两组向量应等效执行。对于某些类型的神经网络,训练网络的多个实例然后组合结果可以帮助减少过度拟合和噪声(Ciresan等人,2012),将W和W̃总结为词向量。这样做对性能的提升不大,但语义类比任务的增加最大。
该模型利用了计数数据的主要优点(捕获全局统计信息的能力),同时捕获了最近流行的基于对数-双线性预测的基于word2vec的方法中有意义的线性子结构。结果,GloVe成为用于单词表示的无监督学习的全局对数-双线性回归模型,其在词类比,词相似性和命名实体识别任务方面优于其他模型。
优点
快速训练
可扩展到大型语料库
即使是小的语料库和小的向量也表现良好
早停。当改进变小时,我们可以停止培训。
缺点
占用大量内存:构造术语共生矩阵的最快方法是将其作为哈希图保存在RAM中,并以全局方式执行共生增量
有时对初始学习率非常敏感
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。