赞
踩
Harris 在1954 年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似[35]。
Firth 在1957 年对分布假说进行了进一步阐述和明确:词的语义由其上下文决定(a word is characterized by thecompany it keeps)[29]。
基于分布假说得到的表示均可称为分布表示(distributional representation)。
根据建模的不同,主要可以分为三类:基于矩阵的分布表示(高维)、基于聚类的分布表示(高维)、基于神经网络的分布表示(低维)。【图灵将这三种分类分别称作:distributional representation、clustering based word representation、distributed representation】
它们的核心思想也都由两部分组成:一、选择一种方式描述上下文;二、选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。
这类方法需要构建一个“词-上下文”矩阵,从矩阵中获取词的表示。在“词-上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。
在这种表示下,矩阵中的一行,就成为了对应词的表示,这种表示描述了该词的上下文的分布。由于分布假说认为上下文相似的词,其语义也相似,因此在这种表示下,两个词的语义相似度可以直接转化为两个向量的空间距离。
该方法分为三个步骤:
一、选取上下文。第一种:将词所在的文档作为上下文,形成“词-文档”矩阵。第二种:将词附近上下文中的各个词(如上下文窗口中的5个词)作为上下文,形成“词-词”矩阵。第三种:将词附近上下文各词组成的n-gram作为上下文,形成“词-n元词组”。
二、确定矩阵中各元素的值。根据“词-上下文”共现矩阵的定义,里面各元素的值应为词与对应的上下文的共现次数。但一般采用多种加权和平滑方法,eg:tf-idf。
三、矩阵分解。常见分解技术:奇异值分解SVD、非负矩阵分解NMF、主成分分析PCA。
最新代表作:Global Vector模型(GloVe)
该方法以根据两个词的公共类别判断这两个词的语义相似度。最经典的方法是布朗聚类(Brown clustering)。
基于神经网络的分布表示一般称作 词向量、 词嵌入(word embedding)、分布式表示(distributed representation)。
形式化讲,统计语言模型的作用是为一个长度为m 的字符串确定一个概率分布P(w1,w2, …,wm),表示其存在的可能性,其中w1 到wm 依次表示这段文本中的各个词。通常采用下式计算概率值:
n元模型对上述概率做了以下近似:
在语言模型中,为了更好地保留词序信息,构建更有效的语言模型,我们希望在n 元模型中选用更大的n。但是,当n 较大时&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。