赞
踩
自然语言处理(Natural Language Processing,简称NLP)是计算机科学与人工智能领域的一个重要研究方向,目的是让计算机能够理解、解析、生成和处理人类的自然语言。
自然语言处理有着非常重要的意义,其一,我们认为人类语言是人类智能一个非常重要的体现;其二,NLP 是人工智能能够通过图灵测试的一个非常重要的工具。其中图灵测试(最开始的名字是 imitation game)是判断机器是否智能的一个非常重要的手段。它的基本思想是,如果机器的回答能够让人类无法判断是否是机器回答的,那么可以认为机器具备了智能。
2011年,IBM 开发的 Watson DeepQA system,参加了一个非常有名的在线问答的电视节目(类似于一站到底),取得了第一名!这是 NLP 一个重要的应用。
词表示是将自然语言表示中最基本的语言单位,即词,转换成机器可以理解的意思。主要用于两点:
一是完成词与词之间的相似度计算
二是发现词与词之间的语义关系
那具体怎么进行词表示呢?
比如用一些同义词、反义词来表示 “good”,用一些上位词(具有更广义或更普遍含义的词语,如 “动物” 是 “狗” 的上位词)来表示 “NLP” 等
这种方案的不足之处在于:
这种方案是计算机中最常用的表示,任何一个词都会用一个和词表一样长的向量表示
这种表示方法的缺点是:任意两个词都是相互正交的。不利于考虑相似性。
一个词的词义实际上跟它经常出现在的那个位置的上下文有密切的关系,因此可以用上下文中的一些词来表示某个词。如下图中可以用 shining、cold、night 等来表示 stars。
我们依然可以用一个向量来表示一个词,这个向量的长度也是跟词表一样,但是里面的每一维表示的是这个词的上下文到底它出现了多少次,或者是出现的重要性怎么样。如此一来,每一个词都可以用它上下文的出现的频度或者重要性来表示,可以得到关于每一个词的一个稠密的向量,从而在这个空间里面,可以利用这个稠密的向量去计算出两个词之间的相似度。
这种方案的局限性是:当词表变得越来越大时,存储的需求就会变得特别大;而且对于那些出现频度特别少的词,它的向量很稀疏,这就会导致这个词的表示会变得效果没有那么好
提出了一种分布式表示,即要建立起一个低维的一个稠密的向量空间,尝试着将每一个词都学到这个空间里面,用这个空间里面的某一个位置所对应的那个向量来表示这个词。这样一来,我们可以去计算词与词之间的相似度等特点。
这种低维的向量可以利用大规模的数据自动去学习,其中一个代表性工作是Word2Vec
语言模型有两个主要工作:
一是计算联合概率:一个序列的词成为一句话的概率
二是计算条件概率:根据前面的已经说过的这些话,预测它的下一个词的概率
那怎样去计算这些概率呢?
这样的话,可以将一个句子的联合概率拆解成一个一个的条件概率的乘积
基于这个假设,我们如何进行语言模型的构建呢?
N-gram 模型统计前面出现了 N-1 个词之后,后面出现那个词的频度是怎么样的,其背后遵守上面的基本假设。
以 4-gram 为例,这个模型讨论前面出现了 3 个词,后面出现这个词的概率是多少。讨论 never too late to 后面出现
w
j
w_j
wj 的概率,可以用语料库中,too late to
w
j
w_j
wj 出现的次数除以 too late to 出现的次数得到,即:
存在的问题:
神经语言模型基于神经网络使用词的分布式表示即 word embedding 去建构前文和当前词的预测条件概率。
基本思路:
1、首先将前面几个词都表示成一个低维的向量
2、然后再把这个低维的向量拼在一起,形成一个更高维的上下文的向量
3、然后经过一个非线性的转换
4、最后就可以用这个向量来预测下一个词到底是什么
所有词的向量,以及整个预测的过程,都是基于神经网络的可调节可学习参数来完成,因此可以利用大规模数据来学习这些向量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。