当前位置:   article > 正文

自然语言处理NLP-Basics基础内容(1)_basic of nlp

basic of nlp

1.什么是自然语言处理

对人类的语言进行理解

1.1自然语言处理能做什么

(1)搜索引擎- 用户输入关键词--关键词自然语言处理--查找到合适的文档--查找合适的广告--质量排序page rank(分析网页结构-分析,数据挖掘需要做的)--

(2)图像结构化--将图片内容,NLP抽象出相关的结构化信息,用于构建只是图谱。

(3)机器阅读Machine Reading--利用图片转成 的 中间文本, 找到 多个知识节点之间的关系。

(4)个人语音助手

(5)语言翻译

(6)情感分析和意见挖掘--分析美国不同州,情绪的跌宕起伏。

2.分布的词表示Word Representation

把词转为一个机器能理解的表示。

2.1词表示相关方法

(1)词相似度 Star星星-Sun太阳  (2)词的关联关系 China-Beijing  Man-King   Quue-Woman

2.2 如何表示一个词

(1)最早:表示一个词,可以用一组相关词来表示一个词。隶属词、同义反义词等

缺点:需要人工进行标注,新词/情境下可能机器理解错误这个意思。

(2)热词向量,将词表中所有的词作为一个向量,0没有,1有。

缺点:任意两个词之间的相关性都是0.

(3)上下文表示法:跟据某个词上下文中出现的词频率进行表示

一个向量,每个元素-上下文的词出现的频次。

优点:能找到关联性。

缺点:依赖文本的上下文内容。

(4)分布式表示法Distributed Representation

构建一些低维度向量,将相关的词进行表示,进而表示某个词的意思。

学习方法:可以自己去网上找文本进行学习

代表方法:Word2Vec

3.语言模型是什么

跟据前边已经出现的词,预测下边词的能力。(人的基本能力)

3.1需要做的2个事情

(1)已知句子的合法概率:需要计算出,跟据已有的句子,与 前边存在的词, 计算出 已经学习过的句子成为一句 符合人类能理解句子的合法概率;

(2)预测下次的能力:跟据前边已经说的话,预测下一个词是什么

3.2语言模型的基本假设-马尔科夫假设

后边的词 取决于前边已有的词。

never too late to learn 这句话的概率

等于各个 词组合的联合概率  进行条件的相乘

3.3 N-Gram Model

跟据已有的机器学习材料,对后边的词 出现的概率进行统计。只会考虑相邻的词。

N-Gram Model:利用马尔科夫假设,我们用近似的learn 后间隔几个词 ,来近似代替多个词的 句子 的概率进行计算得出概率

N-Gram的缺点:

(1)N一般在2-3,没有特别长,不然结果会非常稀疏;

(2)无法计算相似度

4.Neural Language model 神经语言模型

神经语言模型是基于神经网络  学习 分布式词表达 的 语言模型。

(1)3步看图

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/1000670
推荐阅读
相关标签
  

闽ICP备14008679号