当前位置:   article > 正文

自然语言处理与文本表示_在nlp中离散和连续

在nlp中离散和连续

一.NLP常见任务:

在这里插入图片描述

二.NLP处理方法

(1)传统:基于规则
(2)现在:基于统计机器学习:HMM,CRF,SVM,LDA,CNN…,规则隐含在模型参数中。

三.词编码需要保证词的相似性

在这里插入图片描述
(1)简单 词/短语翻译
向量空间分布的相似性
在这里插入图片描述
(2)向量空间子结构
在这里插入图片描述

四.词向量发展历程

在这里插入图片描述

1.离散表示:One-hot编码

在这里插入图片描述

2.离散表示:Bag of Words

在这里插入图片描述

3.离散表示:Bi-gram和N-gram

在这里插入图片描述

4.语言模型

在这里插入图片描述

5.离散表示的缺点

i.无法衡量词向量之间的关系
在这里插入图片描述
ii.词表维度随着语料库增长膨胀
iii.n-gram词序列随语料库膨胀更快
vi.数据稀疏问题

6.分布式表示

在这里插入图片描述
在这里插入图片描述

(1)共现矩阵

在这里插入图片描述
在这里插入图片描述

(2)共现矩阵问题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3)NNLM

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

word2vec:CBOW(连续词袋)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/720566
推荐阅读
相关标签
  

闽ICP备14008679号