Gausst松鼠会

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

自然语言处理与文本表示_在nlp中离散和连续

作者：Gausst松鼠会 | 2024-06-15 02:44:37

赞

踩

在nlp中离散和连续

自然语言处理与文本表示

一.NLP常见任务：
二.NLP处理方法
三.词编码需要保证词的相似性
四.词向量发展历程
五 word2vec：CBOW（连续词袋）

一.NLP常见任务：

在这里插入图片描述

二.NLP处理方法

（1）传统：基于规则
（2）现在：基于统计机器学习：HMM，CRF，SVM，LDA，CNN…，规则隐含在模型参数中。

三.词编码需要保证词的相似性

在这里插入图片描述
（1）简单词/短语翻译
向量空间分布的相似性

（2）向量空间子结构

四.词向量发展历程

在这里插入图片描述

1.离散表示：One-hot编码

在这里插入图片描述

2.离散表示：Bag of Words

在这里插入图片描述

3.离散表示：Bi-gram和N-gram

在这里插入图片描述

4.语言模型

在这里插入图片描述

5.离散表示的缺点

i.无法衡量词向量之间的关系
在这里插入图片描述
ii.词表维度随着语料库增长膨胀
iii.n-gram词序列随语料库膨胀更快
vi.数据稀疏问题

6.分布式表示

在这里插入图片描述

（1）共现矩阵

在这里插入图片描述

（2）共现矩阵问题

在这里插入图片描述

（3）NNLM

在这里插入图片描述

五 word2vec：CBOW（连续词袋）

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/720566

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号