Pytorch学习笔记（3）—word2vec_pytorch word2vec.word2vec经验

作者：黑客灵魂 | 2024-06-25 07:55:10

踩

pytorch word2vec.word2vec经验

文章目录

前言
一、NPLM基本思想：无监督模型
二、步骤
三、word2vec
总结
引用

前言

在这里插入图片描述
如何去表达词汇呢？— “bag of words”（词袋模型）— 只看单词出现的频数

在这里插入图片描述
解决方法

总结：
将word转化成向量并存储，相关可以看我上一篇pytorch学习笔记之情绪分类器里面对one-hot的讲解，也可以访问以下文章来获取。

独热编码（One-Hot Encoding）
什么是one-hot编码，他有什么用？
数据预处理之One-Hot
机器学习之独热编码（One-Hot）详解（代码解释）

一、NPLM基本思想：无监督模型

在这里插入图片描述
构造了一个有监督的任务，解决了无监督的问题

N-gram语言模型
$s t e p 1 ：预处理文本$
$s t e p 2 ：滑动窗口$
$s t e p 3 ：训练做分类任务$
$...$
问题：
我们需要将词向量化，但是此时的任务却要将词直接输入。这就产生了矛盾
在这里插入图片描述
输入节点的个数等于单词表的大小，输出神经元的个数等于词向量的维度（通常为100），输入为one-hot编码，输出为D维向量（其实就是我们想要的（预测的）词向量），数值是稠密的向量（dense）

注：这里的灰箱子的权重是共享的，网络是线性的，这就意味着神经网络输出的结果就是词向量本身
在这里插入图片描述
我们的模型就是要进行一个分类，即多分类任务；多分类任务详解

表最开始都是随机赋值，通过迭代，利用梯度反传进行更新迭代生成新的表
一文读懂Embedding的概念，以及它和深度学习的关系
 embedding层和全连接层的区别是什么？
NLP中的Embedding方法总结
在这里插入图片描述

二、步骤

在这里插入图片描述
第一层为嵌入层：输入为ont-hot编码、输出为dense的
中间层：128dim
输出层：V的输出层

pip install jieba
# 看情感那个
1
2

建立词典，训练数据，此时 $w = 2$
在这里插入图片描述
torch中的class— Embedding

三、word2vec

在这里插入图片描述
问题：

罕见词的出现频率很小，得不到训练的机会，因此得到的输出的词向量就很不准确

word2vec解决的方法：

Hierarchical softmax(层次软最大)
Negative sampling (负采样)

可学习参数变成树的节点（黄色）叶节点白色
当更新一条路径的时候，就会将一串路径同时进行更新
Haffman编码：根据词出现的频率和大小进行编码
详解：
Haffman编码
Huffman 编码原理详解（代码示例）

原文：Mikolov, Tomas: et al. “Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781
如何下载？
输入doi：arXiv:1301.3781

参考：
图解Word2vec，读这一篇就够了（通俗易懂）
如何通俗理解Word2Vec
大白话讲解word2vec到底在做些什么
 word2vec基础（非常容易理解）

总结

源码：代码文章末尾
在这里插入图片描述

引用

1、独热编码（One-Hot Encoding）
2、什么是one-hot编码，他有什么用？
3、数据预处理之One-Hot
4、机器学习之独热编码（One-Hot）详解（代码解释）
5、one-hot基础讲解（自然语言入门）
6、一文读懂Embedding的概念，以及它和深度学习的关系
7、embedding层和全连接层的区别是什么？
8、NLP中的Embedding方法总结
9、图解Word2vec，读这一篇就够了（通俗易懂）
10、如何通俗理解Word2Vec
11、大白话讲解word2vec到底在做些什么
12、word2vec基础（非常容易理解）
13、Haffman编码
14、Huffman 编码原理详解（代码示例）

问题：在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/755560