当前位置:   article > 正文

gensim 快速入门 Word2Vec_gensim word2vec

gensim word2vec

gensim的核心概念

  1. Document: 文档。可以是一个一句话,或者一段话
  2. Corpus: 文档的集合
  3. Vector: 文档向量。将文档通过数学向量表示。
  4. Model: 模型。将文档转换为向量的模型。将文档转换为向量并不是直接用死算法转的,和机器学习一样,首先是训练模型,然后用训练好的模型将文档转为向量。
import gensim
  • 1
gensim.__version__
  • 1
'4.0.1'
  • 1

Word2Vec简介

建议看这篇文章:https://zhuanlan.zhihu.com/p/26306795/

简单点说,word2vec就是将一个单词映射成一个高维向量,例如google训练的word2vec模型将man这个单词映射成一个300维的向量。

这么做的好处有:

  1. 将文本数字化,可以用于计算,比如计算man和woman两个单词的距离
  2. 可以计算单词之间的相似程度

Word2Vec初试探

word2vec是一个需要训练的模型,官方提供了训练好的模型供人们玩。

下载这个文件,然后将其放在当前目录下

链接:https://pan.baidu.com/s/1Y5no1IDg6qtCwolOQVV_8A 
提取码:at9e 
  • 1
  • 2

加载模型:

wv = gensim.models.KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin.gz", binary=True) # wv = word2vec
  • 1

如果上面这句报错,请参考这篇文章:https://stackoverflow.com/questions/57507832/unable-to-allocate-array-with-shape-and-data-type

wv就是加载好的模型,可以很方便的使用模型获取单词的向量

vec_king = wv['king']
vec_king.shape
  • 1
  • 2
(300,)
  • 1

可以看出,king这个单词是一个300维度的向量

如果传递了一个不在词库中的单词,则会报错

try:
    vec_cameroon = wv['huluanxiede']
except KeyError:
    print("The word 'cameroon' does not appear in this model")
  • 1
  • 2
  • 3
  • 4
The word 'cameroon' does not appear in this model
  • 1

计算两个单词的相似度:

wv.similarity('man', 'woman')  # 两个单词相似度很高
  • 1
0.76640123
  • 1
wv.similarity('woman', 'hello')  # 两个单词没什么关系,相似度很低
  • 1
0.105804786
  • 1

查询单词的最相似的5个单词

wv.most_similar(positive=['man'], topn=5)
  • 1
[('woman', 0.7664012908935547),
 ('boy', 0.6824870705604553),
 ('teenager', 0.6586930751800537),
 ('teenage_girl', 0.6147903203964233),
 ('girl', 0.5921714305877686)]
  • 1
  • 2
  • 3
  • 4
  • 5

将单词可视化

定义一些动物和颜色的单词:

animals = ['dog', 'cat', 'panda', 'elephant', 'tiger', 'lion', 'monkey', 'koala']
colors = ['black', 'blue', 'green', 'purple', 'yellow', 'red', 'pink', 'orange']
cars = ['bicycle', 'bus', 'bike', 'motor', 'plane', 'ship', 'car']
  • 1
  • 2
  • 3

将上述单词转为300维的向量:

animals_vec = wv[animals]
colors_vec = wv[colors]
cars_vec = wv[cars]
  • 1
  • 2
  • 3

使用sklearn的PCA库,对数据进行降维:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pca.fit(animals_vec)
animals_vec = pca.transform(animals_vec)

pca.fit(colors_vec)
colors_vec = pca.transform(colors_vec)

pca.fit(cars_vec)
cars_vec = pca.transform(cars_vec)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

将上述点绘制成图像:

import matplotlib.pyplot as plt

plt.scatter(animals_vec[:, 0], animals_vec[:, 1], marker='o')
plt.scatter(colors_vec[:, 0], colors_vec[:, 1], marker='x')
plt.scatter(cars_vec[:, 0], cars_vec[:, 1], marker='+')
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

从上图可以看出,比较相似的单词距离较近(虽然降维后不太明显)。

训练自己的Word2Vec模型

sentences = [
    ['I', 'like', 'dog'],
    ['I', 'like', 'cat'],
    ['I', 'go', 'to', 'school', 'by', 'bus'],
    ['I', 'go', 'to', 'work', 'by', 'subway'],
]  # 分好词的句子
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
"""
vector_size: 要将单词转化为多少维的向量
min_count: 当语料库中某个单词出现的次数小于min_count时,忽略该单词
window: 训练时,会考虑该单词的上下文。window表示考虑几个单词。一般情况下,该值越大,训练耗时越长,效果越好。
"""
model = gensim.models.Word2Vec(sentences=sentences, vector_size=10, min_count=1, window=2)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
model.wv['dog'] # 获取dog单词的词向量
  • 1
array([-0.08619688,  0.03665738,  0.05189884,  0.05741937,  0.07466917,
       -0.06167676,  0.01105614,  0.06047282, -0.02840052, -0.06173522],
      dtype=float32)
  • 1
  • 2
  • 3
print("dog和cat的相似度:", wv.similarity('dog', 'cat'))
print("bus和subway的相似度:", wv.similarity('bus', 'subway'))
print("dog和bus的相似度:", wv.similarity('dog', 'bus'))
  • 1
  • 2
  • 3
dog和cat的相似度: 0.7609457
bus和subway的相似度: 0.4529537
dog和bus的相似度: 0.16011381
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/881863
推荐阅读
  

闽ICP备14008679号