4-4 词嵌入技术（word2vec）

作者：Li_阴宅 | 2024-08-12 03:39:09

踩

词嵌入技术

4-4 词嵌入技术（word2vec）

词嵌入技术（word2vec）是自然语言处理（NLP）中的一种关键技术，通过将词语映射到低维向量空间中，使得计算机能够理解和处理语言中的语义信息。词嵌入不仅可以用于文本分类、情感分析等任务，还在机器翻译、对话系统等领域发挥着重要作用。本文将深入探讨词嵌入技术，尤其是word2vec的原理与应用，并提供丰富的Python代码示例，帮助读者更好地理解这一技术。

词嵌入的基本概念

什么是词嵌入？

词嵌入（Word Embedding）是一种将词语表示为实数向量的技术。传统的词表示方法，如one-hot编码，将每个词表示为一个高维的稀疏向量，这种表示方法无法捕捉词语之间的语义关系。而词嵌入通过将词语映射到一个低维的连续向量空间，使得语义相似的词在向量空间中的距离更近，从而更好地捕捉词语之间的关系。

word2vec的基本原理

word2vec是由Mikolov等人在2013年提出的一种词嵌入模型，主要包括两种模型结构：连续词袋模型（CBOW）和Skip-gram模型。

CBOW（Continuous Bag of Words）：通过上下文词语预测中心词。例如，在句子“我喜欢自然语言处理”中，利用“我”和“自然语言处理”来预测“喜欢”。
Skip-gram：通过中心词预测上下文词语。例如，在句子“我喜欢自然语言处理”中，利用“喜欢”来预测“我”和“自然语言处理”。

词嵌入的优点

低维表示：词嵌入将高维的稀疏向量表示转换为低维的稠密向量表示，降低了计算复杂度。
语义捕捉：词嵌入能够捕捉词语之间的语义关系，相似的词语在向量空间中距离更近。
迁移学习：预训练的词嵌入模型可以在不同的任务中迁移使用，提高模型的性能和稳定性。

word2vec的实现与应用

下面我们将通过Python代码示例，演示如何使用word2vec进行词嵌入训练和应用。

安装必要的库

首先，我们需要安装gensim库，这是一个用于主题建模和文档相似性分析的Python库，支持word2vec模型。

pip install gensim
1

准备数据

我们以中文文本数据为例，准备一份简单的语料库。

import jieba

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]
1
2
3
4
5
6
7
8
9
10
11
12
13

训练word2vec模型

使用gensim库训练word2vec模型。

from gensim.models import Word2Vec

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 保存模型
model.save("word2vec.model")
1
2
3
4
5
6
7

使用训练好的模型

我们可以使用训练好的word2vec模型来进行词语相似度计算、寻找相似词语等操作。

# 加载模型
model = Word2Vec.load("word2vec.model")

# 计算两个词语的相似度
similarity = model.wv.similarity("自然语言", "人工智能")
print(f"‘自然语言’与‘人工智能’的相似度为：{similarity}")


1
2
3
4
5
6
7
8

在这里插入图片描述

可视化词向量

为了更直观地理解词嵌入的效果，我们可以使用t-SNE算法对高维词向量进行降维，并进行可视化。

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import jieba
from gensim.models import Word2Vec

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 获取词向量
words = list(model.wv.index_to_key)
word_vectors = model.wv[words]

# 使用t-SNE降维
tsne = TSNE(n_components=2, perplexity=2)
word_vectors_2d = tsne.fit_transform(word_vectors)

# 绘制词向量图
plt.figure(figsize=(12, 8))
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])

for i, word in enumerate(words):
    plt.annotate(word, xy=(word_vectors_2d[i, 0], word_vectors_2d[i, 1]))

plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

在这里插入图片描述

word2vec的高级应用

1. 文本分类

词嵌入在文本分类中有广泛的应用。通过将文本表示为词向量的平均值或其他聚合方式，可以有效地进行文本分类任务。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import jieba
import numpy as np
from gensim.models import Word2Vec
# 示例文本数据及标签
texts = ["我喜欢自然语言处理", "自然语言处理是人工智能的一个分支", "机器学习是自然语言处理的重要组成部分", "我们可以使用word2vec来训练词向量", "词嵌入技术在文本分类中非常有用"]
labels = [1, 1, 1, 0, 0]
model = Word2Vec.load("word2vec.model")
# 分词
tokenized_texts = [list(jieba.cut(text)) for text in texts]

# 计算每个文本的平均词向量
def average_vector(tokens):
    vector = np.zeros(model.vector_size)
    count = 0
    for token in tokens:
        if token in model.wv:
            vector += model.wv[token]
            count += 1
    if count > 0:
        vector /= count
    return vector

text_vectors = np.array([average_vector(tokens) for tokens in tokenized_texts])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(text_vectors, labels, test_size=0.2, random_state=42)

# 训练分类模型
classifier = RandomForestClassifier(n_estimators=100)
classifier.fit(X_train, y_train)

# 预测
y_pred = classifier.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
y_test_str = ''.join(map(str, y_test))
y_pred_str = ''.join(map(str, y_pred))


print("真实值:" + y_test_str)
print("预测值:" + y_pred_str)
print(f"文本分类准确率：{accuracy*100}%S")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

在这里插入图片描述

2. 语义相似度计算

word2vec模型可以用于计算短文本之间的语义相似度，这在问答系统、推荐系统中非常有用。

import jieba
from gensim.models import Word2Vec
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 示例短文本数据
text1 = "我喜欢自然语言处理"
text2 = "自然语言处理是人工智能的一个分支"

# 分词
tokens1 = list(jieba.cut(text1))
tokens2 = list(jieba.cut(text2))

# 计算每个文本的平均词向量
def average_vector(tokens):
    vector = np.zeros(model.vector_size)
    count = 0
    for token in tokens:
        if token in model.wv:
            vector += model.wv[token]
            count += 1
    if count > 0:
        vector /= count
    return vector

vector1 = average_vector(tokens1)
vector2 = average_vector(tokens2)

# 计算余弦相似度
similarity = cosine_similarity([vector1], [vector2])[0][0]
print(f"‘{text1}’与‘{text2}’的相似度为：{similarity}")

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/967501