赞
踩
该方法假设文本中词汇的出现顺序并不重要,而只关注词汇的频率。因此,可以将每个单词看作独立的特征,并构建一个基于词频的向量来表示整个文档。
在Python中,可以使用sklearn库的CountVectorizer类实现词袋模型:
from sklearn.feature_extraction.text import CountVectorizer
定义一组文本
corpus= ['This is the first document.',
'This is the second document.',
'This is the third document.']
构建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())
注:当然词袋模型模型也分多中类型,如是否包含出现的次数?等等
与词袋模型相比,TF-IDF模型考虑了单词在整个语料库中的稀缺性,以及在特定文档中的频率。因此,它可以更好地反映单词在文档中的重要性。
在Python中,可以使用sklearn库的TfidfVectorizer类实现TF-IDF模型:具体的参考TF-IDF算法介绍.md
from sklearn.feature_extraction.text import TfidfVectorizer
定义一组文本
corpus = ['This is the first document.',
'This is the second document.',
'This is the third document.']
构建TF-IDF模型
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())
该模型通过学习单词之间的语义关系来生成词向量。具体来说,Word2Vec模型分为两种训练方式:CBOW(Continuous Bag-of-Words)和Skip-gram。
在Python中,可以使用gensim库实现Word2Vec模型:
from gensim.models import Word2Vec
定义一组句子
sentences = [['this', 'is', 'the', 'first', 'sentence', '.'],
['this', 'is', 'the', 'second', 'sentence', '.'],
['this', 'is', 'the', 'third', 'sentence', '.']]
训练Word2Vec模型 词向量
model = Word2Vec(sentences, min_count=1, size=5)
print(model.wv['sentence'])
将词向量变成句向量的
Word2Vec模型可以通过两种方式来生成句向量:
平均池化(Average Pooling):将句子中所有单词的词向量求平均值作为句向量表示。这种方法简单易用,但是可能会忽略单词之间的顺序关系和语义信息。
加权平均池化(Weighted Average Pooling):根据每个单词在句子中的重要性给它们的词向量赋予不同的权重,并将加权后的词向量进行平均池化。这种方法可以更好地反映句子中单词的重要性和顺序关系,因此通常效果更好。
下面是一个使用Word2Vec模型生成句向量的示例代码:
from gensim.models import Word2Vec
定义一组句子
sentences = [['this', 'is', 'the', 'first', 'sentence', '.'],
['this', 'is', 'the', 'second', 'sentence', '.'],
['this', 'is', 'the', 'third', 'sentence', '.']]
训练Word2Vec模型
model = Word2Vec(sentences, size=5, window=2, min_count=1, workers=4, sg=1)
平均池化
avg_vector = sum([model.wv[word] for word in sentence]) / len(sentence)
print(avg_vector)
加权平均池化
weighted_vectors = [(model.wv[word], 0.5) for word in sentence]
weighted_avg_vector = sum([vector * weight for vector, weight in weighted_vectors]) / sum([weight for _, weight in weighted_vectors])
print(weighted_avg_vector)
该模型对文档进行建模,将整个文档表示为一个向量。与Word2Vec模型类似,Doc2Vec模型也分为两种训练方式:PV-DM(distributed memory model of paragraph vectors)和PV-DBOW(distributed bag of words version of paragraph vectors)。
在Python中,可以使用gensim库实现Doc2Vec模型:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
定义一组文档
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(
['This is the first document.',
'This is the second document.',
'This is the third document.'])]
训练Doc2Vec模型
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4, epochs=100)
print(model.docvecs[0])
该模型是对Word2Vec模型的扩展,可以处理单词中的子词信息。具体来说,FastText模型将每个单词表示为其所有可能的子串的平均值,并使用这些子串的向量来生成单词向量。
在python中,可以使用gensim库实现FastText模型:
from gensim.models.fasttext import FastText
定义一组句子
sentences = [['this', 'is', 'the', 'first', 'sentence', '.'],
['this', 'is', 'the', 'second', 'sentence', '.'],
['this', 'is', 'the', 'third', 'sentence', '.']]
训练FastText模型
model = FastText(sentences, size=5, window=2, min_count=1, workers=4, sg=1)
print(model.wv['sentence'])
注:也可以使用FastText模型实现文本分类;
from gensim.models import FastText
from gensim.test.utils import common_texts, get_tmpfile
训练FastText模型
model = FastText(common_texts, size=4, window=3, min_count=1, iter=10)
对测试集进行预测
test_data = ['this is a positive sentence', 'this is a negative sentence']
for text in test_data:
predicted_label = model.wv.most_similar(text)[0][0]
print('predicted label:', predicted_label)
该模型是由Google提出的一种用于生成句向量的神经网络模型。它使用Transformer架构来对输入句子进行编码,并生成一个512维的向量表示。
在Python中,可以使用TensorFlow Hub库调用Universal Sentence Encoder模型:
import tensorflow_hub as hub
import tensorflow_text
加载Universal Sentence Encoder模型
module_url = "https://tfhub.dev/google/universal-sentence-encoder-multilingual/3"
model = hub.load(module_url)
生成句向量
sentences = ["This is the first sentence.", "This is the second sentence.", "This is the third sentence."]
embeddings = model(sentences)
print(embeddings)
其他大模型的编码方式流程和上面代码过程相似,导入模型—实现编码;大模型的来源可以是huggingface、paddlepaddle、Openai等等;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。