当前位置:   article > 正文

Python gensim库使用word2vec 加载和保存模型_python doc2vec模型保存

python doc2vec模型保存

1. 训练模型

读取训练数据并使用jieba分词,可以准备自己想要训练的语料,

  1. import os
  2. import jieba
  3. # 读取训练数据
  4. pos_file_list = os.listdir('data/pos')
  5. neg_file_list = os.listdir('data/neg')
  6. pos_file_list = [f'data/pos/{x}' for x in pos_file_list]
  7. neg_file_list = [f'data/neg/{x}' for x in neg_file_list]
  8. pos_neg_file_list = pos_file_list + neg_file_list
  9. # 分词
  10. for file in pos_neg_file_list:
  11. with open(file, 'r', encoding='utf-8') as f:
  12. text = f.read().strip() # 去读文件,并去除空格
  13. text_cut = jieba.cut(text) # 使用jieba进行分词
  14. result = ' '.join(text_cut) # 把分词结果用空格组成字符串
  15. with open('test.txt', 'a', encoding='utf-8') as fw:
  16. fw.write(result) # 把分好的词写入到新的文件里面
  17. pass
  18. pass
  19. pass

准备好分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文文,而上下文有可能就是停用词。因此对于word2vec,我们可以不用去停用词

现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件,然后套用word2vec的模型

读取分好的词,进行训练

  1. from gensim.models import word2vec
  2. sentences = word2vec.LineSentence('test.txt')
  3. model = word2vec.Word2Vec(sentences, hs=1, min_count=1, window=3, size=100)

2. 加载和保存模型

gensim生成的模型有三种:
第一种是 默认的model文件(可以继续 进行tuning)
第二种是bin文件(c风格)
第三种是 txt文件(比较大)
from gensim.models import Word2Vec

  1. # 第一种
  2. model = Word2Vec.load(word2vec.model) 
  3. model.save('word2vec.model')
  4. # 第二种
  5. model = gensim.models.KeyedVectors.load_word2vec_format('word2vec.bin',binary=True)
  6. model.wv.save_word2vec_format('word2vec.bin')
  7. # 第三种
  8. gensim.models.KeyedVectors.load_word2vec_format('word2vec.txt',binary=False)
  9. model.wv.save_word2vec_format('word2vec.txt')



3.使用

  • 找出某一个词向量最相近的词集合
  • 查看两个词的相近程度
  • 找出不同类的词
  • 查看某个词的向量

参考连接:

使用 gensim 训练词向量_a857553315的博客-CSDN博客

gensim库word2vec使用 - hziwei - 博客园

python实现gensim.word2vec模型训练实例_WxyangID的博客-CSDN博客_python word2vec 模型
 

Python gensim库使用word2vec 加载和保存模型、在预训练基础上训练自己的预料_sinat_28375239的博客-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/344174
推荐阅读
相关标签
  

闽ICP备14008679号