当前位置:   article > 正文

腾讯词向量资料集 Tencent_AILab_ChineseEmbedding.txt 快速载入方法

tencent_ailab_chineseembedding.txt

操作系统:Windows7

程序语言:Python3

系统内存:16G(自己加了个8G内存条)

腾讯的AI Lab开源大规模高质量中文词向量数据,拥有800多万中文词向量数据,解压之后的词向量.txt文件在Windows下显示为15.6G左右。虽然词向量集覆盖率和准确性都比较高,但是对于只拥有普通配置的机器设备,如何快速载入词向量文件到内存却是一个很棘手的问题。即使像我自己电脑内存已经加到16G了,但是要加载这个接近16G的txt文件仍然很费劲(毕竟你其他进程还会占用CPU和内存),时间花费也比较长(我之前试过单独用txt加载的话,至少需要半个小时左右),如果需要频繁进行加载的话,直接用txt加载这种方法就更加让人难以接受了。

普通加载方法:

  1. import gensim
  2. wv_from_text = gensim.models.KeyedVectors.load_word2vec_format('E:\ChineseEmbedding.txt', binary=False)

二进制文件加载方法:

第一次先花费比较长的时间使用普通加载方法,将词向量的txt文件加载到内存,并将加载的词向量save成二进制的.bin文件。之后如果需要加载词向量的时候,就直接从.bin文件加载词向量,这样加载速度会快一些:

初次加载:

  1. import gensim
  2. # txt的词向量集总共有八百多万数据,你可以添加limit参数对要加载的数据量进行限制,比如我这儿限制加载的数据量为四百万
  3. wv_from_text = gensim.models.KeyedVectors.load_word2vec_format('E:\ChineseEmbedding.txt', limit=4000000,
  4. binary=False)
  5. # 使用init_sims会比较省内存
  6. wv_from_text.init_sims(replace=True)
  7. # 重新保存加载变量为二进制形式
  8. wv_from_text.save(r"E:\ModelFolder\400million\ChineseEmbedding.bin")

当然,虽然看似只保存成了.bin文件,但实际上还伴随着一个ChineseEmbedding.bin.vectors.npy文件也一并产生在了与bin文件同目录位置,只不过程序中没有代码显式对这个文件进行处理。

再次加载:

  1. import gensim
  2. wv_from_text = gensim.models.KeyedVectors.load(r'E:\ModelFolder\400million\ChineseEmbedding.bin', mmap='r')

再次加载时,速度就会快很多了。当然,如果你内存还是不够,请将初次加载时对应的limit参数改小一些,改小以后的缺点也显而易见:那就是你输入的词语有可能在词向量集里面找不到,通过n-grams得到的词向量与词真实的词向量还有差距。

完整示例代码:

  1. import gensim
  2. import numpy as np
  3. import time
  4. import datetime
  5. found = 0
  6. def compute_ngrams(word, min_n, max_n):
  7. extended_word = word
  8. ngrams = []
  9. for ngram_length in range(min_n, min(len(extended_word), max_n) + 1):
  10. for i in range(0, len(extended_word) - ngram_length + 1):
  11. ngrams.append(extended_word[i:i + ngram_length])
  12. return list(set(ngrams))
  13. def word_vector(word, wv_from_text, min_n=1, max_n=3):
  14. # 确认词向量维度
  15. word_size = wv_from_text.wv.syn0[0].shape[0]
  16. # 计算word的ngrams词组
  17. ngrams = compute_ngrams(word, min_n=min_n, max_n=max_n)
  18. # 如果在词典之中,直接返回词向量
  19. if word in wv_from_text.index2word:
  20. global found
  21. found += 1
  22. return wv_from_text[word]
  23. else:
  24. # 不在词典的情况下,计算与词相近的词向量
  25. word_vec = np.zeros(word_size, dtype=np.float32)
  26. ngrams_found = 0
  27. ngrams_single = [ng for ng in ngrams if len(ng) == 1]
  28. ngrams_more = [ng for ng in ngrams if len(ng) > 1]
  29. # 先只接受2个单词长度以上的词向量
  30. for ngram in ngrams_more:
  31. if ngram in wv_from_text.index2word:
  32. word_vec += wv_from_text[ngram]
  33. ngrams_found += 1
  34. # print(ngram)
  35. # 如果,没有匹配到,那么最后是考虑单个词向量
  36. if ngrams_found == 0:
  37. for ngram in ngrams_single:
  38. if ngram in wv_from_text.index2word:
  39. word_vec += wv_from_text[ngram]
  40. ngrams_found += 1
  41. if word_vec.any(): # 只要有一个不为0
  42. return word_vec / max(1, ngrams_found)
  43. else:
  44. print('all ngrams for word %s absent from model' % word)
  45. return 0
  46. if __name__ == '__main__':
  47. print("开始载入文件...")
  48. print("Now:", datetime.datetime.now())
  49. t1 = time.time()
  50. # wv_from_text = gensim.models.KeyedVectors.load_word2vec_format('E:\ChineseEmbedding.txt', limit=4000000,
  51. # binary=False)
  52. # wv_from_text.init_sims(replace=True)
  53. # wv_from_text.save(r"E:\ModelFolder\400million\ChineseEmbedding.bin")
  54. wv_from_text = gensim.models.KeyedVectors.load(r'E:\ModelFolder\400million\ChineseEmbedding.bin', mmap='r')
  55. print("文件载入完毕")
  56. # print(wv_from_text.index2word)
  57. print("文件载入耗费时间:", (time.time() - t1) / 60, "minutes")
  58. # result_list = open_file("keyword.txt")
  59. print("获取关键词列表")
  60. input_text = "苹果,原装,手机"
  61. result_list = input_text.split(",")
  62. words_length = len(result_list)
  63. print(result_list)
  64. for keyword in result_list:
  65. vec = word_vector(keyword, wv_from_text, min_n=1, max_n=3) # 词向量获取
  66. if vec is 0:
  67. continue
  68. # print("获取的词向量:", vec)
  69. similar_word = wv_from_text.most_similar(positive=[vec], topn=15) # 相似词查找
  70. result_word = [x[0] for x in similar_word]
  71. print(result_word)
  72. print("词库覆盖比例:", found, "/", words_length)
  73. print("词库覆盖百分比:", 100 * found / words_length, "%")
  74. print("整个推荐过程耗费时间:", (time.time() - t1) / 60, "minutes")

示例运行结果:

  1. "D:\Program Files\Python36\python3.exe" D:/MyProject/Python/Voice_SDK/keyword_suggest.py
  2. 开始载入文件...
  3. Now: 2019-09-16 09:46:18.202184
  4. 文件载入完毕
  5. 文件载入耗费时间: 0.23160649140675862 minutes
  6. 获取关键词列表
  7. ['苹果', '原装', '手机']
  8. ['苹果', '苹果公司', '以及苹果', '比如苹果', '苹果新', '其他苹果', 'iphone', '苹果iphone', '苹果的iphone', 'apple', '苹果产品', '像苹果', '小米', '关于苹果', 'iphone产品']
  9. ['原装', '原厂', '原装正品', '原装配件', '原装产品', '进口原装', '原装进口', '正品', '原装货', '原厂出品', '原厂货', '正品原装', '原厂原装', '原配件', '日本原装']
  10. ['手机', '手机手机', '智能手机', '手机中', '新手机', '两部手机', '手机……', '好手机', '部手机', '你的手机', '手机屏幕', '把手机', '小手机', '一个手机', '平板电脑']
  11. 词库覆盖比例: 3 / 3
  12. 词库覆盖百分比: 100.0 %
  13. 整个推荐过程耗费时间: 0.3815381487210592 minutes
  14. Process finished with exit code 0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/327388
推荐阅读
相关标签
  

闽ICP备14008679号