当前位置:   article > 正文

python文本向量化对比词的相似度_文本越长,向量化对比越不准确

文本越长,向量化对比越不准确

文本向量化

创建一个目录,并创建data文件夹

安装依赖

pip install gensim
  • 1

下载数据集

数据集大概1.2G,下载完成后放在data文件夹下

数据预处理

创建数据预处理文件

data_pre_process.py

# -*- coding: utf-8 -*-
from gensim.corpora import WikiCorpus
import jieba
from langconv import *

def my_function():
    space = ' '
    i = 0
    l = []
    zhwiki_name = './data/zhwiki-latest-pages-articles.xml.bz2'
    f = open('./data/reduce_zhiwiki.txt', 'w')
    wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={
   })
    for text in
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/879578
推荐阅读
相关标签
  

闽ICP备14008679号