python文本向量化对比词的相似度_文本越长,向量化对比越不准确

作者：小舞很执着 | 2024-07-25 09:40:02

踩

文本越长,向量化对比越不准确

文本向量化

创建一个目录，并创建`data`文件夹

安装依赖

pip install gensim
1

下载数据集

数据集大概1.2G，下载完成后放在data文件夹下

数据预处理

创建数据预处理文件

data_pre_process.py

# -*- coding: utf-8 -*-
from gensim.corpora import WikiCorpus
import jieba
from langconv import *

def my_function():
    space = ' '
    i = 0
    l = []
    zhwiki_name = './data/zhwiki-latest-pages-articles.xml.bz2'
    f = open('./data/reduce_zhiwiki.txt', 'w')
    wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={
   })
    for text in1
2
3
4
5
6
7
8
9
10
11
12
13

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/879578

python文本向量化对比词的相似度_文本越长,向量化对比越不准确

文本向量化

创建一个目录，并创建data文件夹

安装依赖

下载数据集

数据预处理

创建数据预处理文件

创建一个目录，并创建`data`文件夹