文本数据分析——主题提取+词向量化_文本分段主题提取

作者：繁依Fanyi0 | 2024-04-02 19:23:38

踩

文本分段主题提取

使用Python 进行简单文本类数据分析，包括：
1. 分词
2. 生成语料库，tfidf加权
3. lda主题提取模型
4. 词向量化word2vec
参考：
http://zhuanlan.zhihu.com/textmining-experience/1963076

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import MySQLdb
import pandas as pd
import pandas.io.sql as sql
import jieba
import nltk
import jieba.posseg as pseg
from gensim import corpora, models, similarities
import re
1
2
3
4
5
6
7
8
9
10

# import logging
# logging.basicConfig(format&#61;&#39;%(asctime)s: %(levelname)s: %(message)s&#39;,level&#61;logging.INGO)

# reload(sys)
# sys.setdefaultencoding(&#39;utf-8&#39;)
1
2
3
4
5

if name == 'main':
#用户词典导入
jieba.load_user

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/353444

文本数据分析——主题提取+词向量化_文本分段 主题提取

文本数据分析——主题提取+词向量化_文本分段主题提取