当前位置:   article > 正文

文本数据分析——主题提取+词向量化_文本分段 主题提取

文本分段 主题提取

使用Python 进行简单文本类数据分析,包括:
1. 分词
2. 生成语料库,tfidf加权
3. lda主题提取模型
4. 词向量化word2vec
参考:
http://zhuanlan.zhihu.com/textmining-experience/1963076

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import MySQLdb
import pandas as pd
import pandas.io.sql as sql
import jieba
import nltk
import jieba.posseg as pseg
from gensim import corpora, models, similarities
import re
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
# import logging
# logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s',level=logging.INGO)

# reload(sys)
# sys.setdefaultencoding('utf-8')
  • 1
  • 2
  • 3
  • 4
  • 5

if name == 'main':
#用户词典导入
jieba.load_user

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/353444
推荐阅读
相关标签
  

闽ICP备14008679号