当前位置:   article > 正文

sklearn文本特征预处理2:Similarity, 聚类, LDA, word2vec_sklearn中word2vec文本特征提取并分类预测

sklearn中word2vec文本特征提取并分类预测

接上一篇<sklearn文本特征预处理1: WordPunctTokenizer, CountVectorizer, TF-IDF>

五. Similarity特征

# 余弦相似度
from sklearn.metrics.pairwise import cosine_similarity

similarity_matrix = cosine_similarity(tv_matrix)
similarity_df = pd.DataFrame(similarity_matrix)
similarity_df
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

六. 聚类特征

from sklearn.cluster import KMeans

km = KMeans(n_clusters = 2)
km.fit_transform(similarity_df)
cluster_labels = km.labels_
cluster_labels = pd.DataFrame(cluster_labels, columns=['ClusterLabel'])
pd.concat
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号