赞
踩
import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer # 读取处理后的数据 data = pd.read_excel('cleaned_Laos_news.xlsx') # 创建一个TF-IDF向量化器 tfidf_vectorizer = TfidfVectorizer(max_features=1000) # 选择前1000个最重要的词汇 # 将清洗后的文本进行向量化 tfidf_matrix = tfidf_vectorizer.fit_transform(data['cleaned_content']) # 将TF-IDF矩阵转换为DataFrame tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vectorizer.get_feature_names_out()) # 将TF-IDF特征保存到新的Excel文件 tfidf_output_path = 'tfidf_features.xlsx' tfidf_df.to_excel(tfidf_output_path, index=False)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。