赞
踩
CountVectorizer是Python中sklearn机器学习库中的一个向量化工具,用于将文本数据转换为数值特征向量。下面是使用CountVectorizer的详细步骤:
1. 导入必要的库和数据
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
# 例子文本数据
data = ['This is the first sentence.', 'This is the second sentence.', 'This is the third sentence.']
2. 创建CountVectorizer对象
# 创建一个CountVectorizer对象
vectorizer = CountVectorizer()
3. 对数据进行向量化
# 将文本数据转换成特征向量
X = vectorizer.fit_transform(data)
# 将稀疏矩阵转换为密集矩阵
X = X.toarray()
在上述代码中,我们首先使用fit_transform()方法将文本数据转换为特征向量,然后使用toarray()方法将稀疏矩阵转换为密集矩阵。
4. 查看特征向量
# 查看特征向量
df = pd.DataFrame(X, columns=vectorizer.get_feature_names())
print(df)
在上述代码中,我们创建了一个Pandas数据框,并使用get_feature_names()方法获取特征名称,然后将特征向量添加到数据框中并进行打印。
<Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。