赞
踩
一、数据获取
数据来源于github,文末会附数据来源链接。数据包含微博评论约12万条,其中正向评论、负向评论各约6万条。数据有label、review两个字段,其中label字段用于表示评论是否是正向评论,当取值为1时表示正向评论,取值为0时表示负向评论;review字段用于表示微博评论内容。
二、数据导入与探索
全文运用python作为数据处理、预测的工具。首先利用pandas库导入数据并观察一下前五行数据来看一下数据的大致情况:
import pandas as pddata=pd.read_csv(r'C:\Users\zhousiying\Desktop\weibo_senti_100k\weibo_senti_100k\weibo_senti_100k.csv')data.head()
所得到的结果如下:
然后看一下数据是否存在空值:
data.isnull().sum()
所得结果如下:
label 0 review 0 dtype: int64
结果表示数据集中不存在空值,因此不需要对空
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。