当前位置:   article > 正文

python数据分析之利用多种机器学习方法实现文本分类、情感预测_python文本分析_对给定数据集进行文本情感分析,输出文本情感分析预测结果

对给定数据集进行文本情感分析,输出文本情感分析预测结果

输出结果:

所有的网页已经下载到了本地,开始筛选信息。。。。
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成

eq?%5Cvdots

(2)部分数据展示
1 好好画画啦
2 求各专业大佬
3 欢迎报考北邮
4 话费充值需要dd
5 兼职有没有来的
6 在校大学生一枚
7 滴滴,喜欢的看过来
8 大学生进!!!
9 有什么快速挣钱的好方法?
10 大学,要挣米,来,???带一手
11 大学宿舍限电是普遍现象吗,一般限多少瓦
12 你们认为大学生打工,什么工作最好
13 家人们该不该
14 兼职介绍,有没有
15 稳稳的一天
16 创建一个资源共享群,亲们留下你们的微信,我拉你们进群
17 假期的小工作
18 寻说明书系统说明,撰写选手
19 加QQ!!!…
20 有兼职群吗

2、数据预处理

(1)中文分词

爬取到的评论,使用Python爬取了中文数据集之后,首先需要对数据集进行中文分词处理。由于英文中的词与词之间是采用空格关联的,按照空格可以直接划分词组,所以不需要进行分词处理,而中文汉字之间是紧密相连的,并且存在语义,词与词之间没有明显的分隔点,所以需要借助中文分词技术将语料中的句子按空格分割,变成一段段词序列。使用中文分词技术及Jiaba中文分词工具。

分词后的评论并不是所有的词都与文档内容相关,往往存在一些表意能力很差的辅助性词语,比如中文词组“我们”、“的”、“可以”等,英文词汇“a”、“the”等。这类词在自然语言处理或数据挖掘中被称为停用词(Stop Words),它们是需要进行过滤的。通常借用停用词表或停用词字典进行过滤,这里所用的停用词表可以在文末进行获取。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import networkx as nx

plt.rcParams[‘font.sans-serif’] = [‘KaiTi’]  #指定默认字体 SimHei黑体

plt.rcParams[‘axes.unicode_minus’] = False   #解决保存图像是负号’

import jieba

stop_list  = pd.read_csv(“停用词.txt”,index_col=False,quoting=3,sep=“\t”,names=[‘stopword’], encoding=‘utf-8’)

#Jieba分词函数

def txt_cut(juzi):

lis=[w for w in jieba.lcut(juzi) if w not in stop_list.values]

return (" ").join(lis)

df=pd.read_csv(‘E:/工作/硕士/data.csv’,encoding=“ANSI”)

df[‘cutword’]=df[‘PL’].astype(‘str’).apply(txt_cut)

df=df[[‘PL’,‘cutword’]]

df

输出结果:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/819351
推荐阅读
相关标签
  

闽ICP备14008679号