python数据分析之利用多种机器学习方法实现文本分类、情感预测_python文本分析_对给定数据集进行文本情感分析,输出文本情感分析预测结果

作者：小惠珠哦 | 2024-07-13 12:07:08

踩

对给定数据集进行文本情感分析,输出文本情感分析预测结果

输出结果：

所有的网页已经下载到了本地，开始筛选信息。。。。
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成

$eq?%5Cvdots$

（2）部分数据展示


1	好好画画啦
2	求各专业大佬
3	欢迎报考北邮
4	话费充值需要dd
5	兼职有没有来的
6	在校大学生一枚
7	滴滴，喜欢的看过来
8	大学生进！！！
9	有什么快速挣钱的好方法？
10	大学，要挣米，来，???带一手
11	大学宿舍限电是普遍现象吗，一般限多少瓦
12	你们认为大学生打工，什么工作最好
13	家人们该不该
14	兼职介绍，有没有
15	稳稳的一天
16	创建一个资源共享群，亲们留下你们的微信，我拉你们进群
17	假期的小工作
18	寻说明书系统说明，撰写选手
19	加QQ！！！…
20	有兼职群吗

2、数据预处理

（1）中文分词

爬取到的评论，使用Python爬取了中文数据集之后，首先需要对数据集进行中文分词处理。由于英文中的词与词之间是采用空格关联的，按照空格可以直接划分词组，所以不需要进行分词处理，而中文汉字之间是紧密相连的，并且存在语义，词与词之间没有明显的分隔点，所以需要借助中文分词技术将语料中的句子按空格分割，变成一段段词序列。使用中文分词技术及Jiaba中文分词工具。

分词后的评论并不是所有的词都与文档内容相关，往往存在一些表意能力很差的辅助性词语，比如中文词组“我们”、“的”、“可以”等，英文词汇“a”、“the”等。这类词在自然语言处理或数据挖掘中被称为停用词（Stop Words），它们是需要进行过滤的。通常借用停用词表或停用词字典进行过滤，这里所用的停用词表可以在文末进行获取。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import networkx as nx

plt.rcParams[‘font.sans-serif’] = [‘KaiTi’] #指定默认字体 SimHei黑体

plt.rcParams[‘axes.unicode_minus’] = False #解决保存图像是负号’

import jieba

stop_list = pd.read_csv(“停用词.txt”,index_col=False,quoting=3,sep=“\t”,names=[‘stopword’], encoding=‘utf-8’)

#Jieba分词函数

def txt_cut(juzi):

lis=[w for w in jieba.lcut(juzi) if w not in stop_list.values]

return (" ").join(lis)

df=pd.read_csv(‘E:/工作/硕士/data.csv’,encoding=“ANSI”)

df[‘cutword’]=df[‘PL’].astype(‘str’).apply(txt_cut)

df=df[[‘PL’,‘cutword’]]

df

输出结果：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/819351