当前位置:   article > 正文

python实现中文情感分析与可视化_python中文文本情感分析

python中文文本情感分析

 

目录

一、导入原始数据

 二、结巴分词/绘制词云图

 三、计算情感值,情感分析

         # 方法一、SnowNLP计算情感得分

# 方法二、使用字典计算情感得分

 四、# 数据可视化展示

五、绘制相关系数热力图 


一、导入原始数据

  1. #导入模块
  2. import pandas as pd
  3. import numpy as np
  4. from collections import defaultdict
  5. import os
  6. import re
  7. import jieba
  8. import codecs
  1. data=pd.read_csv("earphone_sentiment.csv",encoding='gbk')
  2. data.head()
content_id content subject sentiment_word sentiment_value
0 0 Silent Angel期待您的光临,共赏美好的声音! 其他 1
1 2 这只HD650在1k的失真左声道是右声道的6倍左右,也超出官方规格参数范围(0.05%),看... 其他 NaN 0
2 3 达音科 17周年 倒是数据最好看,而且便宜 配置 1
3 4 bose,beats,apple的消費者根本不知道有曲線的存在 其他 NaN 0
4 5 不错的数据 配置 不错 1
  1. #数据分组
  2. s1=data[data['sentiment_value'].values==1]
  3. s2=data[data['sentiment_value']==0]
  4. s3=data[data['sentiment_value']==-1]
  5. print(s3['content']) #输出其中一组数据
33       支持斑竹,标题不明了的话,有的时候根本就懒得进去看,起码我是这样的,别人我就不知道啦,呵呵~...
118                                                没有拜亚,差评
129      都有GDX2了,用PC直连的话,音源的质量堪忧,建议加USB隔离,比界面的效果明显多了,毕竟...
131                                                     蛋疼
142      这是我第一只大耳机不过不知道真货什么声,我是20买的仿货。仿货低频混沌但有魔幻风格,有包围感...
                               ...                        
16994    搓了根三芯卡侬母转四芯卡侬母的线接解码屁股,直接推耳机。发现没有耳放动态确实弱了不少,别的倒...
17020                                    差距很大,前提是你的系统揭示力足够
17057                                               大小差这么多
17080                 差距最明显的20hz低频也不过和原始数据相差2db左右,不值得大惊小怪。
17168                    我8005接s7都没觉得比自带耳机口差……最多就是提升不明显罢了。
Name: content, Length: 590, dtype: object

 二、结巴分词/绘制词云图

  1. with open('stop_word/HGD_StopWords.txt','r',encoding='utf-8') as f:
  2. stopwords=set([line.replace('\n','')for line in f])
  3. f.close()
  4. #加载用户自定义词典
  5. segs=data['content']
  6. def clean_data(content):
  7. words =' '
  8. for seg_text in content:
  9. seg_text=jieba.cut(seg_text)
  10. for seg in seg_text:
  11. if seg not in stopwords and seg!=" " and len(seg)!=1: # #文本清洗
  12. words = words + seg + ' '
  13. return words
  14. print(clean_data(s1['content']))

Silent Angel 期待 光临 共赏 美好 声音 达音科 17 周年 数据 好看 便宜 不错 数据 觉得 器材 级别 搭配 达到 线材 区别 一件 非常容易 事情 网页 手机 无法 退到 一层 希望 做好 版块 名称 显示 不全 问题 提交 软件 开发商 估计 还要 时间 入门 贴子 几个 不太 系统 建议 近期 整理 找些 资料 新手 东西 温故 可知 不错 DD 支持 顶一下 东西 树莓 能响 想出 好声 ZEN 比较 升级 直接 加个 can 就行 感受 解码 前级 PS1200 1200 解码 细节 拉满 声部 互无 关联 放到 前级 知道 前级 声音 影响 比较 比较 反正 声音 起来 目前 解码 机器 店家 所谓 国产 发烧 喜好 低端 耳机 建议 买太多 早晚 T1 800S 老路 参数 感有 很大 关系 是否 好听 绝对 关系 高价 名机 参数 就行了 参数 太低 考虑 参数 前排 好听 参数 前排 好听 我用 诗德 声音 不错 喜好 现在 看起来 简单 器材 好不好 感觉 参数 好坏 算了 最近 鼓吹 参数 绝口不提 起来 搞乱 思路 怀疑 这种 参数 图个 器材 离开 测试 仪器 分辨 能力 家里 零火 反接 最好 电笔 段时间 着迷 电源 补习 电源 相位 知识 插头 仔细检查 安置 治好 多年 颈椎病 推好 T1 
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号