文本情感分类（一）_基于情感词典的文本分类的流程

作者：知新_RL | 2024-04-27 11:08:49

踩

基于情感词典的文本分类的流程

基于情感词典的文本情感分类
古典文本分类的流程：
这里写图片描述

根据上图，我们可以通过以下几个步骤实现基于情感词典的文本情感分类：
1：预处理
2：分词
3：训练情感词典
4：判断。
以下主要分几个不追将上述上面的内容
一、文本的预处理
这部分的主要内容来自爬虫获取。
二、分词
选用结巴分词即可
三、载入情感词典
一般来说，词典是文本挖掘的最核心的部分，对于情感分类也不例外。情感词典主要分为四个部分：积极情感词典，消极情感词典，否定词典，以及程度副词词典。
这里写图片描述

四、文本情感分类
基于情感词典的文本分类比较机械化。简单起见，我们将每个积极情感词语赋予权重1，将每个消极情感词语赋予权重-1，并且假设情感满足线性叠加原理；然后我们将句子进行分词。如果句子分词后的词语向量包含相应的词语，就加上向前的权重，其中否定词和程度副词会有特殊的判别规则，否定词会导致权值反号，而程度副词则让权值加倍，最后，根据总权值的正负性来判断句子的情感，基本的算法如图：
这里写图片描述
这里用到了几个假设：假设一，我们假设了所有的积极词语，消极词语的权重都是相等的，这只是简单的判断情况下成立，更精准的分类显然不成立，假设二、我们假设了权值是线性叠加的，这在多数情况下都会成立，但是也是有非线性的存在，以增加准确性，假设三、对否定词和程度副词的处理，都仅仅是作了简单的取反和加倍，而事实上，各个否定词和程度副词的权值也是不一样的，比如非常喜欢和挺喜欢，但我们对此并没有区分。

语言系统是相当复杂的
归根到底，这是因为我们大脑中的语言系统是相当复杂的，1、一个句子并不适合词语的简单线性组合，它是有相当复杂的非线性在里面。2、我们在描述一个句子时，都是讲句子作为一个整体而不是词语的集合看待的，词语的不同组合、不同顺序、不同数据都能够带来不同的含义和情感，这导致了文本情感分类的困难。

优化思路：
1：非线性的引入
2：情感词典的扩充

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/496416