当前位置:   article > 正文

中文情感分析之TextCNN_中文textcnn

中文textcnn


​最近接了个业务需求,需要对论坛发帖进行情感分析,以便于对恶意发帖的行为进行审核治理。在此对情感分析方法进行一个总结,并重点介绍下文本分类基准模型TextCNN在中文情感分析中的实践应用。

综述

情感分析(Sentiment Analysis)是自然语言处理领域的一个重要的研究方向。它的目的是挖掘文本要表达的情感观点,对文本按情感倾向进行分类。

情感分析在工业领域有着广泛的应用场景。例如,电商网站根据商品评论数据提取评论标签,调整评论显示顺序;影评网站根据电影评论来评估电影口碑,预测电影是否卖座;外卖网站根据菜品口味、送达时间、菜品丰富度等用户情感指数来改进外卖服务等。
情感分析应用场景

情感分析方法

情感分析方法可以分为两大类:一是基于情感词典的方法,一是基于机器学习算法的方法。

基于情感词典的情感分析

基于情感词典的方法属于传统的情感分析方法,是对人的记忆和判断思维的最简单的模拟。直观来讲,它先通过学习来记忆一些基本词汇,从而在大脑中形成一个包含积极词汇、消极词汇、否定词、程度副词的情感词典。对输入的句子进行情感分析时,首先对句子进行分词,然后获取各个词在情感词典中的情感打分,最后将所有词的情感打分加起来得到句子的情感分。

基于上述思路,基于情感词典的方法的处理流程为:先对文本进行分词、去停用词等预处理,再利用预先构建好的情感词典,对文本进行字符串匹配,从而提取出文本所要表达的正面或负面信息。具体流程如下图所示。
基于情感词典的情感分析

从中可以看出,情感词典在整个情感分析过程中处于至关重要的地位,而要构建一个情感词典又是一项耗费精力的工作。目前的做法一般是采用开源的情感词典,如BosonNLP情感词典,它是从微博、新闻、论坛等数据来源的上百万篇情感标注数据中构建的情感极性词典。

基于情感词典的情感分析方法思路简单,可解释性强,通用性也比较好。但是该方法的不足之处是:

  1. 精度不高。语言是一个高度复杂的东西,采用简单的线性叠加会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确。
  2. 新词发现困难。对于新的情感词,词典不一定能覆盖到。如“陈独秀同学请坐下”,“同九义,何汝秀”等。
  3. 词典构建难。情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,构建一个适用于自己的应用场景的情感词典是一项复杂的工作。

因此,在进行情感分析时,我们更倾向于考虑使用具有精度高,通用性强,不需要情感词典的机器学习方法。

基于机器学习算法的情感分析

情感分析按不同的应用场景对应于不同类型的机器学习算法,如果要判断是正面还是负面,那就是机器学习中的二分类问题,如果要给商品评论打上标签就对应于机器学习中的多标签分类问题。由于多标签问题可以转化为二分类问题,因此本文仅讨论更基础的二分类问题。常见的用于分类的机器学习算法有朴素贝叶斯、逻辑回归、支持向量机、神经网络等。

近年来,随着深度学习技术的兴起,它的应用领域从最初的计算机视觉迅速扩展到语音识别和自然语言处理领域,并在各个领域都取得了突破性的进展。深度学习算法在多个算法竞赛中取得了state-of-the-art(当前最高水平),尤其是在大规模数据处理任务中,深度学习算法取得的性能优势相对于传统的特征+模型的机器学习方法大有碾压之势。因此本文重点介绍深度学习模型TextCNN在大规模文本分类任务上的应用,对于传统的机器学习方法的应用或小文本分类问题的处理过程在此不再赘述。

文本分类模型TextCNN

TextCNN模型由Yoon Kim在其2014年的论文Convolutional Neural Networks for Sentence Classification中提出。在该论文中,作者开创性地将源于计算机视觉领域的卷积神经网络CNN应用于NLP的文本分类任务中,提出了TextCNN模型,该模型在与多个benchmark方法的对比中取得了最好的结果,成为文本分类任务的重要baseli

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/354718
推荐阅读
相关标签
  

闽ICP备14008679号