赞
踩
情感分析(Sentiment Analysis)是自然语言处理领域的一个重要的研究方向。它的目的是挖掘文本要表达的情感观点,对文本按情感倾向进行分类。
情感分析在工业领域有着广泛的应用场景。例如,电商网站根据商品评论数据提取评论标签,调整评论显示顺序;影评网站根据电影评论来评估电影口碑,预测电影是否卖座;外卖网站根据菜品口味、送达时间、菜品丰富度等用户情感指数来改进外卖服务等。
情感分析方法可以分为两大类:一是基于情感词典的方法,一是基于机器学习算法的方法。
基于情感词典的方法属于传统的情感分析方法,是对人的记忆和判断思维的最简单的模拟。直观来讲,它先通过学习来记忆一些基本词汇,从而在大脑中形成一个包含积极词汇、消极词汇、否定词、程度副词的情感词典。对输入的句子进行情感分析时,首先对句子进行分词,然后获取各个词在情感词典中的情感打分,最后将所有词的情感打分加起来得到句子的情感分。
基于上述思路,基于情感词典的方法的处理流程为:先对文本进行分词、去停用词等预处理,再利用预先构建好的情感词典,对文本进行字符串匹配,从而提取出文本所要表达的正面或负面信息。具体流程如下图所示。
从中可以看出,情感词典在整个情感分析过程中处于至关重要的地位,而要构建一个情感词典又是一项耗费精力的工作。目前的做法一般是采用开源的情感词典,如BosonNLP情感词典,它是从微博、新闻、论坛等数据来源的上百万篇情感标注数据中构建的情感极性词典。
基于情感词典的情感分析方法思路简单,可解释性强,通用性也比较好。但是该方法的不足之处是:
因此,在进行情感分析时,我们更倾向于考虑使用具有精度高,通用性强,不需要情感词典的机器学习方法。
情感分析按不同的应用场景对应于不同类型的机器学习算法,如果要判断是正面还是负面,那就是机器学习中的二分类问题,如果要给商品评论打上标签就对应于机器学习中的多标签分类问题。由于多标签问题可以转化为二分类问题,因此本文仅讨论更基础的二分类问题。常见的用于分类的机器学习算法有朴素贝叶斯、逻辑回归、支持向量机、神经网络等。
近年来,随着深度学习技术的兴起,它的应用领域从最初的计算机视觉迅速扩展到语音识别和自然语言处理领域,并在各个领域都取得了突破性的进展。深度学习算法在多个算法竞赛中取得了state-of-the-art(当前最高水平),尤其是在大规模数据处理任务中,深度学习算法取得的性能优势相对于传统的特征+模型的机器学习方法大有碾压之势。因此本文重点介绍深度学习模型TextCNN在大规模文本分类任务上的应用,对于传统的机器学习方法的应用或小文本分类问题的处理过程在此不再赘述。
TextCNN模型由Yoon Kim在其2014年的论文Convolutional Neural Networks for Sentence Classification中提出。在该论文中,作者开创性地将源于计算机视觉领域的卷积神经网络CNN应用于NLP的文本分类任务中,提出了TextCNN模型,该模型在与多个benchmark方法的对比中取得了最好的结果,成为文本分类任务的重要baseli
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。