当前位置:   article > 正文

R语言自然语言处理(NLP):情感分析新闻文本数据_rnlp

rnlp

最近我们被客户要求撰写关于自然语言处理(NLP)的研究报告,包括一些图形和统计输出。

本文对R中的文本内容进行情感分析。此实现利用了各种现有的字典,此外,还可以创建自定义词典。自定义词典使用LASSO正则化作为一种​​统计方法来选择相关词语。最后,评估比较所有方法。

介绍

情感分析是自然语言处理(NLP),计算语言学和文本挖掘的核心研究分支。它是指从文本文档中提取主观信息的方法。换句话说,它提取表达意见的积极负面极性。人们也可能将情感分析称为 观点挖掘 (Pang and Lee 2008)。

相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59


研究中的应用

最近,情感分析受到了广泛的关注(K. Ravi和Ravi 2015; Pang和Lee 2008),我们将在下面进行探讨。当前在金融和社会科学领域的研究利用情感分析来理解人类根据文本材料做出的决策。这立即揭示了对从业者以及金融研究和社会科学领域的从业者的多种含义:研究人员可以使用R提取与读者相关的文本成分,并在此基础上检验其假设。同样,从业人员可以衡量哪种措辞对他们的读者而言实际上很重要,并相应地提高他们的写作水平(Pröllochs,Feuerriegel和Neumann 2015)。在下面的两个案例研究中,我们从金融和社会科学中论证了增加的收益。

应用

几个应用程序演示了情感分析在组织和企业中的用途:

  • 金融: 金融市场的投资者在行使股票所有权之前,会以金融新闻披露的形式参考文本信息。有趣的是,它们不仅依赖数据,而且还依赖信息,例如语气和情感(Henry 2008; Loughran和McDonald 2011; Tetlock 2007),从而极大地影响了股价。通过利用情感分析,自动化交易者可以分析财务披露中传达的情感,以便进行投资决策。

  • 市场营销: 市场营销部门通常对跟踪品牌形象感兴趣。为此,他们从社交媒体上收集了大量用户意见,并评估个人对品牌,产品和服务的感受。

  • 评级和评论平台: 评级和评论平台通过收集用户对某些产品和服务的评级或偏好来实现有价值的功能。在这里,人们可以自动处理大量用户生成的内容(UGC)并利用由此获得的知识。例如,人们可以确定哪些提示传达了积极或者负面的意见,甚至可以自动验证其可信度。

情感分析方法

随着情感分析被应用于广泛的领域和文本来源,研究已经设计出各种测量情感的方法。最近的文献综述(Pang and Lee 2008)提供了一个全面的,与领域无关的调查。

一方面,当机器学习方法追求高预测性能时,它是首选。但是,机器学习通常充当黑匣子,从而使解释变得困难。另一方面,基于字典的方法会生成肯定和否定单词的列表。然后,将这些单词的相应出现组合为单个情感评分。因此,基本的决定变得可追溯,研究人员可以理解导致特定情感的因素。

另外, SentimentAnalysis 允许生成定制的字典。它们针对特定领域进行了定制,与纯字典相比,提高了预测性能,并具有完全的可解释性。可以在(Pröllochs,Feuerriegel和Neumann 2018)中找到此方法的详细信息。

在执行情感分析的过程中,必须将正在运行的文本转换为一种机器可读的格式。这是通过执行一系列预处理操作来实现的。首先,将文本标记为单个单词,然后执行常见的预处理步骤:停用词的删除,词干,标点符号的删除以及小写的转换。这些操作也默认在中进行 SentimentAnalysis,但可以根据个人需要进行调整。

简短示范

  1. # 分析单个字符极性(正/负)
  2. anaSen("是的,这对德国队来说是一场很棒的足球比赛!")
  1. ## [1] positive
  2. ## Levels: negative positive
  1. # 创建字符串向量
  2. documents <- c("哇,我真的很喜欢新的轻型军刀!"
  3. "那本书很棒。"
  4. "R是一种很棒的语言。"
  5. "这家餐厅的服务很糟糕。"
  6. "这既不是正面也不是负面。"
  7. "服务员忘了我的甜点-多么糟糕的服务!")
  8. # 分析情感
  9. anaSen(documents)
  10. # 根据QDAP词典提取基于词典的情感
  11. sentiment$SentimentQDAP
## [1]  0.3333333  0.5000000  0.5000000 -0.3333333  0.0000000 -0.4000000
  1. #查看情感方向(即正面,中性和负面)
  2. ToDirection(sentiment$SentimentQDAP)
  1. ## [1] positive positive positive negative neutral negative
  2. ## Levels: negative neutral positive
  1. response <- c(+1, +1, +1, -1, 0, -1)
  2. comToRne(sentiment, response)
  1. ## WordCount SentimentGI NegativityGI
  2. ## cor -0.18569534 0.990011498 -9.974890e-01
  3. ## cor.t.statistic -0.37796447 14.044046450 -2.816913e+01
  4. ## cor.p.value 0.72465864 0.000149157 9.449687e-06
  5. ## lm.t.value -0.37796447 14.044046450 -2.816913e+01
  6. ## r.squared 0.03448276 0.980122766 9.949843e-01
  7. ## RMSE 3.82970843 0.450102869 1.186654e+00
  8. ## MAE 3.33333333 0.400000000 1.100000e+00
  9. ## Accuracy 0.66666667 1.000000000 6.666667e-01
  10. ## Precision NaN 1.000000000 NaN
  11. ## Sensitivity 0.00000000 1.000000000 0.000000e+00
  12. ## Specificity 1.00000000 1.000000000 1.000000e+00
  13. ## F1 0.00000000 0.500000000 0.000000e+00
  14. ## BalancedAccuracy 0.50000000 1.000000000 5.000000e-01
  15. ## avg.sentiment.pos.response 3.25000000 0.333333333 8.333333e-02
  16. ## avg.sentiment.neg.response 4.00000000 -0.633333333 6.333333e-01
  17. ## PositivityGI SentimentHE NegativityHE
  18. ## cor 0.942954167 0.4152274 -0.083045480
  19. ## cor.t.statistic 5.664705543 0.9128709 -0.166666667
  20. ## cor.p.value 0.004788521 0.4129544 0.875718144
  21. ## lm.t.value 5.664705543 0.9128709 -0.166666667
  22. ## r.squared 0.889162562 0.1724138 0.006896552
  23. ## RMSE 0.713624032 0.8416254 0.922958207
  24. ## MAE 0.666666667 0.7500000 0.888888889
  25. ## Accuracy 0.666666667 0.6666667 0.666666667
  26. ## Precision NaN NaN NaN
  27. ## Sensitivity 0.000000000 0.0000000 0.000000000
  28. ## Specificity 1.000000000 1.0000000 1.000000000
  29. ## F1 0.000000000 0.0000000 0.000000000
  30. ## BalancedAccuracy 0.500000000 0.5000000 0.500000000
  31. ## avg.sentiment.pos.response 0.416666667 0.1250000 0.083333333
  32. ## avg.sentiment.neg.response 0.000
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/500366
推荐阅读
相关标签
  

闽ICP备14008679号