当前位置:   article > 正文

情感分析教程_第三节 情感指标构建 与基于结构化数据的定量指标不同,文本数据是定性且非结构化

第三节 情感指标构建 与基于结构化数据的定量指标不同,文本数据是定性且非结构化

作者|Zijing Zhu 编译|VK 来源|Towards Datas Science

据估计,世界上80%的数据是非结构化的。因此,从非结构化数据中提取信息是数据分析的重要组成部分。

文本挖掘是从非结构化文本数据中获取有价值的信息的过程,情感分析是文本挖掘的应用之一。它使用自然语言处理和机器学习技术从文本数据中理解和分类情绪。在商业环境中,情绪分析广泛应用于了解客户评论、从电子邮件中检测垃圾邮件等。

本文是本教程的第一部分,介绍了使用Python进行情绪分析的具体技术。为了更好地说明程序,我将以我的一个项目为例,对WTI原油期货价格进行新闻情绪分析。我将介绍重要的步骤以及相应的Python代码。

一些背景资料

原油期货价格短期内有较大波动。任何产品的长期均衡都是由供求状况决定的,而价格的短期波动则反映了市场对该产品的信心和预期。在本项目中,我利用与原油相关的新闻文章来捕捉不断更新的市场信心和预期,并通过对新闻文章进行情绪分析来预测未来原油价格的变化。以下是完成此分析的步骤:

1、收集资料:网络抓取新闻文章

2、文本数据预处理(本文)

3、文本矢量化:TFIDF

4、用logistic回归进行情绪分析

5、使用python flask web app在Heroku部署模型

我将讨论第二部分,即本文中文本数据的预处理。如果你对其他部分感兴趣,请继续阅读。

文本数据预处理

我使用NLTK、Spacy和一些正则表达式中的工具来预处理新闻文章。要导入库并使用Spacy中的预构建模型,可以使用以下代码:

import spacy
import nltk

# 初始化spacy'en'模型

nlp = spacy.load(‘en’, disable=[‘parser’, ‘ner’])
  • 1
  • 2
  • 3
  • 4
  • 5

之后,我用Pandas读入数据:

“Subject”和“Body”是我将应用文本预处理过程的列。我按照标准的文本挖掘过程对新闻文章进行预处理,以从新闻内容中提取有用的特征,包括标识化、删除停用词和词形还原。

标识化

文本数据预处理的第一步是将每个句子分解成单独的单词,这称为标识化。使用单个单

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/384945
推荐阅读
相关标签
  

闽ICP备14008679号