赞
踩
作者|Zijing Zhu 编译|VK 来源|Towards Datas Science
据估计,世界上80%的数据是非结构化的。因此,从非结构化数据中提取信息是数据分析的重要组成部分。
文本挖掘是从非结构化文本数据中获取有价值的信息的过程,情感分析是文本挖掘的应用之一。它使用自然语言处理和机器学习技术从文本数据中理解和分类情绪。在商业环境中,情绪分析广泛应用于了解客户评论、从电子邮件中检测垃圾邮件等。
本文是本教程的第一部分,介绍了使用Python进行情绪分析的具体技术。为了更好地说明程序,我将以我的一个项目为例,对WTI原油期货价格进行新闻情绪分析。我将介绍重要的步骤以及相应的Python代码。
原油期货价格短期内有较大波动。任何产品的长期均衡都是由供求状况决定的,而价格的短期波动则反映了市场对该产品的信心和预期。在本项目中,我利用与原油相关的新闻文章来捕捉不断更新的市场信心和预期,并通过对新闻文章进行情绪分析来预测未来原油价格的变化。以下是完成此分析的步骤:
1、收集资料:网络抓取新闻文章
2、文本数据预处理(本文)
3、文本矢量化:TFIDF
4、用logistic回归进行情绪分析
5、使用python flask web app在Heroku部署模型
我将讨论第二部分,即本文中文本数据的预处理。如果你对其他部分感兴趣,请继续阅读。
我使用NLTK、Spacy和一些正则表达式中的工具来预处理新闻文章。要导入库并使用Spacy中的预构建模型,可以使用以下代码:
import spacy
import nltk
# 初始化spacy'en'模型
nlp = spacy.load(‘en’, disable=[‘parser’, ‘ner’])
之后,我用Pandas读入数据:
“Subject”和“Body”是我将应用文本预处理过程的列。我按照标准的文本挖掘过程对新闻文章进行预处理,以从新闻内容中提取有用的特征,包括标识化、删除停用词和词形还原。
文本数据预处理的第一步是将每个句子分解成单独的单词,这称为标识化。使用单个单
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。