赞
踩
实现文本预处理
在下面的python代码中,我们从Twitter情感分析数据集的原始文本数据中去除噪音。之后,我们将进行删除停顿词、干化和词法处理。
导入所有的依赖性。
! pip install contractions
import nltk
import contractions
import inflect
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import LancasterStemmer, WordNetLemmatizer
from bs4 import BeautifulSoup
import re, string, unicodedata
复制代码
去除噪音。
第一步是去除数据中的噪音;在文本领域,噪音是指与人类语言文本无关的东西,这些东西具有各种性质,如特殊字符、小括号的使用、方括号的使用、空白、URL和标点符号。
下面是我们正在处理的样本文本。
正如你所看到的,首先有许多HTML标签和一个URL;我们需要删除它们,为此,我们使用BeautifulSoup。下面的代码片段将这两者都删除了。
# to remove HTML tag
def html_remover(data):
beauti = BeautifulSoup(data,'html.parser')
return beauti.get_text()
# to remove URL
def url_remover(data):
return re.sub(r'https\S','',data)
def web_associated(data):
text = html_remover(data)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。