赞
踩
大家好,我是带我去滑雪!
文本分类是一种机器学习和自然语言处理(NLP)任务,旨在将给定的文本数据分配到预定义的类别或标签中。其目标是为文本数据提供自动分类和标注,使得可以根据其内容或主题进行组织、排序和分析。文本分类在各种应用场景中广泛应用,包括情感分析、垃圾邮件过滤、新闻分类、推荐系统等。
文本分类的关键步骤包括:
本期首先利用python抓取百度贴吧中的评论获得文本数据,再对文本数据进行中文分词、数据清洗、特征提取、TF-IDF权重计算等数据预处理,再进行一定的数据分析和数据可视化,最后运用朴素贝叶斯、神经网络、支持向量机、随机森林、逻辑回归、K近邻、决策树、梯度提升共计8种机器学习对文本数据进行分类。
目录
(1)随机划分,按总样本数的20%划分,即测试集(784个)与训练集(3135个)
import requests
import time
from bs4 import BeautifulSoup
def get_html(url):
try:
kv = {'user-agent':'Mozilla/4.0'} #伪装客户端
r = requests.get(url,headers = kv,timeout=30)
r.raise_for_status()
r.encoding = 'UTF-8'
#print(r.text[:1000])
return r.text
except:
return "ERROR"
def get_content(url):
comments = []
html = get_html(url)
soup = BeautifulSoup(html,'lxml')
#with open('b.txt','a+',encoding='utf-8') as f1:
#f1.write(soup.prettify())
liTags = soup.find_all('li', attrs={'class': 'j_thread_list clearfix thread_item_box'})
for li in liTags:
comment = {}
try:
comment['title'] = li.find('a',attrs={'class':'j_th_tit'}).text.strip()
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。