赞
踩
前面几篇博文都介绍了几种不同的分类器,基于分类,好像其他场合应用的监督学习,但有时我们不知道主题分类,这时,相当于其他场合的无监督学习,如果能实现,先用机器学习进行主题识别,再加上人工标记,这样就能实现强大使用的主题库。
下面的时间,我们来探讨一下如何来实现,主要有以下几个基本步骤:
(1) 加载数据,包括需要分类的输入数据,还有停用词、词干提取和标记解析等。
def load_data(input_file):
data = []
with open(input_file, 'r')as f:
for line inf.readlines():
data.append(line[:-1])
return data
(2) 预处理数据:
① 正则表达式过滤数据Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。