当前位置:   article > 正文

基于文本模式的主题模式识别_根据内容 识别主题

根据内容 识别主题

     前面几篇博文都介绍了几种不同的分类器,基于分类,好像其他场合应用的监督学习,但有时我们不知道主题分类,这时,相当于其他场合的无监督学习,如果能实现,先用机器学习进行主题识别,再加上人工标记,这样就能实现强大使用的主题库。

   下面的时间,我们来探讨一下如何来实现,主要有以下几个基本步骤:

(1)  加载数据,包括需要分类的输入数据,还有停用词、词干提取和标记解析等。

def load_data(input_file):

    data = []

    with open(input_file, 'r')as f:

        for line inf.readlines():

           data.append(line[:-1])

return data

(2)  预处理数据:

  ①  正则表达式过滤数据
      tokens = RegexpTokenizer(r'\w+').tokenize(input_text.lower())
  ②  停用词提取
      stop_words_english = stopwords.words('english')
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/148641?site
推荐阅读
相关标签
  

闽ICP备14008679号