当前位置:   article > 正文

文本分类(text classification)

text classification
  • 分类
    • 原因:为了获得固定查询所属问题的通性和空间范围。
    • 定义:分类是指将给定对象归入一个或者多个给定类别的过程。
    • 分类的应用:
      • 文档编码的识别分词、真实大小写处理及文档语言类型的判定
      • 垃圾网页的自动判定
      • 色情淫秽内容的自动判定
      • 情感发现
      • 个人的邮件组织和整理
      • 面向主题的搜索或者垂直搜索
    • 文本分类方法
      • 人工分类
      • 人工编写规则(人力成本高、需要很高的专业技巧)
      • 基于机器学习的方法
  • 文本分类
    • 定义:给定分类体系,将一篇文本分到其中一个或者多个类别中的过程。
    • 文本分类的类别:
      • 按每篇文档赋予的标签数目
        • 单标签
        • 多标签
      • 按类别数目
        • 二类问题
        • 多类问题
    • 目标:在测试数据或者新数据上获得高精确率的结果。
    • 朴素贝叶斯文本分类
      • 多项式朴素贝叶斯(多项式NB模型)—一种基于概率的学习方法
        • 文档d属于类别c的概率的计算方法:

        • 最可能的类是具有MPA估计值得结果(对于NB分类来说)

        • 大多数NB在实现时所求的最大值实际是:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/448159
推荐阅读
相关标签
  

闽ICP备14008679号