赞
踩
大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目6-无监督学习之文本聚类分析,将任意文本分类。当今互联网上的数据量越来越大,机器学习技术越来越成熟。在这种情况下,将文本按其主题或者意义进行分类是一项重要任务,这就需要用到文本聚类分析技术。文本聚类分析是指将一组文档(或句子、单词等)根据它们之间的相似性进行分类,形成若干个簇(Cluster)。它是文本挖掘中的重要技术之一,可以用于文本分类、信息检索、智能推荐等领域。
余弦相似度:该方法基于向量空间模型,将每个文档表示为一个向量,并计算两个向量之间的余弦值作为它们的相似度。
欧氏距离:该方法采用欧式距离作为度量标准,即计算两个向量之间的距离,距离越近则相似度越高。
曼哈顿距离:该方法也是一种距离度量方法,计算两个向量之间的曼哈顿距离,即两点在坐标系上的横纵坐标距离之和。
皮尔逊相关系数:该方法用于度量两个变量之间的线性相关性,可用于计算文档之间的相似度。
二、聚类方法
基于原型的聚类(Prototype-based Clustering):该方法将每个簇表示为一个原型或代表性对象,并将其他文档分配到与其最相似的簇中。常见的原型包括均值向量、中心点或者某个随机样本。
层次聚类(Hierarchical Clustering):该方法将所有文档看作一个大的簇,然后逐步划分子簇,直到达到停止条件。可
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。