当前位置:   article > 正文

文本相似度计算python lda_借助LDA主题分析的短文本相似性计算 - 综述帖

lda文本相似度计算

目标:针对给定输入文本与文本库,计算得出文本库中与输入文本最相似的文本

对于人类,两句话的相似性一般都从语义上进行考虑,大白话说就是”这两句话说的是同一件事儿/同一个意思“。相似的句子可能会有相似的语法。

对于当前的计算机来说,已经用标点符号等区分开了句子与句子,但如何理解、表达句子的意思是个难题,也就是需要人工定义语义的概念。另外,人类语言世界中的句子通常都有一定的使用环境,但到了计算机系统中全都统一存储为二进制,使得部分语义在”语言数字化“这一过程中丢失。(类比所有的模拟信号转化为数字信号都存在这样的问题。)

短文本是社交网络中更加流行的文本形式,特点在于长度短、特征稀疏、实时性强,在舆论监控、热点追踪上可以挖掘出更多有用的信息。短文本由于其特征稀疏、语义依赖强、不遵循语法等特点难以直接应用已有长文本处理技术进行分析。

文本分析主要分析方向为文本的特征提取、分类、相似度分析和情感分析等。其研究方法可以主要分为两种,基于句法-语义规则的理性方法、统计数学方法。

基于以上背景,短文本理解通常可以按显性分析和隐性分析两个角度进行划分:

显性分析方法是从人的角度解释性强的解释方法,包括词义、词性、句法、语义等。这种方法需要有知识库进行匹配。词汇角度的分析上,已有的研究包括WordNet、Hownet、哈工大同义词词林等;ESA算法构建一个词与文本的共现矩阵,词向量的每一个维度代表一个明确的知识库文本,如Wikipedia文章或标题。句法角度的分析,已有研究包括哈工大LTP平台,Stanford Parser,Berkeley Parser,并通常与词汇分析共同使用。

隐性分析方法是将文本转化为向量表示,从统计规律上弥补因文本数字化导致

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/361042?site
推荐阅读
相关标签
  

闽ICP备14008679号