自然语言处理之文本相似度_文本相似度自然语言处理

作者：我家自动化 | 2024-08-07 07:11:34

踩

文本相似度自然语言处理

1) 语义相似、但字面不相似

2) 字面相似、但是语义不相似

1) 语义相似：依靠用户行为，最基本的方法：（1）基于共点击的行为（协同过滤），（2）借助回归算法

2) 字面相似：(1) LCS最大公共子序列 (2) 利用中文分词

                    |A| = sqrt(1*1+2*2+3*3) = 3.74
                    |B| = sqrt(2*2+3*3+4*4) = 5.38
                   分母：|A|*|B| = 20.12

1) TF：词频

                   关键词：在当前文章出现较多，但在其他文章中出现较少

2) IDF：反文档频率

score = TF * IDF

1) 确定关键词集合（两种方法（a）top-10 （b）阈值截断 > 0.8 ）
2）哪些句子包含关键词，把这些句子取出来
3) 对关键词排序，对句子做等级划分
4）把等级高的句子取出来，就是摘要

1.idf实践：

一共508篇文章

（1）数据预处理：把所有文章的内容，全部收集到一个文件中

]# python convert.py input_tfidf_dir/ > idf_input.data

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/941431

自然语言处理之文本相似度_文本相似度 自然语言处理