当前位置:   article > 正文

BM25算法的实现过程_bm25算法训练步骤

bm25算法训练步骤

最近需要帮别人写一个BM25的文档,写完顺便上传了

BM25是一个计算文本相似度的算法

1.      BM25公式:


 

BM25是通过q和s中的公共词汇进行相似度计算的算法,其中

q: 待测试文档

s:需要进行相似度比较的文档

 

2.      IDF的计算公式如下:

N是训练集的总文档数,即需要比较的文档(s)的总数量

Nt是含有单词t的文档(s)的总数量

 

3.      tf(t,s):公共单词t在文档s中出现的次数

4.      tq(t,q): 公共单词t在文档q中出现的次数

5.      k1,k3,b 都是需要调节的参数,大小在(0,1)

 

 

实现方法:

训练集:s的集合(假设组成为:ID + 文本内容)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/972310
推荐阅读
相关标签
  

闽ICP备14008679号