赞
踩
最近需要帮别人写一个BM25的文档,写完顺便上传了
BM25是一个计算文本相似度的算法
1. BM25公式:
BM25是通过q和s中的公共词汇进行相似度计算的算法,其中
q: 待测试文档
s:需要进行相似度比较的文档
2. IDF的计算公式如下:
N是训练集的总文档数,即需要比较的文档(s)的总数量
Nt是含有单词t的文档(s)的总数量
3. tf(t,s):公共单词t在文档s中出现的次数
4. tq(t,q): 公共单词t在文档q中出现的次数
5. k1,k3,b 都是需要调节的参数,大小在(0,1)
实现方法:
训练集:s的集合(假设组成为:ID + 文本内容)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。