赞
踩
搜索引擎中的关键是信息检索中的匹配与搜索算法。下面介绍在信息检索领域比较经典的匹配算法:
- 按照索引收集文档
- 标记单词,将每个文档转换为一个单词列表
- 进行语言预处理,生成规范化标记列表,其中索引项是:
- 通过创建倒排索引来索引每个术语出现的文档
Rank Retrieval 排名检索(tf-idf,BM25)
计算文本相似度排序
TF-IDF
常用TF-IDF来计算权重,公式为:
T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。