当前位置:   article > 正文

nlp基础—4.搜索引擎中关键技术讲解_搜索引擎关键技术

搜索引擎关键技术

  搜索引擎中的关键是信息检索中的匹配与搜索算法。下面介绍在信息检索领域比较经典的匹配算法:

  1. lnverted lndex and Boolean Retrieval(倒排索引与布尔检索)
    正向索引是基于文档与词语的映射关系
    在这里插入图片描述
    但是,我们更希望建立基于词语到文档的映射关系,这就是倒排索引。
  1. 按照索引收集文档
  2. 标记单词,将每个文档转换为一个单词列表
  3. 进行语言预处理,生成规范化标记列表,其中索引项是:
    在这里插入图片描述
  4. 通过创建倒排索引来索引每个术语出现的文档
    在这里插入图片描述
    在这里插入图片描述
  1. Rank Retrieval 排名检索(tf-idf,BM25)
    计算文本相似度排序
    TF-IDF

    常用TF-IDF来计算权重,公式为:
    T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/377734
推荐阅读
  

闽ICP备14008679号