赞
踩
Made by ® Isaac. Ty
信息检索模型:描述信息检索中的文档、查询和他们之间的关系(匹配函数)的数学模型
一个文档被表示为关键词(bag of words)的集合
查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来(主析取范式)
没有清晰和明显的语义结构的数据,计算机不易处理这些数据
最典型的时关系数据库,用来保存公司的产品清单和人事记录
基于文档内容进行自动聚团的任务。很像在书架上将一系列书按照它们所属的主题重新摆放的过程。
根据给定的主题、固定的信息需求或者其他类别体系,将每一个文档分到一个或多个类别的任务。
返回的能满足用户信息需求的文档占总的返回文档的百分比
返回的能满足用户信息需求的文档占总的能满足用户信息需求的文档的百分比
对所有文档按照其中出现的词项来建立倒排索引,索引中包括一部分词典和一个全体倒排索引表
(修改过的词条,文档ID)对序列
排序
先按照词条排序,再按照docID排序
词典和倒排表
查询的处理:AND
一个文档被表示为关键词的集合
查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来(主析取范式DNF)
布尔模型可以用来处理布尔表达式形式的查询
将给定的字符序列拆分成一系列子序列的过程,其中每一个子序列称之为一个“词
条”Token。
词条(Tokens)、词项(Terms)
针对不同的语言,采用不同策略的词条化方法
分词的基本方法:
在此索引中,对每个词项,都采取以下方式存储倒排表记录:
<词项,词项频率;
文档1:位置1,位置2,……
文档2:位置1,位置2,……
在索引构建过程中需要依次分析所有的文档,不能很容易利用压缩技巧。只有分析完所有文档,最终的倒排记录表才会完整。
基本思想:对每一个块都生成倒排记录,并排序,写入硬盘。然后将这些块合并成一个长的排好序的倒排记录。
核心思想:为每个块单独生成一个词典—— (不需要维护全局的<词项,词项ID>映射表)
不进行排序。有新的<词项,文档ID>对时直接在倒排记录表中增加一项。
Web规模的索引构建
必须使用一个分布式的计算机集群
计算机都是故障频发的
利用集群中的主控节点来指挥索引构建工作
将索引构建过程分解成一组并行的任务
主控计算机从集群中选取一台空闲的机器并将任务分配给它
采用两组不同的并行任务
Parsers分析器
主节点将一个数据片分配给一台空闲的分析服务器
分析器依次读取文档并生成<词项,文档>对。
分析器将这些<词项,文档>按照词项对分成
每一段是按照词项首字母划分的一个区间。
例如:a-f,g-p,q-z 这里j=3
然后进行索引的倒排
首先,将输入文档集分割成n个数据片
文档集通常不是静态的
词典和倒排记录表需要修改
新的词项加入到词典中
建立索引的同时,旧索引继续工作
条件
有足够的资源进行重构
词项在文档中的分布情况
排名第i多的词项的文档集频率与1/i成正比
布尔检索:文档要么匹配要么不匹配。对自身需求和文档集性质非常了解的专家而言,布尔查询式不错的选择。然而对大多数用户来说不方便
希望根据文档对查询者的有用性大小顺序将文档返回给查询者
一种常用的衡量两个集合A,B重叠度的方法
用Jaccard系数评分的问题
不考虑词在文档中出现的顺序
“John is quicker than Mary” 和 “Mary is quicker than John” 的表示结果一样
词项频率:词项t在文档d中出现的次数,记为
除词项频率tf之外,利用词项在整个文档集中的频率进行权重和评分计算
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。