全文检索技术
全文检索
- 是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础, 它以特定的结构存储了数据资源的全文信息, 从而为全文检索系统提供可检索的数据对象。
自然语言处理研究内容的基础部分。
- 词法分析、句法分析、语义分析、语用分析、语境分析
自然语言处理技术在中文全文检索中的应用
- 文献信息处理,对文献进行分析, 提取关键信息, 建立转换文档及数据库;
- 提问处理, 解释查询提问;
- 问题匹配, 将查询提问与转换文档及数据库进行匹配; 对查询结果进行排序处理。
索引包括:
- 字索引
- 词索引
- 短语索引
文摘自动生成:
常用的文摘自动生成的方法是基于统计的方法, 这种方法的基本思想是, 首先对全文进行自动分词, 然后统计文章中各个词出现的频率和权重, 并按照某种准则确定出关键词,将关键词所在的语句抽取出来, 依据各种句子权重指标计算句子综合权重, 选出一组最能代表文献主题内容的句子, 并对句子进行排序作为文摘句, 最后生成文摘 。
文本分类
- 包括自动聚类
- 自动归类
两者的主要区别就是自动聚类不需要事先定义好分类体系, 而自动归类则需要确定好类别体系, 并且要为每个类别提供一批预先分好的对象作为训练文集。
基于自然语言处理技术的中文全文检索技术的局限
自然语言处理技术在中文全文检索中的应用深度不够。目前, 自然语言处理技术在全文检索中使用较多的是词法和句法分析, 而在语音、语义和语用方面的应用很少, 即对文本和查询仍停留在对语言结构的分析, 还没有达到概念语义的层面。因而在分析文本的过程中, 系统不能借助上下文语言环境, 正确地推断和选择词汇的含义。
检索效率不高
- 返回的信息过多
- 返回重复的信息。
中文全文检索技术的未来发展方向
- 文献信息的深度处理
未来的标引是按照一定的格式, 建立词法、句法/语义层次的深度标引。 - 匹配机制的进一步优化
未来的匹配机制将达到真正意义上的概念匹配, 匹配在语义上相同、相近、相包含的词语, 使检索更接近人的智能程度, 以减少误检和漏检. - 智能化知识检索
从内容上真正地理解文献所论述的主题;
能使用适当的知识表示方法来充分体现各主题概念和标识之间的分、属、交叉等复杂关系;
能准确在分析用户用各种方式表达的查询要求, 理解用户的真正意图
具有基于内容的相似性检索、自动分类(自动聚类)和自动摘要、以及知识压缩和去重功能
跟踪和分析用户的检索行为, 并与用户进行相关反馈, 为用户提供个性化信息服务;
检索结果自动聚类, 提高检索结果的相关度。
笔记:主要看看缺陷和发展方向,为写论文做准备。不过这篇文章是07年的。。。看到了几个词:歧义处理、语料库中没有的新词、语义、查询结果相关性差,冗余信息多。全文检索要提升查准率、查全率、查询速度。我有个小思路是:根据查询语句中的关键词,和文章中与此关键词相关的词语做更好的排序。ps:仅是yy而已。