当前位置:   article > 正文

《自然语言处理技术在中文全文检索中的应用》笔记_通过自然语言,对用户检索内容进行分析

通过自然语言,对用户检索内容进行分析

全文检索技术
全文检索

  • 是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础, 它以特定的结构存储了数据资源的全文信息, 从而为全文检索系统提供可检索的数据对象。

自然语言处理研究内容的基础部分。

  • 词法分析、句法分析、语义分析、语用分析、语境分析

自然语言处理技术在中文全文检索中的应用

  1. 文献信息处理,对文献进行分析, 提取关键信息, 建立转换文档及数据库;
  2. 提问处理, 解释查询提问;
  3. 问题匹配, 将查询提问与转换文档及数据库进行匹配; 对查询结果进行排序处理。

索引包括:

  1. 字索引
  2. 词索引
  3. 短语索引

文摘自动生成:
常用的文摘自动生成的方法是基于统计的方法, 这种方法的基本思想是, 首先对全文进行自动分词, 然后统计文章中各个词出现的频率和权重, 并按照某种准则确定出关键词,将关键词所在的语句抽取出来, 依据各种句子权重指标计算句子综合权重, 选出一组最能代表文献主题内容的句子, 并对句子进行排序作为文摘句, 最后生成文摘 。
文本分类

  1. 包括自动聚类
  2. 自动归类

两者的主要区别就是自动聚类不需要事先定义好分类体系, 而自动归类则需要确定好类别体系, 并且要为每个类别提供一批预先分好的对象作为训练文集。
基于自然语言处理技术的中文全文检索技术的局限
自然语言处理技术在

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/1003218
推荐阅读
相关标签
  

闽ICP备14008679号