《自然语言处理技术在中文全文检索中的应用》笔记_通过自然语言,对用户检索内容进行分析

作者：酷酷是懒虫 | 2024-08-19 17:37:33

踩

通过自然语言,对用户检索内容进行分析

全文检索技术
全文检索

是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础, 它以特定的结构存储了数据资源的全文信息, 从而为全文检索系统提供可检索的数据对象。

自然语言处理研究内容的基础部分。

词法分析、句法分析、语义分析、语用分析、语境分析

自然语言处理技术在中文全文检索中的应用

文献信息处理,对文献进行分析, 提取关键信息, 建立转换文档及数据库;
提问处理, 解释查询提问;
问题匹配, 将查询提问与转换文档及数据库进行匹配; 对查询结果进行排序处理。

索引包括：

字索引
词索引
短语索引

文摘自动生成：
常用的文摘自动生成的方法是基于统计的方法, 这种方法的基本思想是, 首先对全文进行自动分词, 然后统计文章中各个词出现的频率和权重, 并按照某种准则确定出关键词,将关键词所在的语句抽取出来, 依据各种句子权重指标计算句子综合权重, 选出一组最能代表文献主题内容的句子, 并对句子进行排序作为文摘句, 最后生成文摘。
文本分类

包括自动聚类
自动归类

两者的主要区别就是自动聚类不需要事先定义好分类体系, 而自动归类则需要确定好类别体系, 并且要为每个类别提供一批预先分好的对象作为训练文集。
基于自然语言处理技术的中文全文检索技术的局限
自然语言处理技术在

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/1003218