赞
踩
目录
Elasticsearch实战学习笔记系列 Elasticsearch分析数据
4.使用词条向量API _termvector来学习索引词条
系列目录
Elasticsearch实战学习笔记(一) Elasticsearch介绍
Elasticsearch实战学习笔记(二) Elasticsearch环境搭建(Mac Docker)
Elasticsearch实战学习笔记(三) Elasticsearch深入功能
Elasticsearch实战学习笔记(四) Elasticsearch索引、更新和删除数据
Elasticsearch实战学习笔记(五) Elasticsearch搜索数据
Elasticsearch实战学习笔记(六) Elasticsearch分析数据
Elasticsearch实战学习笔记(七) Elasticsearch使用相关性进行搜索
Elasticsearch实战学习笔记(八) Elasticsearch文档间的关系
分析(analysis)是在文档被发送并加入倒排索引之前,Elasticsearch在其主体上进行的操作
- 字符过滤 使用字符过滤器转变字符
- 文本切分为分词 将文本切分为单个或多个分词
- 分词过滤 使用分词过滤器转变每个分词
- 分词索引 将这些分词存储到索引中
- 当创建索引的时候,为特定的索引进行设置
- 在 Elasticsearch的配置文件中,设置全局的分析器
这个 API 允许你向 Elasticsearch 发送任何文本,指定所使用的分析器 、分词器或者分 词过滤器,然后获取分析后的分词。最为重要的输出是 token键。
可以通过 analyzer 参数中的名字(myCustomAnalyzer)来指向它
curl XPOST 'localhost:9200/get- together/ analyze?analyzer=myCustomAnalyzer' -d ' share your experience with NoSqlιbig data technologies'
有了分析的 API,就可以 指定一个分词器和一组分词过滤器,用于文本的分析。 例如,如果想使用空 白分词器(按照空白 来切分文本),然后使用小写和反转分词过滤器
curl - XPOST 'localhost:9200/_analyze?tokenizer=whitespace&filters=lowercase, reverse' - d 'share your experience with NoSql & big data technologies'
可以通过指定请求中的 field 参数来使用和这个字段关联的分析器
- curl -XPOST 'localhost:9200/get-together/_analyze?field=description' -d '
- share your experience with NoSql & big data technologies'
Elasticsearch 所提供的内置分析器、分词器和分词过滤器 ,包含 许多这样的模块,如小写转换、提取词干、特定语言、同义词等 。
- 标准分析器
- 简单分析器
- 空白分析器
- 停用分析器
- 关键词分析器
- 模式分析器
- 语言和多语言分析器
- 雪球分析器
curl - XPOST 'localhost:9200/_analyze?tokenizer=standard' -d 'I have, potatoes.'
切分后的分词是 I、 have 和 potatoes
将整个文本作为单个的分词,提供给分词过滤器。唯一的分词是 Hi,there
curl -XPOST 'localhost: 9200/_analyze?tokenizer=keyword' -d 'Hi,there.'
根据非字母的符号,将文本切分成分词
小写分词器( lowercase tokenizer)结合了常规的字母分词器和小写分词过滤器(它将整个分词转化为小写) 的行为
curl -XPOST 'localhost:9200/_analyze?tokenizer=lowercase' -d 'Hi, there.'
分词是 hi 和 there
curl - XPOST 'localhost:9200/_analyze?tokenizer=whitespace' -d 'Hi, there.'
分词是 Hi,和 there.
允许指定一个任意的模式,将文本切分为分词,被指定的模式应该匹配间隔符号 。
curl XPOST 'localhost:9200/pattern/_analyze?tokenizer=patternl' -d 'breaking.- sorne.-.text'
分词是breaking、some 和 text
curl 'localhost:9200/_analyze?tokenizer=path_hierarchy' -d '/usr/local/var/log/elasticsearch.log'
分词是/usr、/usr/local、/usr/local/var、 /usr/local/var/log 和 /usr/local/var/ log/elasticsearch.log
lowercase 过滤器、 stopword 过滤器和 synonym 过滤器
将任何经过的分词转换为小写
将长度超出最短和最长限制范围的单同过滤掉, 如果将 min 设置为2,并将 max 设置为8,任何小于2个字符和任何大于 8个字符的分词将会被移除
将停用词从分词流中移除
a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or such, that, the, their, then, there, these, they, this, to, was, will, with
只保留唯一的分词,它保留第一个匹配分同的元数据, 而将其后出现的重复删除
使用关键词的同义词取代原始分词
系列目录
Elasticsearch实战学习笔记(一) Elasticsearch介绍
Elasticsearch实战学习笔记(二) Elasticsearch环境搭建(Mac Docker)
Elasticsearch实战学习笔记(三) Elasticsearch深入功能
Elasticsearch实战学习笔记(四) Elasticsearch索引、更新和删除数据
Elasticsearch实战学习笔记(五) Elasticsearch搜索数据
Elasticsearch实战学习笔记(六) Elasticsearch分析数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。