当前位置:   article > 正文

全文搜索引擎ElasticSearch_java全文搜索引擎esqueryhelp

java全文搜索引擎esqueryhelp

什么是ElasticSearch?

Elasticsearch和Redis, Mysql一样,不仅服务于Java语言,其它语言也可以使用, 它的功能也类似一个数据库,能高效的从大量数据中搜索匹配指定关键字的内容, 它将数据保存在硬盘中

ES底层技术

ES使用了java的一套名为Lucene的API, 这个API提供了全文搜索引擎核心操作的接口, 相当于搜索引擎的核心支持,ES是在Lucene的基础上进行了完善,实现了开箱即用的搜索引擎软件, 市面上和ES功能类似的软件有Solr/MongoDB

为什么需要Elasticsearch?

数据库进行模糊查询效率严重低下

所有关系型数据库都有这个缺点(mysql\mariaDB\oracle\DB2等)

在执行类似下面模糊查询时

select * from spu where spu_name like '%鼠标%'

测试证明一张千万级别的数据表进行模糊查询需要20秒以上

原因是模糊查询时因为'%鼠标%',使用的是前模糊条件, 使用索引必须明确前面的内容是什么,前模糊查询是不能使用索引的,只能是全表的逐行搜索,所以效率非常低

当前互联网项目要求"三高"的需求下,这样的效率肯定不能接受

Elasticsearch主要是为了解决数据库模糊查询性能低下问题的

ES进行优化之后,从同样数据量的ES中查询相同条件数据,效率能够提高100倍以上

ES运行原理

要想使用ES提高模糊查询效率

首先要将数据库中的数据复制到ES中

在新增数据到ES的过程中,ES可以对指定的列进行分词索引保存在索引库中,  形成倒排索引结构

ES启动

 双击bin\elasticsearch.bat

验证ES的运行状态

浏览器输入地址:localhost:9200看到如下内容即可

 

ES基本使用

操作ES是对ES发送请求

我们创建一个子项目search,在这个子项目中创建一个专门发送各种类型请求的文件来操作ES

创建search项目也要父子相认

  1. ### 三个#是注释,也是分隔符,每个请求编写前必须使用###与上个请求分隔
  2. GET http://localhost:9200
  3. ### 测试ES的分词功能,运行分词,查看分词结果
  4. POST http://localhost:9200/_analyze
  5. Content-Type: application/json
  6. {
  7. "text": "my name is hanmeimei",
  8. "analyzer": "standard"
  9. }

analyze:分析

analyzer:分析者(分词器)

standard是ES默认的分词器,"analyzer": "standard"是可以省略的

standard这个分词器只能对英文等西文字符(有空格的),进行正确分词

但是中文分词不能按空格分,按这个分词器分词,每个字都会形成分词,这样的结果不能满足我们日常的搜索需要

解决中文不能正确分词的问题

实际上要引入一个中文常见词语的词库,分词时按照词库中的词语分词即可

我们可以使用免费的中文分词器词库插件IK来实现中文分词效果

我们安装的ik实际上不只一个分词器

实际上除了ik_smart之外还有ik_max_word

ik_smart

  • 优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快

  • 缺点:分词的颗粒度大,可能跳过一些重要分词,导致查询结果不全面,查全率低

ik_max_word

  • 优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据

  • 缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢

使用ES操作数据

ES是一个数据库性质的软件

可以执行增删改查操作,只是他操作数据不使用sql,数据的结构和关系型数据库也不同

我们先了解一下ES保存数据的结构

 

  • ES启动后,ES服务可以创建多个index(索引),index可以理解为数据库中表的概念

  • 一个index可以创建多个保存数据的document(文档),一个document理解为数据库中的一行数据

  • 一个document中可以保存多个属性和属性值,对应数据库中的字段(列)和字段值

SpringBoot 操作 Elasticsearch

原生状态下,我们使用JDBC连接数据库,因为代码过于繁琐,所以改为使用Mybatis框架  

在ES的原生状态下,我们java代码需要使用socket访问ES,但是也是过于繁琐,我们可以使用SpringData框架简化

Spring Data

Spring Data是Spring提供的一套连接各种第三方数据源的框架集

我们需要使用的是其中连接ES的Spring Data Elasticseatrch

官方网站:Spring Data

  1. <!-- spring data elasticsearch 依赖 -->
  2. <dependency>
  3. <groupId>org.springframework.boot</groupId>
  4. <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
  5. </dependency>

 application.properties添加配置

  1. # 配置ES所在的ip地址和端口号
  2. spring.elasticsearch.rest.uris=http://localhost:9200
  3. # 设置日志门槛,用于显示ES运行信息
  4. logging.level.cn.tedu.search=debug
  5. # SpringDataElasticsearch框架中有一个专门的类来输出运行信息,也要设置为debug
  6. logging.level.org.elasticsearch.client.RestClient=debug

创建和ES关联的实体类

和数据库一样

我们操作ES时也需要一个类似实体类的数据类,作为操作ES的数据载体

search项目创建entity包

在包中创建Item(商品)类

  1. @Data
  2. @Accessors(chain = true) // 支持链式set赋值
  3. @AllArgsConstructor // 自动生成当前类的全参构造方法
  4. @NoArgsConstructor // 自动生成当前类的无参构造方法
  5. // @Document注解标记表示当前类是对应ES框架的一个实体类
  6. // indexName来指定对应ES中的索引名称,运行时,SpringDataES框架会自动创建这个索引
  7. @Document(indexName = "items")
  8. public class Item implements Serializable {
  9. // SpringData标记当前字段为主键的注解
  10. @Id
  11. private Long id;
  12. // SpringData 标记title字段支持分词,并定义它的分词器
  13. @Field(type = FieldType.Text,
  14. analyzer = "ik_max_word",
  15. searchAnalyzer = "ik_max_word")
  16. private String title;
  17. // 我们设计分类名称是不需要分词的
  18. @Field(type = FieldType.Keyword)
  19. private String category;
  20. @Field(type = FieldType.Keyword)
  21. private String brand;
  22. @Field(type = FieldType.Double)
  23. private Double price;
  24. // imgPath是图片路径,它不会称为搜索条件,所以可以不创建索引,节省一些空间
  25. // 设置index=false,就是不会设置索引
  26. // 但是注意,不设置索引并不是不保存这个数据,ES会保存这个数据
  27. @Field(type = FieldType.Keyword,index = false)
  28. private String imgPath;
  29. }

创建操作ES的持久层

SpringData框架对持久层的命名规则

持久层规范名称为repository(仓库),创建这个包,包中创建接口ItemRepository

  1. // Repository是Spring家族框架对持久层的命名
  2. @Repository
  3. public interface ItemRepository extends ElasticsearchRepository<Item,Long> {
  4. // ItemRepository接口要继承SpringData提供的ElasticsearchRepository父接口
  5. // 一旦继承,当前接口就可以编写连接ES进行操作的代码了,继承了这个父接口之后
  6. // 会自动生成对Item数据的基本增删改查方法,无需我们自己编写
  7. // ElasticsearchRepository<[关联的实体类的名称],[实体类主键的类型]>
  8. }

测试ES

创建test测试包

创建测试类

编写测试

  1. // 必须添加下面的注解,否则无法运行
  2. @SpringBootTest
  3. public class SpringDataTest {
  4. @Autowired
  5. private ItemRepository itemRepository;
  6. // 执行单增
  7. @Test
  8. void addOne(){
  9. // 实例化一个item对象并赋值
  10. Item item=new Item()
  11. .setId(1L)
  12. .setTitle("罗技激光无线游戏鼠标")
  13. .setCategory("鼠标")
  14. .setBrand("罗技")
  15. .setPrice(188.0)
  16. .setImgPath("/1.jpg");
  17. // 利用SpringData提供的新增方法,完成Item新增到ES
  18. itemRepository.save(item);
  19. System.out.println("ok");
  20. }
  21. // 单查
  22. @Test
  23. void getOne(){
  24. // SpringDataElasticsearch提供了按id查询数据的方法
  25. // Optional是一个容器,但是只能存放一个元素,Springdata返回包含查询结果的Optional对象
  26. // 可以将Optional理解为一个只能保存一个元素的List
  27. Optional<Item> optional=itemRepository.findById(1L);
  28. Item item=optional.get();
  29. System.out.println(item);
  30. }
  31. // 批量增
  32. @Test
  33. void addList(){
  34. // 实例化一个List对象,用于保存要新增到ES中对象
  35. List<Item> list=new ArrayList<>();
  36. list.add(new Item(2L,"罗技激光有线办公鼠标","鼠标",
  37. "罗技",98.0,"/2.jpg"));
  38. list.add(new Item(3L,"雷蛇机械无线游戏键盘","键盘",
  39. "雷蛇",278.0,"/3.jpg"));
  40. list.add(new Item(4L,"微软有线静音办公鼠标","鼠标",
  41. "微软",197.0,"/4.jpg"));
  42. list.add(new Item(5L,"罗技机械有线背光键盘","键盘",
  43. "罗技",226.0,"/5.jpg"));
  44. itemRepository.saveAll(list);
  45. System.out.println("OK list");
  46. }
  47. // 全查
  48. @Test
  49. void getAll(){
  50. // SpringData提供的全查ES中对应实体类的所有数据的方法
  51. Iterable<Item> items=itemRepository.findAll();
  52. for(Item item : items){
  53. System.out.println(item);
  54. }
  55. System.out.println("--------------------------------");
  56. items.forEach(item -> System.out.println(item));
  57. }
  58. }

SpringData自定义查询

SpringData框架提供的基本增删改查方法并不能完全满足我们的业务需要

如果是针对当前Es数据,进行个性化的自定义查询,那还是需要自己编写查询代码

就像我们要实现根据关键词查询商品信息一样,完成类似数据库中的模糊查询

  1. // SpringData实现自定义查询
  2. // 我们要编写遵循SpringData给定格式的方法名
  3. // SpringData会根据我们编写的方法名自动完成数据操作
  4. // query(查询):表示当前方法是一个查询方法,类似sql语句中的select
  5. // Item/Items:确定要查询哪一个实体类,不带s的是单个对象,带s是集合
  6. // By(通过/根据):标识开始设置查询条件,类似sql语句中的where
  7. // Title:要查询的字段,可以根据查询条件修改为Item中的任何字段
  8. // Matches:执行查询的操作,Matches表示字符串的匹配,而且这个匹配是支持分词的,类似sql语句的like

单条件查询

我们查询需求为输出所有数据中title属性包含"游戏"这个分词的商品信息

在SpringData框架下,ItemRepository接口中实现更加简单 

  1. // 单条件查询
  2. @Test
  3. void queryOne(){
  4. // 查询ES中items索引里,title字段包含"游戏"分词的数据
  5. Iterable<Item> items=itemRepository.queryItemsByTitleMatches("游戏");
  6. items.forEach(item -> System.out.println(item));
  7. }

多条件查询

  1. // 多条件查询
  2. // 多个条件之间要使用逻辑运算符and或or来分隔,表示多个条件间的逻辑关系
  3. // 我们如果要查询title包含某个关键字的同时指定品牌的查询
  4. // 多个参数时,SpringData会按照参数声明的顺序向需要参数的位置赋值,和参数名无关
  5. Iterable<Item> queryItemsByTitleMatchesAndBrandMatches(
  6. String title,String brand);
  1. // 多条件查询
  2. @Test
  3. void queryTwo(){
  4. // 查询ES中items索引里,title字段包含"游戏"并且品牌是"罗技"的数据
  5. Iterable<Item> items=itemRepository
  6. .queryItemsByTitleMatchesAndBrandMatches("游戏","罗技");
  7. items.forEach(item -> System.out.println(item));
  8. }

底层运行的请求  

  1. ### 多字段搜索
  2. POST http://localhost:9200/items/_search
  3. Content-Type: application/json
  4. {
  5. "query": {
  6. "bool": {
  7. "must": [
  8. { "match": { "title": "游戏"}},
  9. { "match": { "brand": "罗技"}}
  10. ]
  11. }
  12. }
  13. }

当查询条件关系为And时,查询语句关键字为must

当查询条件关系为Or时,查询语句关键字为should

排序查询

 默认情况下从ES中查询获得的数据排序依据是ES查询得出的相关性分数(score)

但是如果想改变这个排序就需要在查询方法上添加新的关键字

在ItemRepository接口添加具备排序功能的查询方法

  1. // 排序查询
  2. @Test
  3. void queryOrder(){
  4. Iterable<Item> items=itemRepository
  5. .queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
  6. "游戏","罗技");
  7. items.forEach(item -> System.out.println(item));
  8. }

底层运行的代码  

  1. ### 多字段搜索
  2. POST http://localhost:9200/items/_search
  3. Content-Type: application/json
  4. {
  5. "query": {
  6. "bool": {
  7. "should": [
  8. { "match": { "title": "游戏"}},
  9. { "match": { "brand": "罗技"}}
  10. ]
  11. }
  12. },"sort":[{"price":"desc"}]
  13. }

分页查询

SpringData框架支持完成分页查询

需要在ItemRepository接口中修改方法的参数和返回值就可以实现

  1. // 分页查询
  2. // 返回值类型修改为Page类型,这个类型中包含了查询到的当前页数据和本次查询的相关分页信息
  3. // 分页信息指:当前页码,总页数,总条数,每页条数,是否有上一页,是否有下一页等
  4. // 方法参数要添加Pageable,在所有的参数后再添加一个新的参数类型 Pageable
  5. Page<Item> queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
  6. String title, String brand, Pageable pageable);
  1. // 分页查询
  2. @Test
  3. void queryPage(){
  4. int page=2; //要查询的页码
  5. int pageSize=2; //每页的数据条数
  6. Page<Item> pages=itemRepository
  7. .queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
  8. "游戏","罗技", PageRequest.of(page-1,pageSize));
  9. pages.forEach(item -> System.out.println(item));
  10. // pages对象的分页信息输出
  11. System.out.println("总页数:"+pages.getTotalPages());
  12. System.out.println("总条数:"+pages.getTotalElements());
  13. System.out.println("当前页码:"+(pages.getNumber()+1));
  14. System.out.println("每页条数:"+pages.getSize());
  15. System.out.println("是否为首页:"+pages.isFirst());
  16. System.out.println("是否为末页:"+pages.isLast());
  17. }

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/334416
推荐阅读
相关标签
  

闽ICP备14008679号