当前位置:   article > 正文

JavaWeb索引————Lucence_java lucence

java lucence

1、什么是Lucence

1.1 顺序扫描法
所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。
1.2 全文检索
将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。
虽然创建索引的过程也是非常耗时的,但是索引一旦创建就可以多次使用,全文检索主要处理的是查询,所以耗时间创建索引是值得的。
1.3 Lucence
可以使用Lucene实现全文检索。Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能。
2、Lucence实现全文检索的流程
这里写图片描述
1、绿色表示索引过程,对要搜索的原始内容进行索引构建一个索引库,索引过程包括:
确定原始内容即要搜索的内容采集文档创建文档分析文档索引文档

2、红色表示搜索过程,从索引库中搜索内容,搜索过程包括:
用户通过搜索界面创建查询执行搜索,从索引库搜索渲染搜索结果
2.1 创建索引
对文档索引的过程,将用户要搜索的文档内容进行索引,索引存储在索引库(index)中。
这里我们要搜索的文档是磁盘上的文本文件,根据案例描述:凡是文件名或文件内容包括关键字的文件都要找出来,这里要对文件名和文件内容创建索引。
2.2 获得原始文档
原始文档是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。
2.3 创建文档对象
获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。
这里我们可以将磁盘上的一个文件当成一个document,Document中包括一些Field(file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容),如下图:
这里写图片描述
注意:每个Document可以有多个Field,不同的Document可以有不同的Field,同一个Document可以有相同的Field(域名和域值都相同)

每个文档都有一个唯一的编号,就是文档id。
2.4 分析文档
将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元,可以将语汇单元理解为一个一个的单词。
比如下边的文档经过分析如下:
原文档内容:
Lucene is a Java full-text search engine. Lucene is not a complete
application, but rather a code library and API that can easily be used
to add search capabilities to applications.

分析后得到的语汇单元:
lucene、java、full、search、engine。。。。

每个单词叫做一个Term,不同的域中拆分出来的相同的单词是不同的term。term中包含两部分一部分是文档的域名,另一部分是单词的内容。
例如:文件名中包含apache和文件内容中包含的apache是不同的term。
2.5 创建索引
对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单元从而找到Document(文档)。
这里写图片描述
这里写图片描述
注意:创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。
传统方法是根据文件找到该文件的内容,在文件内容中匹配搜索关键字,这种方法是顺序扫描方法,数据量大、搜索慢。
倒排索引结构是根据内容(词语)找文档,如下图:
这里写图片描述

倒排索引结构也叫反向索引结构,包括索引和文档两部分,索引即词汇表,它的规模较小,而文档集合较大。
2.6 查询索引
查询索引也是搜索的过程。搜索就是用户输入关键字,从索引(index)中进行搜索的过程。根据关键字搜索索引,根据索引找到对应的文档,从而找到要搜索的内容(这里指磁盘上的文件)。
2.6.1 用户接口查询
全文检索系统提供用户搜索的界面供用户提交搜索的关键字,搜索完成展示搜索结果。

比如:这里写图片描述

Lucene不提供制作用户搜索界面的功能,需要根据自己的需求开发搜索界面。
2.6.2 创建查询
用户输入查询关键字执行搜索之前需要先构建一个查询对象,查询对象中可以指定查询要搜索的Field文档域、查询关键字等,查询对象会生成具体的查询语法,
例如:
语法 “fileName:lucene”表示要搜索Field域的内容为“lucene”的文档
2.6.3 执行查询
搜索索引过程:
根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引所链接的文档链表。
比如搜索语法为“fileName:lucene”表示搜索出fileName域中包含Lucene的文档。
搜索过程就是在索引上查找域为fileName,并且关键字为Lucene的term,并根据term找到文档id列表。
这里写图片描述
2.6.4 渲染结果
以一个友好的界面将查询结果展示给用户,用户根据搜索结果找自己想要的信息,为了帮助用户很快找到自己的结果,提供了很多展示的效果,比如搜索结果中将关键字高亮显示,百度提供的快照等。这里写图片描述

3、Lucence配置开发环境以及代码示例

3.1 配置开发环境

使用的jar包
Lucene包:
lucene-core-4.10.3.jar
lucene-analyzers-common-4.10.3.jar
lucene-queryparser-4.10.3.jar

其它:
commons-io-2.4.jar
junit-4.9.jar

3.2 代码示例

3.2.1 创建、查询索引

使用indexwriter对象创建索引

package cn.ctgu.lucence;

import java.io.File;
import java.io.IOException;

import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.LongField;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;
import org.wltea.analyzer.lucene.IKAnalyzer;

/*
 * 创建索引
 * 查询索引
 * 
 * */

public class FirstLucence {
    //创建索引
    @Test
    public void testIndex() throws IOException {
        //1、创建一个indexwriter对象
        //1.1、指定索引库的存放位置Directory对象
        Directory directory=FSDirectory.open(new File("J:\\Program\\java\\index"));//索引库所在地
//      Directory directory=new RAMDirectory();//保存索引到内存中
        //1.2、创建一个分词器,对文档内容进行分析
        Analyzer analyzer=new StandardAnalyzer();//官方推荐
        //创建indexwriterCofig对象
        //第一个参数: Lucene的版本信息,可以选择对应的lucene版本也可以使用LATEST
        //第二根参数:分析器对象
        IndexWriterConfig config=new IndexWriterConfig(Version.LATEST,analyzer);
        IndexWriter indexWriter=new IndexWriter(directory, config);

        //3、创建field对象,将field添加到document对象中
        File f=new File("J:\\Program\\java\\searchsource");//获取原始文档
        File[]listFiles=f.listFiles();
        for(File file:listFiles) {
            //2、创建document对象
            Document document=new Document();
            //文件名称
            String file_name=file.getName();
            //创建文件名域
            //第一个参数:域的名称
            //第二个参数:域的内容
            //第三个参数:是否存储
            Field fileNameField=new TextField("fileName",file_name,Store.YES);
            //文件大小
            long file_size=FileUtils.sizeOf(file);
            Field fileSizeField=new LongField("fileSize",file_size,Store.YES);
            //文件路径
            //文件路径域(不分析、不索引、只存储)
            String file_path=file.getPath();
            Field filePathField=new StoredField("filePath",file_path);
            //文件内容
            String file_content=FileUtils.readFileToString(file);
            Field fileContentField=new TextField("fileContent",file_content,Store.NO);

            document.add(fileNameField);
            document.add(fileSizeField);
            document.add(filePathField);
            document.add(fileContentField);
            //4、使用indexwriter对象将document对象写入索引库,此过程进行索引创建,并将索引和document对象写入索引库
            indexWriter.addDocument(document);
        }
        //5、关闭IndexWriter对象
        indexWriter.close();
    }

    /*
     * 索引查询
     * 
     * */
    @Test
    public void testSearch() throws IOException {
        //1、创建一个Directory对象,也就是索引库存放的位置
        Directory directory=FSDirectory.open(new File("J:\\Program\\java\\index"));
        //2、创建一个indexReader对象,需要制定Directory对象
        IndexReader indexReader=DirectoryReader.open(directory);
        //3、创建一个indexSearcher对象,需要制定indexReader对象
        IndexSearcher indexSearcher=new IndexSearcher(indexReader);
        //4、创建一个TermQuery对象,指定查询的域和查询的关键词
        Query query=new TermQuery(new Term("fileName","apache"));
        //5、执行查询
        //第一个参数是查询对象,第二个参数是查询结果返回的最大值
        TopDocs topDocs=indexSearcher.search(query, 2);
        //6、返回查询结果,遍历查询结果并输出
        //topDocs.scoreDocs存储了document对象的id
        ScoreDoc[]scoreDocs=topDocs.scoreDocs;
        for(ScoreDoc scoreDoc:scoreDocs) {
        //scoreDoc.doc属性就是document对象的id
        //根据document的id找到document对象
            int doc=scoreDoc.doc;
            Document document=indexSearcher.doc(doc);
            //文件名称
            String fileName=document.get("fileName");
            System.out.println(fileName);
            //文件内容
            String fileContent=document.get("fileContent");
            System.out.println(fileContent);
            //文件路径
            String filePath=document.get("filePath");
            System.out.println(filePath);
            //文件大小
            String fileSize=document.get("fileSize");
            System.out.println(fileSize);
            System.out.println("-----------------");
        }
        //7、关闭IndexReader对象
        indexReader.close();
    }
    @Test
    //查看标准分析器的分词效果
        public void testTokenStream() throws Exception {
            //创建一个标准分析器对象
//          Analyzer analyzer = new StandardAnalyzer();
            Analyzer analyzer = new IKAnalyzer();
            //获得tokenStream对象
            //第一个参数:域名,可以随便给一个
            //第二个参数:要分析的文本内容
            TokenStream tokenStream = analyzer.tokenStream("test", "The Spring Framework provides a comprehensive programming and configuration model.");
            //添加一个引用,可以获得每个关键词
            CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
            //添加一个偏移量的引用,记录了关键词的开始位置以及结束位置
            OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
            //将指针调整到列表的头部
            tokenStream.reset();
            //遍历关键词列表,通过incrementToken方法判断列表是否结束
            while(tokenStream.incrementToken()) {
                //关键词的起始位置
                System.out.println("start->" + offsetAttribute.startOffset());
                //取关键词
                System.out.println(charTermAttribute);
                //结束位置
                System.out.println("end->" + offsetAttribute.endOffset());
            }
            tokenStream.close();
        }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163

3.2.2 创建索引相关属性说明
是否分析:是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。
是否索引:将Field分析后的词或整个Field值进行索引,只有索引方可搜索到。
比如:商品名称、商品简介分析后进行索引,订单号、身份证号不用分析但也要索引,这些将来都要作为查询条件。
是否存储:将Field值存储在文档中,存储在文档中的Field才可以从Document中获取
比如:商品名称、订单号,凡是将来要从Document中获取的Field都要存储
是否存储的标准:是否要将内容展示给用户
这里写图片描述
3.2.3 查询索引相关说明
这里写图片描述
Lucene搜索结果可通过TopDocs遍历,TopDocs类提供了少量的属性,如下:
这里写图片描述
注意:
Search方法需要指定匹配记录数量n:indexSearcher.search(query, n)
TopDocs.totalHits:是匹配索引库中所有记录的数量
TopDocs.scoreDocs:匹配相关度高的前边记录数组,scoreDocs的长度小于等于search方法指定的参数n
3.2.4 分词器相关说明
分析器(Analyzer)的执行过程
这里写图片描述
从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Tokens。
要看分析器的分析效果,只需要看Tokenstream中的内容就可以了。每个分析器都有一个方法tokenStream,返回一个tokenStream对象。
中文分词器IKAnalyzer

使用方法:
这里写图片描述

Analyzer使用时机

索引时使用Analyzer

输入关键字进行搜索,当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析,需要经过Analyzer分析器处理生成语汇单元(Token)。分析器分析的对象是文档中的Field域。当Field的属性tokenized(是否分词)为true时会对Field值进行分析,如下图:
这里写图片描述
对于一些Field可以不用分析:
1、不作为查询条件的内容,比如文件路径
2、不是匹配内容中的词而匹配Field的整体内容,比如订单号、身份证号等。

搜索时使用Analyzer
对搜索关键字进行分析和索引分析一样,使用Analyzer对搜索关键字进行分析、分词处理,使用分析后每个词语进行搜索。比如:搜索关键字:spring web ,经过分析器进行分词,得出:spring web拿词去索引词典表查找 ,找到索引链接到Document,解析Document内容。
对于匹配整体Field域的查询可以在搜索时不分析,比如根据订单号、身份证号查询等。

注意:搜索使用的分析器要和索引使用的分析器一致。

4、索引库的维护

代码示例

//添加索引
    @Test
    public void addDocument() throws Exception {
        //索引库存放路径
        Directory directory = FSDirectory.open(new File("D:\\temp\\0108\\index"));

        IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, new IKAnalyzer());
        //创建一个indexwriter对象
        IndexWriter indexWriter = new IndexWriter(directory, config);
        //创建一个Document对象
        Document document = new Document();
        //向document对象中添加域。
        //不同的document可以有不同的域,同一个document可以有相同的域。
        document.add(new TextField("filename", "新添加的文档", Store.YES));
        document.add(new TextField("content", "新添加的文档的内容", Store.NO));
        document.add(new TextField("content", "新添加的文档的内容第二个content", Store.YES));
        document.add(new TextField("content1", "新添加的文档的内容要能看到", Store.YES));
        //添加文档到索引库
        indexWriter.addDocument(document);
        //关闭indexwriter
        indexWriter.close();

    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
package cn.ctgu.lucence;

import java.io.File;
import java.io.IOException;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.MatchAllDocsQuery;
import org.apache.lucene.search.NumericRangeQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;
import org.wltea.analyzer.lucene.IKAnalyzer;

/*
 * 索引维护
 * 添加
 * 删除
 * 修改
 * 查询
 * 
 * 
 * */

public class LucenceManager {

    public IndexWriter getIndexWriter() throws IOException {
        //1、创建一个indexWriter对象
        Directory directory=FSDirectory.open(new File("J:\\Program\\java\\index"));
        Analyzer analyzer=new StandardAnalyzer();
        IndexWriterConfig config=new IndexWriterConfig(Version.LATEST, analyzer);
        return new IndexWriter(directory,config);

    }
    //全删除
    //说明:将索引目录的索引信息全部删除,直接彻底删除,无法恢复。
    @Test
    public void testAllDelete() throws IOException {
        IndexWriter indexWriter=getIndexWriter();
        indexWriter.deleteAll();
        indexWriter.close();
    }
    //根据条件删除
    @Test
    public void testDelete() throws IOException {
        IndexWriter indexWriter=getIndexWriter();
        Query query=new TermQuery(new Term("fileName","apache"));
        indexWriter.deleteDocuments(query);
        indexWriter.close();
    }
    //修改
    //原理就是先删除后添加。
    @Test
    public void testUpdate() throws IOException {
        IndexWriter indexWriter=getIndexWriter();
        Document doc=new Document();
        //往lucence语汇单元中增加两个域
        doc.add(new TextField("fileN","测试文件名",Store.YES));
        doc.add(new TextField("fileC","测试文件内容",Store.YES));
        indexWriter.updateDocument(new Term("fileName","lucence"), doc);
    }
    public IndexSearcher getIndexSearcher() throws IOException {
        //1、创建一个Directory对象,也就是索引库存放的位置
        Directory directory=FSDirectory.open(new File("J:\\Program\\java\\index"));
        //2、创建一个indexReader对象,需要制定Directory对象
        IndexReader indexReader=DirectoryReader.open(directory);
        //3、创建一个indexSearcher对象,需要制定indexReader对象
        return new IndexSearcher(indexReader);
    }

    //执行查询结果
    public void printResult(IndexSearcher indexSearcher,Query query) throws IOException {
        //5、执行查询
        TopDocs topDocs=indexSearcher.search(query, 2);
        //6、返回查询结果,遍历查询结果并输出
        ScoreDoc[]scoreDocs=topDocs.scoreDocs;
        for(ScoreDoc scoreDoc:scoreDocs) {
        int doc=scoreDoc.doc;
        Document document=indexSearcher.doc(doc);
        //文件名称
        String fileName=document.get("fileName");
        System.out.println(fileName);
        //文件内容
        String fileContent=document.get("fileContent");
        System.out.println(fileContent);
        //文件路径
        String filePath=document.get("filePath");
        System.out.println(filePath);
        //文件大小
        String fileSize=document.get("fileSize");
        System.out.println(fileSize);
        System.out.println("-----------------");
    }

    }
    //查询所有
    @Test
    public void testMatchAllDocsQuery() throws IOException {
        IndexSearcher indexSearcher=getIndexSearcher();
        Query query=new MatchAllDocsQuery();
        printResult(indexSearcher,query);
        indexSearcher.getIndexReader().close();
    }
    //根据区间查询
    @Test
    public void testNumbericRangeQuery() throws IOException {
        IndexSearcher indexSearcher=getIndexSearcher();
        //查询100-200之间的,都是闭区间
        Query query=NumericRangeQuery.newLongRange("fileSize", 100L, 200L, true, true);
        printResult(indexSearcher,query);
        //关闭资源
        indexSearcher.getIndexReader().close();
    }
    //组合查询
    @Test
    public void testBooleanQuery() throws IOException {
        IndexSearcher indexSearcher=getIndexSearcher();
        BooleanQuery booleanQuery=new BooleanQuery();
        Query query1=new TermQuery(new Term("fileName","apache"));
        Query query2=new TermQuery(new Term("fileName","lucence"));

        booleanQuery.add(query2,Occur.MUST);
        booleanQuery.add(query1, Occur.MUST);
        printResult(indexSearcher,booleanQuery);
        //关闭资源
        indexSearcher.getIndexReader().close();
    }
    //条件解析的对象查询
    @Test
    public void testQueryParser() throws IOException, ParseException {
        IndexSearcher indexSearcher=getIndexSearcher();
        //参数1:默认查询的域
        //参数2:采用的分析器
        QueryParser queryParser=new QueryParser("fileName",new IKAnalyzer());
        //*:*  域,值
        Query query=queryParser.parse("java is apache");
        printResult(indexSearcher,query);
        //关闭资源
        indexSearcher.getIndexReader().close();
    }
    //条件解析的对象查询  多个默认域
    @Test
    public void testMultiFieldQueryParser() throws ParseException, IOException {

        IndexSearcher indexSearcher=getIndexSearcher();
        String[]fields= {"fileName","fileContent"};
        //参数1:默认查询的域
        //参数2:采用的分析器
        MultiFieldQueryParser queryParser=new MultiFieldQueryParser(fields,new IKAnalyzer());
        //*:*  域,值
        Query query=queryParser.parse("java is apache");
        printResult(indexSearcher,query);
        //关闭资源
        indexSearcher.getIndexReader().close();
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176

Lucence索引库查询相关说明(具体代码见上面)
对要搜索的信息创建Query查询对象,Lucene会根据Query查询对象生成最终的查询语法,类似关系数据库Sql语法一样Lucene也有自己的查询语法,比如:“name:lucene”表示查询Field的name为“lucene”的文档信息。
可通过两种方法创建查询对象:
1)使用Lucene提供Query子类
Query是一个抽象类,lucene提供了很多查询对象,比如TermQuery项精确查询,NumericRangeQuery数字范围查询等。
如下代码:

    Query query = new TermQuery(new Term("name", "lucene"));
  • 1

2)使用QueryParse解析查询表达式
QueryParse会将用户输入的查询表达式解析成Query对象实例。
如下代码:

QueryParser queryParser = new QueryParser("name", new IKAnalyzer());
        Query query = queryParser.parse("name:lucene");
  • 1
  • 2

使用query的子类查询
MatchAllDocsQuery
使用MatchAllDocsQuery查询索引目录中的所有文档

@Test
    public void testMatchAllDocsQuery() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //创建查询条件
        Query query = new MatchAllDocsQuery();
        //执行查询
        printResult(query, indexSearcher);
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

TermQuery
TermQuery,通过项查询,TermQuery不使用分析器所以建议匹配不分词的Field域查询,比如订单号、分类ID号等。
指定要查询的域和要查询的关键词。

//使用Termquery查询
    @Test
    public void testTermQuery() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //创建查询对象
        Query query = new TermQuery(new Term("content", "lucene"));
        //执行查询
        TopDocs topDocs = indexSearcher.search(query, 10);
        //共查询到的document个数
        System.out.println("查询结果总数量:" + topDocs.totalHits);
//遍历查询结果
        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document document = indexSearcher.doc(scoreDoc.doc);
            System.out.println(document.get("filename"));
            //System.out.println(document.get("content"));
            System.out.println(document.get("path"));
            System.out.println(document.get("size"));
        }
        //关闭indexreader
        indexSearcher.getIndexReader().close();
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

NumericRangeQuery
可以根据数值范围查询。

//数值范围查询
    @Test
    public void testNumericRangeQuery() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //创建查询
        //参数:
        //1.域名
        //2.最小值
        //3.最大值
        //4.是否包含最小值
        //5.是否包含最大值
        Query query = NumericRangeQuery.newLongRange("size", 1l, 1000l, true, true);
        //执行查询
        printResult(query, indexSearcher);
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

BooleanQuery
可以组合查询条件。

//组合条件查询
    @Test
    public void testBooleanQuery() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //创建一个布尔查询对象
        BooleanQuery query = new BooleanQuery();
        //创建第一个查询条件
        Query query1 = new TermQuery(new Term("filename", "apache"));
        Query query2 = new TermQuery(new Term("content", "apache"));
        //组合查询条件
        query.add(query1, Occur.MUST);
        query.add(query2, Occur.MUST);
        //执行查询
        printResult(query, indexSearcher);
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

Occur.MUST:必须满足此条件,相当于and
Occur.SHOULD:应该满足,但是不满足也可以,相当于or
Occur.MUST_NOT:必须不满足。相当于not

使用queryparser查询
需要加入queryParser依赖的jar包。
lucene-queryparser-4.10.3.jar

通过QueryParser也可以创建Query,QueryParser提供一个Parse方法,此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);查询。
需要使用到分析器。建议创建索引时使用的分析器和查询索引时使用的分析器要一致。

@Test
    public void testQueryParser() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //创建queryparser对象
        //第一个参数默认搜索的域
        //第二个参数就是分析器对象
        QueryParser queryParser = new QueryParser("content", new IKAnalyzer());
        Query query = queryParser.parse("Lucene是java开发的");
        //执行查询
        printResult(query, indexSearcher);
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

查询语法
1、基础的查询语法,关键词查询:
域名+“:”+搜索的关键字
例如:content:java
2、范围查询
域名+“:”+[最小值 TO 最大值]
例如:size:[1 TO 1000]
范围查询在lucene中支持数值类型,不支持字符串类型。在solr中支持字符串类型。
3、组合条件查询
1)+条件1 +条件2:两个条件之间是并且的关系and
例如:+filename:apache +content:apache
2)+条件1 条件2:必须满足第一个条件,应该满足第二个条件
例如:+filename:apache content:apache
3)条件1 条件2:两个条件满足其一即可。
例如:filename:apache content:apache
4)-条件1 条件2:必须不满足条件1,要满足条件2
例如:-filename:apache content:apache
这里写图片描述

MultiFieldQueryParser
可以指定多个默认搜索域

@Test
    public void testMultiFiledQueryParser() throws Exception {
        IndexSearcher indexSearcher = getIndexSearcher();
        //可以指定默认搜索的域是多个
        String[] fields = {"filename", "content"};
        //创建一个MulitFiledQueryParser对象
        MultiFieldQueryParser queryParser = new MultiFieldQueryParser(fields, new IKAnalyzer());
        Query query = queryParser.parse("java AND apache");
        System.out.println(query);
        //执行查询
        printResult(query, indexSearcher);

    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

说明:本博客内容主要参考传智播客课程。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/168241
推荐阅读
相关标签
  

闽ICP备14008679号