当前位置:   article > 正文

Langchain 与 Elasticsearch:创新数据检索的融合实战

langchain+es

1、简介

在信息爆炸的时代,有效地检索和处理数据变得至关重要。Langchain 和 Elasticsearch 的结合,为我们提供了一个强大的工具,以更智能的方式进行数据检索和分析。

作为一名拥有多年 Elasticsearch 实战经验的技术博主,我将在本文中详细介绍这两种技术的整合应用。

2、LangChain 简介

Langchain是一个旨在简化自然语言处理任务的库。它允许开发者轻松地集成和使用各种 AI 模型,如 GPT-3,来处理复杂的语言任务。

3、Elasticsearch 简介

Elasticsearch 是一个高度可扩展的开源全文搜索和分析引擎。它允许用户快速、实时地进行和分析大量数据。

4、LangChain 与 Elasticsearch 的整合

结合 Langchain和 Elasticsearch,我们可以利用 AI 模型的强大语言处理能力,与 Elasticsearch 的高效数据检索功能,实现智能化的搜索解决方案。

d4d9526728c82dd5842f74d1a8a7e990.jpeg

4.1 案例1:Langchain 连接 Elasticsearch

以下是一个实际的代码示例,展示了如何使用 Langchain与 Elasticsearch 进行数据检索:

  1. python
  2. Copy code
  3. import ssl
  4. import openai
  5. from elasticsearch import Elasticsearch
  6. from langchain_community.vectorstores import ElasticsearchStore
  7. from langchain_openai import OpenAIEmbeddings
  8. from langchain.text_splitter import CharacterTextSplitter
  9. from langchain_community.document_loaders import TextLoader
  10. # 设置代理访问 API
  11. os.environ["HTTP_PROXY"] = "http://127.0.0.1:33210"
  12. os.environ["HTTPS_PROXY"] = "http://127.0.0.1:33210"
  13. os.environ["ALL_PROXY"] = "socks5://127.0.0.1:33211"
  14. # 加载文档
  15. file_path = 'conf/state_of_the_union.txt'
  16. encoding = 'utf-8'
  17. loader = TextLoader(file_path, encoding=encoding)
  18. documents = loader.load()
  19. # 文档分割
  20. text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
  21. docs = text_splitter.split_documents(documents)
  22. # 连接 Elasticsearch
  23. conn = Elasticsearch(
  24.     "https://127.0.0.1:9200",
  25.     ca_certs = "certs/http_ca.crt",
  26.     basic_auth = ("elastic""changeme"),
  27.     verify_certs=False
  28. )
  29. # 创建索引并进行检索
  30. embeddings = OpenAIEmbeddings()
  31. db = ElasticsearchStore.from_documents(docs, embeddings, index_name="test_index", es_connection=conn)
  32. db.client.indices.refresh(index="test_index")
  33. query = "What did the president say about Ketanji Brown Jackson"
  34. results = db.similarity_search(query)
  35. print(results)

这段代码展示了如何加载、处理文档,并通过 Langchain 结合 Elasticsearch 进行智能检索。

执行结果:

ff10633bc6c6075f91de97360e97a0a8.png 133b34cd22bd65cb892f397f519f9c76.png

4.2 案例2:精细化处理

进一步,我们可以为文档添加更丰富的元数据,并利用这些元数据进行更精细化的搜索:

  1. # 添加元数据
  2. for i, doc in enumerate(docs):
  3.     doc.metadata["date"] = f"{range(2010, 2020)[i % 10]}-01-01"
  4.     doc.metadata["rating"] = range(16)[i % 5]
  5.     doc.metadata["author"] = ["John Doe""Jane Doe"][i % 2]
  6. # 再次连接 Elasticsearch
  7. conn = Elasticsearch(
  8.     "https://127.0.0.1:9200",
  9.     ca_certs = "certs/http_ca.crt",
  10.     basic_auth = ("elastic""changeme"),
  11.     verify_certs=False
  12. )
  13. # 创建带有元数据的索引
  14. db = ElasticsearchStore.from_documents(docs, embeddings, index_name="test-metadata", es_connection=conn)
  15. # 执行检索
  16. query = "What did the president say about Ketanji Brown Jackson"
  17. docs = db.similarity_search(query)
  18. print(docs[0].metadata)
  19. # 应用过滤条件
  20. docs = db.similarity_search(query, filter=[{"term": {"metadata.author.keyword""John Doe"}}])
  21. print(docs[0].metadata)

执行结果:

  • 1、写入 Elasticsearch 索引,效果图:

5f097f9e6a26372ea93172394cb09d45.png
  • 2、执行检索效果:

33141a20c022ef823fba83bdaf238b52.png

在这个案例中,我们通过添加元数据来增强文档的描述性,使得检索结果更加精确和有用。

5、问题解决

在实际应用中,我们可能会遇到各种问题,例如网络连接问题、配置错误或代码逻辑问题。

在这种情况下,确保你的环境设置正确,并且仔细检查代码中的每个步骤,以确保所有操作按预期进行。

6、总结

通过结合 Langchain 和 Elasticsearch,我们可以构建一个强大的数据检索系统,不仅能处理大量数据,还能以智能和高效的方式进行搜索和分析。

官网代码都不能跑起来,需要自己摸索好长时间!

这种技术的融合,为处理复杂的信息检索任务提供了新的可能。

希望这篇博客能够帮助读者更好地理解 Langchain和 Elasticsearch 如何结合,以及如何在实际项目中应用这些技术。这种整合为数据检索和自然语言处理的未来发展开辟了新的道路。

7、参考资料

Langchain 官方文档:

https://python.langchain.com/docs/integrations/vectorstores/elasticsearch

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

ef6b8511df4438a1d6a3164aefb1b7de.jpeg

更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

efe0b677e6e15e830b52c6f4f3e8ba1c.gif

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/1004678
推荐阅读
相关标签
  

闽ICP备14008679号