当前位置:   article > 正文

腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎_es结合ai

es结合ai

引言

 

信息化技术的飞速发展使得海量数据爆发式增长。一方面,越来越多的数据可以为我们的生活带来便利,但另一方面,也给软件开发带来巨大的挑战——图片、声音、视频等不同结构的数据越来越多地出现,为搜索分析带来巨大的挑战,传统的关键词搜索,搜索结果局限于输入的关键词,用户体验较差。向量检索的出现,给我们提供了一个新的思路,向量数据库将非结构化、半结构化甚至是结构化等数据以向量形式存储,实现相似度搜索、聚类、降维等操作,结合机器学习模型,为用户更加智能的搜索服务。

然而,集文本搜索➕向量检索➕AI能力于一身,且成熟稳定、值得信赖的云端搜索引擎,在业内屈指可数,腾讯云大数据Elasticsearch Service近期首发上线的ES 8.8.1版本,提供了强大的云端AI增强与向量检索能力,支持在端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,10亿级向量检索平均响应延迟控制在毫秒级,助力客户实现由AI驱动的高级搜索能力,为搜索与分析带来全新的前沿体验。

强大的AI增强搜索引擎

结合AI的最佳实践和Elastic的文本搜索,Elasticsearch为开发人员提供了一整套将复杂的检索算法与大型语言模型(LLM)集成的能力,其特性参考如下:

01

自定义Transformer模型

开发人员可在 Elastic 中管理和使用自己的transformer 模型来完成各种自然语言处理任务,以适应特定的业务场景。

7e4b191e25020d0127bcf2aeceff87ff.png

02

Elastic训练的优化搜索模型

使用 Elastic 训练的开箱即用的 Learned Sparse Encoder机器学习模型来优化搜索,可在各种领域提供更好相关性、语义化的搜索。

393ef6f88588957d0ea1fd93b3866b3d.png

03

与第三方Transformer模型集成,提取直观摘

通过 API与大语言模型集成(如OpenAl的GPT- 3和4),从Elasticsearch数据源中提取摘要。

684fb2674ce580d8f227eca40a900c7d.png

04

充分应用各种自然语言处理(NLP)任务和

通过强大的自然语言处理能力,处理各种NLP任务和模型,使得搜索结果更加符合自然语言的语义。

fd39b163e8ba422052dff62ba1753875.png

05

第三方工具集成,构建复杂的数据管道和生成式AI应用程序

通过强大的自然语言处理能力,处理各种NLP任务和模型,使得搜索结果更加符合自然语言的语义。

7371900743668cb06d5e8cb698055f05.png

原生向量搜索引擎

企业可以将腾讯云ES作为向量数据库使用,有效地创建、存储和搜索密集向量,为用户提供更加智能的搜索功能。例如,企业可在腾讯云ES上传自定义大数据模型来做Embedding,如词嵌入模型(Word Embeddings)或深度学习模型(如BERT),在读写过程中实时将图片、文本等数据转换为向量,然后存入Elasticsearch构建索引并进行相似度召回。同时,在召回后,可选择将TOP结果传入LLM大语言模型,对信息进行对话式结果整合,最终返回给用户,实现对话式搜索。相关特性参考如下:

01

提供图索引,通过HNSW实现高效的最近邻

712b07ebc365653695eb2ac5a0883a1a.png

02

支持端到端的向量生成、向量索引、向量相似性比较,无需额外的平台进行向量推理

0c5bc03f3dfcd1e2e25e5c1dd758957f.png

03

一体化的搜索体验:多路召回混合打分、Faceting聚合分析能力、基于角色的访问控制

8faff0996e326268084460c6a68efa70.png

04

提供向量类型,将向量存储为字节而不是浮点,同时,应用主成分分析PCA等方法降低向量维度,节省存储空间

3f4d43c5ca8212d744b06218707c651d.png

05

持续优化的向量索引和查询性能

f1d1f18656f19d51cc0e3112aec2c883.png

全新混合排序算法

Elasticsearch 8.8.1版本使用最新的Reciprocal Rank Fusion (RRF) 混合排序算法,可同时支持全文检索和向量搜索,让开发人员更好地优化Al搜索引擎,实现语义和关键字的组合查询。

41f35c501777bd43f8b4e7516f365887.png

客户案例介绍

以使用腾讯云ES的某知名新媒体网站客户为例,客户通过腾讯云ES提供的强大搜索能力,实现文本搜索+向量搜索的混合搜索,精准的对用户上传的图文内容进行违规检测,进而降低业务风险。其相关实现如下:

1)相关数据通过自定义的模型进行Embedding之后,转换成向量,存储在索引里面。

2)APP的用户用户发表评论或者上传文章等操作,相关数据将实时的进行Embbdding,并与索引内的向量进行相似性比对,结合文本搜索能力,实现多路召回。

3)如相关内容涉嫌违规,将会被驳回,并予以警告。

b7f299f2c8495bfd787dffbb5943787b.png

写在最后

腾讯云大数据Elasticsearch Service近期首发上线的ES 8.8.1版本,提供向量检索和AI增强功能,支持在单一端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,结合腾讯云ES提供的丰富的云原生能力,支持高达十亿级向量检索,平均响应延迟控制在毫秒级。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/604862
推荐阅读
相关标签
  

闽ICP备14008679号