当前位置:   article > 正文

无缝对接私有数据源!Amazon Bedrock 知识库为 RAG 技术提供强大支持

无缝对接私有数据源!Amazon Bedrock 知识库为 RAG 技术提供强大支持

6e7a8157f3fdf2777b6f9b29093763e4.gif

本文作者 Antje Barth

我们非常高兴地宣布,除了 Amazon Simple Storage Service(Amazon S3)之外,您现在可以将网站域名、Confluence、Salesforce、SharePoint 作为数据源直接连接到您的 RAG 应用程序(预览版)。

Amazon Bedrock 的知识库和基础模型(FM)现已实现与您企业私有数据源的无缝对接,为检索增强生成(RAG)技术提供强大支持。这一创新使得基础模型在生成回应时更加贴近用户需求,确保信息的相关性、准确性和个性化。

在过去的几个月里,我们不断扩充知识库的深度与广度,引入了多种嵌入模型、向量存储技术,并丰富了基础模型的选项,以满足不同行业和场景的需求。现在,除了 Amazon S3 之外,我们的 RAG 应用程序现支持更多类型的数据源。

使用 Amazon Bedrock 的知识库,基础模型和代理可以从企业私有数据源中检索上下文信息,用于 RAG。RAG 可帮助基础模型提供更相关、更准确和更个性化的响应。在过去几个月中,我们不断增加将模型、向量存储和基础模型嵌入知识库的选择。现在,Amazon Bedrock 知识库扩展了数据连接器(预览版)。

ea5c70867cedf4fbcf1e8be61bef4f24.png

用于网站域名、Confluence、Salesforce 和 SharePoint 的新数据源连接器

通过将您的网站域名纳入 RAG 应用程序,您的应用将能够访问到包括公司社交媒体的更多公共数据源,这将提高对用户输入的响应的相关性、及时性和全面性。使用新的连接器,您现在可以将 Confluence、Salesforce 和 SharePoint 中现有的公司数据源添加到您的 RAG 应用程序中。

在下面的示例中,我将使用网页爬虫(Web Crawler)添加一个网站域名,并将 Confluence 作为数据源连接到知识库。同样,将 Salesforce 和 SharePoint 连接为数据源的模式与此类似。

884cbfc622a75f37344ea90e17c19fbd.png

然后,选择您要使用的数据源。此处我选择的是网页爬虫(Web Crawler)。

df218d05c11bab8839b7ee24e7e972f3.png

您还可以选择配置自定义加密设置和数据删除策略,以定义在删除数据源时是保留还是删除向量存储数据。我保留了默认的高级设置。

在同步范围部分,您可以配置要使用的同步域级别、每分钟要抓取的最大 URL 数量,以及包含或排除某些 URL 的正则表达式模式。

c34e0115e76c6b8d334622d71d2c7d40.png

完成网页爬虫数据源配置后,通过选择嵌入模型并配置所选的向量存储来完成知识库设置。创建后,您可以检查知识库详情以监控数据源同步状态。同步完成后,您可以测试知识库,并查看带有网页 URL 引用的基础模型响应。

b9dfc6fc36e9b46e06fb4e366562d331.png

如果您想以编程方式创建数据源,您可以使用亚马逊云科技命令行界面(Amazon CLI)或 Amazon SDK。相关代码示例请查看 Amazon Bedrock 用户指南。

aaf2b22d1702493ead7c806f148116c5.png

相关代码

扫码了解更多

将 Confluence 连接为数据源

现在,我们在知识库设置中选择 Confluence 作为数据源。

e3b908edc4469eca05244937559587a0.png

要将 Confluence 配置为数据源,我需要再次为数据源提供名称和描述,选择托管方式,并输入 Confluence URL。

要连接到 Confluence,您可以选择基本身份验证或 OAuth 2.0 身份验证。在此演示中,我选择基本身份验证,它需要用户名(您的 Confluence 用户帐户电子邮件地址)和密码(Confluence API token)。我将相关凭据存储在 Amazon Secrets Manager 中,并选择该密文。

注意:确保秘密名称以“AmazonBedrock-”开头,并且您为知识库的 IAM 服务角色在 Secrets Manager 中具有访问此秘密的权限。

1fb27b389284dee3ac8f07158f436009.png

Amazon Secrets 

Manager 

扫码了解更多

4b3fd4eefc85132f39cbf959a507a980.png

在元数据设置中,您可以使用正则表达式的包含和排除模式来控制要爬取的内容范围,并配置内容分块和解析策略。

c3e73fa854dac69cc76ed7e7b17406d6.png

完成 Confluence 数据源配置后,通过选择嵌入模型并配置所选的向量存储来完成知识库设置。

创建后,您可以检查知识库的详细信息,以监控数据源同步状态。同步完成后,就可以测试知识库了。在这个演示中,我在 Confluence 空间中添加了一些虚构的会议记录。让我们来了解其中一次会议的行动项目!

7e7ec433845e9fa25dab198727b8045a.png

关于如何将 Salesforce 和 SharePoint 连接为数据源的说明,请查看 Amazon Bedrock 用户指南。

2e2bf24c39a2ed03e71634195846abcd.png

Amazon Bedrock 用户指南

扫码了解更多

注意事项

  • 包含和排除过滤器 - 所有数据源都支持包含和排除过滤器,因此您可以对从给定源爬取的数据进行精细控制。

  • 网页爬虫 - 请记住,您必须只在自己的网页或有权限爬网的网页上使用网页爬虫。

立即上手体验

9ecf6a348c494b91080fa4d0febb1b00.png

本篇作者

d9be1fe81502227d38fc4ff2b6f0095e.jpeg

Antje Barth

亚马逊云科技生成式 AI 的首席开发推广师。她是 O 'Reilly 的书籍《亚马逊云科技的生成 AI》和《亚马逊云科技的数据科学》的合著者。Antje 经常在世界各地的人工智能与机器学习会议、活动中发表演讲。她还共同创立了“大数据中的女性”塞尔多夫分会。

2bef045f892b08dfb1fe8cb319db1361.png

e13effb5d701c8f1af6eab7264d550b6.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

2799b7386b4aa40fc09ea674c67aba22.gif

点击阅读原文查看博客,获得更详细内容

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/917527
推荐阅读
相关标签
  

闽ICP备14008679号