赞
踩
提取、转换和加载(ETL)框架是检索增强生成(RAG)中数据处理的支柱。
ETL 管道编排了从原始数据源到结构化向量存储的流程,确保数据以最佳格式存储,以便 AI 模型检索。
RAG 用例是通过从数据体中检索相关信息来增强生成模型的能力,以提高生成输出的质量和相关性。
ETL 管道的三个主要组件是
假如我们有这三种 ETL 类型的实例对象
vectorStore.accept(tokenTextSplitter.apply(pdfReader.get()));
要开始创建一个 Spring AI RAG 应用程序,请按照以下步骤进行:
spring boot new --from ai-rag --name myrag
ETL 管道由以下接口和实现组成。详细的 ETL 类图在下面的 ETL 类图部分 中显示。
提供来自不同来源的文档资源。
public interface DocumentReader extends Supplier<List<Document>> {
}
JsonReader解析 JSON 格式的文档。
例子:
@Component
public class MyAiApp {
@Value("classpath:bikes.json") // This is the json document to load
private Resource resource;
List<Document> loadJsonAsDocuments() {
JsonReader jsonReader = new JsonReader(resource, "description");
return jsonReader.get();
}
}
该TextReader处理纯文本文档。
例子:
@Component
public class MyTextReader {
@Value("classpath:text-source.txt") // This is the text document to load
private Resource resource;
List<Document> loadText() {
TextReader textReader = new TextReader(resource);
textReader.getCustomMetadata().put("filename", "text-source.txt");
return textReader.get();
}
}
该PagePdfDocumentReader使用 Apache PdfBox 库来解析 PDF 文档
例子:
@Component public class MyPagePdfDocumentReader { List<Document> getDocsFromPdf() { PagePdfDocumentReader pdfReader = new PagePdfDocumentReader("classpath:/sample1.pdf", PdfDocumentReaderConfig.builder() .withPageTopMargin(0) .withPageExtractedTextFormatter(ExtractedTextFormatter.builder() .withNumberOfTopTextLinesToDelete(0) .build()) .withPagesPerDocument(1) .build()); return pdfReader.get(); } }
该ParagraphPdfDocumentReader使用 PDF 目录(例如 TOC)信息将输入的 PDF 拆分为文本段落,并为每个段落输出一个Document。注意:并非所有 PDF 文档都包含 PDF 目录。
例子:
@Component public class MyPagePdfDocumentReader { List<Document> getDocsFromPdfwithCatalog() { new ParagraphPdfDocumentReader("classpath:/sample1.pdf", PdfDocumentReaderConfig.builder() .withPageTopMargin(0) .withPageExtractedTextFormatter(ExtractedTextFormatter.builder() .withNumberOfTopTextLinesToDelete(0) .build()) .withPagesPerDocument(1) .build()); return pdfReader.get(); } }
TikaDocumentReader使用 Apache Tika 从各种文档格式中提取文本,如 PDF、DOC/DOCX、PPT/PPTX 和 HTML。有关支持的格式的详细列表,请参考 Tika documentation。
例子:
@Component
public class MyTikaDocumentReader {
@Value("classpath:/word-sample.docx") // This is the word document to load
private Resource resource;
List<Document> loadText() {
TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(resourceUri);
return tikaDocumentReader.get();
}
}
作为处理工作流程的一部分,用于转换文档。
public interface DocumentTransformer extends Function<List<Document>, List<Document>> {
TextSplitter是一个抽象基类,帮助将文档分割以适应 AI 模型的上下文窗口。
在保持标记级完整性的同时拆分文档。
确保所有文档中的内容格式统一。
关键元数据增强文档。
为增强检索而为文档添加摘要元数据。
管理 ETL 过程的最后阶段,将文档进行存储。
public interface DocumentWriter extends Consumer<List<Document>> {
}
将文档持久化到文件中。
与各种向量存储进行集成。请参阅 05. 向量数据库 章节以获取完整列表。
以下类图展示了 ETL 接口和实现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。