赞
踩
PDF 和图像文件中蕴藏着如此多有价值的信息。幸运的是,我们拥有强大的大脑,能够处理这些文件以查找特定信息,这实际上很棒。
但是,我们中有多少人内心深处不希望有一个工具可以回答有关给定文档的任何问题?
清楚地了解正在构建的系统的主要组件总是有好处的。那么让我们开始吧。
首先,用户提交要处理的文档,该文档可以是PDF或图像格式。
第二个模块用于检测文件的格式,以便应用相关内容提取功能。
然后使用该模块将文档的内容分成多个块Data Splitter。
Chunk Transformer这些块最终在存储到向量存储中之前使用 转换为嵌入。
在该过程结束时,用户的查询用于查找包含该查询答案的相关块,并将结果作为 JSON 返回给用户。
对于每个输入文档,根据其类型(无论是PDF、 还是image.
这可以通过辅助函数与内置 Python 模块中的函数detect_document_type相结合来实现。guess
def detect_document_type(document_path):
guess_file = guess(document_path)
file_type = ""
image_types = ['jpg', 'jpeg', 'png', 'gif']
if(guess_f
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。