赞
踩
目录
最近学习RAG的时候,偶然解锁了PDF转文字的小功能,用的python,在win10-64位操作系统上,使用的IDE是Pycharm_Professional_2020.3.2_Portable,这里记录一下。
链接:https://pan.baidu.com/s/1uHe5BWS6BnXJt5_ujgNcLw?pwd=o80w
提取码:o80w
原链接可以看这里:https://www.3363.cn/soft/19122.html#。
当时参考了这篇文章:Python 处理 PDF神器 —— PyMuPDF 的安装与使用!-CSDN博客。关键点是以下:
pip install PyMuPDF
- def extract_text_from_pdf(pdf_path, page_numbers):
- """
- 从PDF文件的指定页码中提取文字。
- :param pdf_path: PDF文件的路径。
- :param page_numbers: 以列表形式指定的页码。
- :return: 提取的文字。
- """
- text_list = []
- with fitz.open(pdf_path) as pdf:
- for page_number in page_numbers:
- # 获取指定页码的页面
- page = pdf[page_number - 1] # 注意:PyMuPDF的页面索引从0开始
- # 提取文字
- text = page.get_text()
- text_list.append(text)
- return "\n".join(text_list) # 使用换行符连接提取的文字

链接:https://pan.baidu.com/s/1psP0vX4tsW52_DSlRlA0OQ?pwd=8j7i
提取码:8j7i
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。