当前位置:   article > 正文

Python处理 PDF神器PyMuPDF 将PDF转文字_python pymupdf 处理中文

python pymupdf 处理中文

目录

第一步,需要安装pycharm

1、安装文件在这里:

2、破解方案看这里(仅供学习交流,请勿用作商业用途)

第二步、关键代码

1、下载依赖

2、关键代码

附:完整代码


        最近学习RAG的时候,偶然解锁了PDF转文字的小功能,用的python,在win10-64位操作系统上,使用的IDE是Pycharm_Professional_2020.3.2_Portable,这里记录一下。

2478ec4c457f47278a08c1a7dd017bf6.png

第一步,需要安装pycharm

1、安装文件在这里:

链接:https://pan.baidu.com/s/1uHe5BWS6BnXJt5_ujgNcLw?pwd=o80w 
提取码:o80w 

2、安装方案看这里(仅供学习交流,请勿用作商业用途)

原链接可以看这里:https://www.3363.cn/soft/19122.html#

6a1c3b44a8869c445233e143912fbe78.jpeg

00055faa755697fa9995454b03d21ab5.jpeg

d01805425189429dee912c7fcf32a3e1.jpeg


 

2a20a1537f2a6f1d8a368e2c0c960641.jpeg

bd5f3cc43c87f19b370e80d9dfa1a026.jpeg

7dde7ef0c06e01b90fda3b5180b0baec.jpeg

2fd0e00fad93d3dd3b378382922213cd.jpeg

707d8cc78061f6cd081411bd6a897228.jpeg

27ae297dcf46cbfe868d8bb53109c24f.jpeg

3aac8791a14d2646bc4d42910b46e16a.jpeg

5db774be081c1631bffc665391a8c131.jpeg

第二步、关键代码

当时参考了这篇文章:Python 处理 PDF神器 —— PyMuPDF 的安装与使用!-CSDN博客。关键点是以下:

1、下载依赖

pip install PyMuPDF

ccfc0ac6b98e4fca86aebce6f840f411.png

2、关键代码

  1. def extract_text_from_pdf(pdf_path, page_numbers):
  2. """
  3. 从PDF文件的指定页码中提取文字。
  4. :param pdf_path: PDF文件的路径。
  5. :param page_numbers: 以列表形式指定的页码。
  6. :return: 提取的文字。
  7. """
  8. text_list = []
  9. with fitz.open(pdf_path) as pdf:
  10. for page_number in page_numbers:
  11. # 获取指定页码的页面
  12. page = pdf[page_number - 1] # 注意:PyMuPDF的页面索引从0开始
  13. # 提取文字
  14. text = page.get_text()
  15. text_list.append(text)
  16. return "\n".join(text_list) # 使用换行符连接提取的文字

70ac9a3138114058811fa4e1c85e9ec0.png附:完整代码

链接:https://pan.baidu.com/s/1psP0vX4tsW52_DSlRlA0OQ?pwd=8j7i 
提取码:8j7i 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/500661
推荐阅读
相关标签
  

闽ICP备14008679号