当前位置:   article > 正文

python实现PDF压缩_python 压缩 pdf

python 压缩 pdf

目前只针对纯PDF图片压缩。
实现原理: 主要通过PYMUPDF进行图片提取,图片压缩,再合并生成一个新的PDF。

1.安装依赖包

笔者的环境是Windows 10,Python3.8

pip install fitz
  • 1

2.提取原PDF关键代码

3.合并图片生成PDF

import glob
import fitz
import os
import time

# 1.提取原PDF关键代码
def pdf2pic(filename):
    image_floder='pdf'+str(time.time())
    os.mkdir(image_floder)

    pdffile = filename
    doc = fitz.open(pdffile)
    width, height = fitz.PaperSize("a4")
    
    totaling = doc.pageCount
    
    for pg in range(totaling):
        page = doc[pg]
        zoom = int(100)
        rotate = int(0)
        print(page)
        trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).preRotate(rotate)
        pm = page.getPixmap(matrix=trans, alpha=False)
        lurl=image_floder+'/%s.jpg' % str(pg+1)
        pm.writePNG(lurl)
    doc.close()
    return image_floder
 
# 2.合并图片生成PDF
def pic2pdf(image_floder):
    doc = fitz.open()
    for img in sorted(glob.glob(image_floder+"/*")):  # 读取图片,确保按文件名排序
        print(img)
        imgdoc = fitz.open(img)                 # 打开图片
        pdfbytes = imgdoc.convertToPDF()        # 使用图片创建单页的 PDF
        imgpdf = fitz.open("pdf", pdfbytes)
        doc.insertPDF(imgpdf)                   # 将当前页插入文档
    if os.path.exists("newpdf.pdf"):        # 若文件存在先删除
        os.remove("newpdf.pdf")
    doc.save("newpdf.pdf")                   # 保存pdf文件
    doc.close()

image_floder=pdf2pic(filename='paper.pdf')
pic2pdf(image_floder)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44

4.遇到的问题

python ModuleNotFoundError: No module named ‘frontend‘

解决方法:

pip install PyMuPDF==1.16.14
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/880112
推荐阅读
相关标签
  

闽ICP备14008679号