赞
踩
看到有很多去水印的资源,但是有的方程并不适合新的python,或者转化后的清晰度太低,所以在前人的代码上改了一下,让fitz打开时存储更多信息.至于如何确定水印RGB,推荐微信截图功能,在将pdf转换成图片时可以先查看一下,我转的pdf的水印大部分的RGB加起来是631,但是边缘还是会没被去除干净,所以也可以用>=而不是==。
- from itertools import product
- import fitz
- import os
-
-
- # 去除pdf的水印
- def remove_pdfwatermark():
- #打开源pfd文件,这里将pdf和python执行文件放在同一路径下
- pdf_file = fitz.open("1.pdf")
- #建构fitz提取文件矩阵
- zoom=2
- mat=fitz.Matrix(zoom, zoom)
- #page_no 设置为0
- page_no = 0
- #page在pdf文件中遍历
- for page in pdf_file:
- #获取每一页对应的图片pix (pix对象类似于我们上面看到的img对象,可以读取、修改它的 RGB)
- #page.get_pixmap() 这个操作是不可逆的,即能够实现从 PDF 到图片的转换,但修改图片 RGB 后无法应用到 PDF 上,只能输出为图片
- pix = page.get_pixmap(matrix=mat)
-
- #遍历图片中的宽和高,如果像素的rgb值总和等于631,就认为是水印,转换成255,255,255-->即白色
- for pos in product(range(pix.width), range(pix.height)):
- if sum(pix.pixel(pos[0], pos[1])) == 631:
- pix.set_pixel(pos[0], pos[1], (255, 255, 255))
- #保存去掉水印的截图,在执行文件下新建名为png的文件夹
- pix.pil_save(f"./png/{page_no}.png", dpi=(30000, 30000))
- #打印结果
- print(f'第 {page_no} 页去除完成')
-
- page_no += 1
- if __name__ == '__main__':
- remove_pdfwatermark()
- #图片所在的文件夹
- pic_dir = 'png'
-
- pdf = fitz.open()
- #图片数字文件先转换成int类型进行排序
- img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))
- for img in img_files:
- print(img)
- imgdoc = fitz.open(pic_dir + '/' + img)
- #将打开后的图片转成单页pdf
- pdfbytes = imgdoc.convert_to_pdf()
- imgpdf = fitz.open("pdf", pdfbytes)
- #将单页pdf插入到新的pdf文档中
- pdf.insert_pdf(imgpdf)
- pdf.save("完成.pdf")
- pdf.close()

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。