当前位置:   article > 正文

Python编程:读取pdf、pptx、docx、xlsx文件的页数_python获取ppt页码

python获取ppt页码

pdf

安装工具

pip install pdfplumber
  • 1

代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

pptx

安装工具

 pip install python-pptx
  • 1

代码示例

from pptx import Presentation

def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

docx、xlsx

Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页

所以,读取页数是不对的

参考

  1. 如何在 Linux 上使用 Python 读取 word 文件信息(如页数)?
  2. Python编程:pypdf2和pdfplumber获取pdf文件的页数
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/1001694
推荐阅读
相关标签
  

闽ICP备14008679号