当前位置:   article > 正文

用python从pdf中提取信息,转为txt或者html_python pdf2htmlex

python pdf2htmlex

主要用到了pdfminer这个库

原文地址:

http://www.bkjia.com/Pythonjc/1073800.html



示例代码

  1. # -*- coding: utf-8 -*-
  2. from pdfminer.pdfparser import PDFParser
  3. from pdfminer.pdfdocument import PDFDocument
  4. from pdfminer.pdfpage import PDFPage
  5. from pdfminer.pdfpage import PDFTextExtractionNotAllowed
  6. from pdfminer.pdfinterp import PDFResourceManager
  7. from pdfminer.pdfinterp import PDFPageInterpreter
  8. from pdfminer.pdfdevice import PDFDevice
  9. from pdfminer.layout import *
  10. from pdfminer.converter import PDFPageAggregator
  11. import os
  12. fp = open('test.pdf', 'rb')
  13. #来创建一个pdf文档分析器
  14. parser = PDFParser(fp)
  15. #创建一个PDF文档对象存储文档结构
  16. document = PDFDocument(parser)
  17. # 检查文件是否允许文本提取
  18. if not document.is_extractable:
  19. raise PDFTextExtractionNotAllowed
  20. else:
  21. # 创建一个PDF资源管理器对象来存储共赏资源
  22. rsrcmgr=PDFResourceManager()
  23. # 设定参数进行分析
  24. laparams=LAParams()
  25. # 创建一个PDF设备对象
  26. # device=PDFDevice(rsrcmgr)
  27. device=PDFPageAggregator(rsrcmgr,laparams=laparams)
  28. # 创建一个PDF解释器对象
  29. interpreter=PDFPageInterpreter(rsrcmgr,device)
  30. # 处理每一页
  31. for page in PDFPage.create_pages(document):
  32. interpreter.process_page(page)
  33. # 接受该页面的LTPage对象
  34. layout=device.get_result()
  35. for x in layout:
  36. if(isinstance(x,LTTextBoxHorizontal)):
  37. with open('a.txt','a') as f:
  38. f.write(x.get_text().encode('utf-8')+'\n')


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/249950
推荐阅读
相关标签
  

闽ICP备14008679号