赞
踩
我需要刮一些PDF文件来提取以下文本信息:
我想先从车牌号开始测试。我进入生成的“xmltree”文件,找到第一个许可证号,得到LTTextLineHorizontal元素中的x0、y0、x1、y1坐标。import pdfquery
from lxml import etree
PDF_FILE = 'C:\\TEMP\\ad-4070-20-september-2018.pdf'
pdf = pdfquery.PDFQuery(PDF_FILE)
pdf.load(4,5)
with open('xmltree.xml','wb') as f:
f.write(etree.tostring(pdf.tree, pretty_print=True))
product_info = []
page_count = len(pdf._pages)
for pg in range(page_count):
data = pdf.extract([
('with_parent', 'LTPage[pageid="{}"]'.format(pg+1)),
('with_formatter', None),
('product_name', 'LTTextLineHorizontal:in_bbox("89.904, 757.502, 265.7, 770.83")'),
('product_details', 'LTTextLineHorizontal:in_bbox(&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。