赞
踩
最近项目需要读取word文档中所有图片然后进行OCR读取内容,网上查了很多相关博客,发现很多都是抄来抄去并且都是读取word内容,最后终于发现一片大牛博客,特此分享python读取word图片
此外,我做的是多线程同时读取多个word文档,有时会发现线程挂起或者死亡,查了很多发现是pythoncom问题,需要注意word = client.Dispatch(“Word.Application”)的Dispatch,多线程必须使用DispatchEx,否则打开word时会出现操作冲突,导致线程失败。
pythoncom.CoInitialize()
#首先将doc转换成docx#
word = client.DispatchEx("Word.Application")
doc = word.Documents.Open(open_doc)
# 使用参数16表示将doc转换成docx
doc.SaveAs(save_docx, 16)
doc.Close()
word.Quit()
#释放资源
pythoncom.CoUninitialize()
最好在word操作完成后进行资源释放,否则也会出现错误。
说明:我的项目是在windows下进行的,其他系统不知道是否合适,请自行验证。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。