当前位置:   article > 正文

Python读取word文件中所有图片及doc转docx_python如何检测word中的图片

python如何检测word中的图片

最近项目需要读取word文档中所有图片然后进行OCR读取内容,网上查了很多相关博客,发现很多都是抄来抄去并且都是读取word内容,最后终于发现一片大牛博客,特此分享python读取word图片
此外,我做的是多线程同时读取多个word文档,有时会发现线程挂起或者死亡,查了很多发现是pythoncom问题,需要注意word = client.Dispatch(“Word.Application”)的Dispatch,多线程必须使用DispatchEx,否则打开word时会出现操作冲突,导致线程失败。

pythoncom.CoInitialize()
    #首先将doc转换成docx#
    word = client.DispatchEx("Word.Application")
    doc = word.Documents.Open(open_doc)
    # 使用参数16表示将doc转换成docx
    doc.SaveAs(save_docx, 16)
    doc.Close()
    word.Quit()
    #释放资源
    pythoncom.CoUninitialize()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

最好在word操作完成后进行资源释放,否则也会出现错误。
说明:我的项目是在windows下进行的,其他系统不知道是否合适,请自行验证。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/795985
推荐阅读
相关标签
  

闽ICP备14008679号