当前位置:   article > 正文

python 读取doc 和 docx_python中解析doc文件

python中解析doc文件
from docx import Document
import os
from win32com import client

file_name="D:/BaiduNetdiskDownload/文案大全汇总"
file_list=os.listdir(file_name)
data_list=[]
for one_file in file_list:
    
    dir_file_name=file_name+"/"+one_file
    data_list.append(one_file+"\r")
    if "docx" in dir_file_name:
        try:
        
            data=Document(dir_file_name)
            data_list+=[i.text.strip()+"\r" for i in data.paragraphs]
        except:
            print()
    else:
        word = client.Dispatch("Word.Application")
        # print("已处理文件:"+files[0])
        # 打开文件
        try:
            doc = word.Documents.Open(dir_file_name)
            doc.SaveAs("{}x".format(dir_file_name), 12)    # 12表示docx格式
            doc.Close()
            os.remove(dir_file_name)
        except:
            print("没有正常")
with open("25.txt","w",encoding="utf-8") as f:
    f.writelines(data_list)

    
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/660982
推荐阅读
相关标签
  

闽ICP备14008679号