当前位置:   article > 正文

用java遍历所有文件夹,将word文件转换为txt格式_word提取txt java源码

word提取txt java源码

用Java代码,遍历文件夹及子文件夹,将其中的doc和docx文件批量转换为txt格式

文件夹结构

bbb文件夹

 ccc文件夹

加几个除word外的干扰项

 ddd文件夹

 依赖

  1. <dependencies>
  2. <dependency>
  3. <groupId>com.jacob</groupId>
  4. <artifactId>jacob</artifactId>
  5. <version>1.19</version>
  6. <scope>system</scope>
  7. <systemPath>${basedir}/src/main/resources/lib/jacob.jar</systemPath>
  8. </dependency>
  9. <dependency>
  10. <groupId>org.apache.poi</groupId>
  11. <artifactId>poi</artifactId>
  12. <version>3.10-FINAL</version>
  13. </dependency>
  14. <dependency>
  15. <groupId>org.apache.poi</groupId>
  16. <artifactId>poi</artifactId>
  17. <version>3.10.1</version>
  18. </dependency>
  19. <dependency>
  20. <groupId>org.apache.poi</groupId>
  21. <artifactId>poi-ooxml-schemas</artifactId>
  22. <version>3.10.1</version>
  23. </dependency>
  24. <dependency>
  25. <groupId>org.apache.poi</groupId>
  26. <artifactId>poi-ooxml</artifactId>
  27. <version>3.10.1</version>
  28. </dependency>
  29. <dependency>
  30. <groupId>org.apache.poi</groupId>
  31. <artifactId>poi-scratchpad</artifactId>
  32. <version>3.9</version>
  33. </dependency>
  34. <dependency>
  35. <groupId>fr.opensagres.xdocreport</groupId>
  36. <artifactId>xdocreport</artifactId>
  37. <version>2.0.1</version>
  38. </dependency>
  39. <dependency>
  40. <groupId>fr.opensagres.xdocreport</groupId>
  41.   
  42. <artifactId>fr.opensagres.xdocreport.document</artifactId>
  43.   
  44. <version>2.0.1</version>
  45. </dependency>
  46. <dependency>
  47. <groupId>fr.opensagres.xdocreport</groupId>
  48. <artifactId>org.apache.poi.xwpf.converter.core</artifactId>
  49. <version>1.0.6</version>
  50. </dependency>
  51. <dependency>
  52. <groupId>fr.opensagres.xdocreport</groupId>
  53. <artifactId>org.apache.poi.xwpf.converter.pdf</artifactId>
  54. <version>1.0.6</version>
  55. </dependency>
  56. <dependency>
  57. <groupId>fr.opensagres.xdocreport</groupId>
  58. <artifactId>org.apache.poi.xwpf.converter.xhtml</artifactId>
  59. <version>1.0.6</version>
  60. </dependency>
  61. </dependencies>

代码

主方法

这里需要说明的是,同一文件夹中可能会存在A.doc和A.docx这样的情况,当转换为A.txt时后转换的会覆盖掉先前转换的,所以定义了两个路径输出到不同文件夹中来解决(当然也可以在文件名后加随机数等方法),不过这里就先不考虑这个问题,暂时写一个路径,可以根据自己需求修改

  1. public static void main(String[] args) throws Exception {
  2. try {
  3. // 定义word文件所在路径
  4. String path="F:\\bbb";
  5. // 定义输出txt文件所在路径
  6. String outdocPath = "F:\\zzz";
  7. String outdocxPath = "F:\\zzz";
  8. path = URLDecoder.decode(path, "UTF-8");
  9. // 调用方法,遍历文件夹
  10. LinkedList<File> files = EveryFile.GetDirectory(path);
  11. for (int i = 0; i < files.size(); i++) {
  12. // word文件所在路径
  13. String filesName = String.valueOf(files.get(i));
  14. // word文件名
  15. String fileName=files.get(i).getName();
  16. // 调用方法,进行转换
  17. WordToTxt.word2txt(filesName,fileName,outdocPath,outdocxPath);
  18. }
  19. System.out.println("转换完毕");
  20. } catch (UnsupportedEncodingException e) {
  21. e.printStackTrace();
  22. }
  23. }

遍历文件夹代码

  1. /**
  2. * 遍历文件夹
  3. * @param path
  4. * @return
  5. */
  6. public static LinkedList<File> GetDirectory(String path) {
  7. File file = new File(path);
  8. LinkedList<File> Dirlist = new LinkedList<File>(); // 保存待遍历文件夹的列表
  9. LinkedList<File> fileList = new LinkedList<File>();
  10. GetOneDir(file, Dirlist, fileList);// 调用遍历文件夹根目录文件的方法
  11. File tmp;
  12. while (!Dirlist.isEmpty()) {
  13. tmp = (File) Dirlist.removeFirst();// 从文件夹列表中删除第一个文件夹,并返回该文件夹赋给tmp变量
  14. // 遍历这个文件夹下的所有文件,并把
  15. GetOneDir(tmp, Dirlist, fileList);
  16. }
  17. return fileList;
  18. }
  19. // 遍历指定文件夹根目录下的文件
  20. private static void GetOneDir(File file, LinkedList<File> Dirlist,
  21. LinkedList<File> fileList) {
  22. // 每个文件夹遍历都会调用该方法
  23. File[] files = file.listFiles();
  24. if (files == null || files.length == 0) {
  25. return;
  26. }
  27. for (File f : files) {
  28. if (f.isDirectory()) {
  29. Dirlist.add(f);
  30. } else {
  31. // 这里列出当前文件夹根目录下的所有文件,并添加到fileList列表中
  32. fileList.add(f);
  33. // System.out.println("file==>" + f);
  34. }
  35. }
  36. }

word转txt代码

  1. /**
  2. * 将word转换为txt
  3. *
  4. * @param filesName word文件绝对路径 F:\bbb\ddd\周五.docx
  5. * @param fileName word文件名 周五.docx
  6. * @param outdocPath doc文件转txt输出路径
  7. * @param outdocxPath docx文件转txt输出路径
  8. * @throws Exception
  9. */
  10. public static void word2txt(String filesName, String fileName, String outdocPath, String outdocxPath) throws Exception {
  11. String fileType = new String("");
  12. fileType = filesName.substring(filesName.length() - 4, filesName.length());
  13. if (fileType.equals("docx")) {
  14. // 要转换的文档全路径
  15. String docxPath = filesName;
  16. // 转换后的文档全路径
  17. String docxtotxtPath = outdocxPath + "/" + fileName.substring(0, fileName.length() - 5) + ".txt";
  18. //得到.docx文件提取器
  19. XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(docxPath));
  20. //提取.docx正文文本
  21. String text = docx.getText();
  22. FileWriter writer = new FileWriter(docxtotxtPath);
  23. writer.write(text);
  24. writer.close();
  25. } else if (fileType.equals(".doc")) {
  26. // 要转换的文档全路径
  27. String docPath = filesName;
  28. // 转换后的文档全路径
  29. String doctotxtPath = outdocPath + "/" + fileName.substring(0, fileName.length() - 4) + ".txt";
  30. InputStream is = new FileInputStream(docPath);
  31. HWPFDocument wordDocument = new HWPFDocument(is);
  32. WordToTextConverter converter = new WordToTextConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
  33. //对HWPFDocument进行转换
  34. converter.processDocument(wordDocument);
  35. Writer writer = new FileWriter(new File(doctotxtPath));
  36. Transformer transformer = TransformerFactory.newInstance().newTransformer();
  37. transformer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
  38. //是否添加空格
  39. transformer.setOutputProperty(OutputKeys.INDENT, "yes");
  40. transformer.setOutputProperty(OutputKeys.METHOD, "text");
  41. transformer.transform(
  42. new DOMSource(converter.getDocument()),
  43. new StreamResult(writer));
  44. }
  45. }

运行结果

 后记

word文件中的图片转换到txt后将不会保留。

代码一定存在可以优化的地方,一是水品有限,二是手头还有其他的事要忙,目前这些代码满足需要,所以暂时没有修改。各位大佬使用的时候根据自己需要修改,不足之处欢迎批评指正。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/391418
推荐阅读
相关标签
  

闽ICP备14008679号