当前位置:   article > 正文

「AIGC算法」将word文档转换为纯文本

「AIGC算法」将word文档转换为纯文本

本文主要介绍将word文档转换为纯文本,适用于AIGC文本识别功能的整合。

一、设计思路

  • 使用mammoth 实现Word文档转HTML内容
  • 使用html-to-text 实现HTML内容转换为纯文本
  • 文本按需格式化处理,文本输出

二、核心代码

const mammoth = require("mammoth");
const fs = require("fs");
const path = require("path");
const { convert } = require("html-to-text");
// 替换为你的Word文档的路径
const docxPath = path.join(__dirname, "example.docx");

mammoth
  .convertToHtml({
    path: docxPath,
  })
  .then(function (result) {
    // result.value 是转换后的HTML内容
    // result.messages 是转换过程中的警告和错误信息

    // 使用html-to-text将HTML内容转换为纯文本
    const options = {
      wordwrap: 130,
      hideLinkHrefIfSameAsText: true,
      // ...
    };
    const html = result.value;
    let plaintext = convert(html, options);
    plaintext = plaintext.replace(/\n\n/g,'\n'); // 省流
    // 输出纯文本内容
    console.log(JSON.stringify(plaintext));
    console.log('---------------------'+plaintext.length+'------------------------')

  })
  .catch(function (error) {
    // 处理可能发生的错误
    console.error("转换过程中发生错误:", error);
  });

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/569100
推荐阅读
相关标签
  

闽ICP备14008679号