赞
踩
本文主要介绍将word文档转换为纯文本,适用于AIGC文本识别功能的整合。
mammoth
实现Word文档转HTML内容html-to-text
实现HTML内容转换为纯文本const mammoth = require("mammoth"); const fs = require("fs"); const path = require("path"); const { convert } = require("html-to-text"); // 替换为你的Word文档的路径 const docxPath = path.join(__dirname, "example.docx"); mammoth .convertToHtml({ path: docxPath, }) .then(function (result) { // result.value 是转换后的HTML内容 // result.messages 是转换过程中的警告和错误信息 // 使用html-to-text将HTML内容转换为纯文本 const options = { wordwrap: 130, hideLinkHrefIfSameAsText: true, // ... }; const html = result.value; let plaintext = convert(html, options); plaintext = plaintext.replace(/\n\n/g,'\n'); // 省流 // 输出纯文本内容 console.log(JSON.stringify(plaintext)); console.log('---------------------'+plaintext.length+'------------------------') }) .catch(function (error) { // 处理可能发生的错误 console.error("转换过程中发生错误:", error); });
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。