当前位置:   article > 正文

Python实战:文本内容提取_python 提取文本中的文字

python 提取文本中的文字

一、引言

在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,例如为了数据分析和文本处理等。如果手动进行这些操作,不仅费时费力,而且容易出错。因此,编写一个文本内容提取变得尤为重要。本文将介绍如何使用Python编写一个文本内容提取,该工具可以从PDF、Word文档中提取文本。

二、文本内容提取的原理

文本内容提取的核心原理是遍历指定目录下的所有文件,根据文件类型(PDF或Word)使用相应的库提取文本,然后将提取的文本保存到指定目录。在这个过程中,我们需要考虑以下几个问题:

  1. 如何遍历指定目录下的所有文件?
  2. 如何根据文件类型提取文本?
  3. 如何保存提取的文本?
    接下来,我们将分别介绍这三个问题的解决方案。

三、文本内容提取的设计

在设计文本内容提取时,我们需要考虑以下几个方面的内容:

  1. 用户界面:为了方便用户使用,我们可以设计一个简单的命令行界面,让用户可以输入目录、输出目录等参数。
  2. 文件遍历:我们需要编写一个文件遍历,用于遍历指定目录下的所有文件。
  3. 文本提取:我们需要编写一个文本提取,用于根据文件类型提取文本。
  4. 文本保存:我们需要编写一个文本保存,用于将提取的文本保存到指定目录。

四、文本内容提取的实现

接下来,我们将详细介绍文本内容提取的实现过程。为了方便起见,我们将使用Python编写这个工具。

  1. 用户界面
    我们可以使用Python的argparse库来设计一个简单的命令行界面。界面包括以下几个部分:
  • 目录参数:让用户指定需要提取文本的文件所在的目录。
  • 输出目录参数:让用户指定提取的文本保存到的目录。
  1. 文件遍历
    我们可以使用Python的os库来遍历指定目录下的所有文件。具体实现如下:
import os
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
'
运行
  1. 文本提取
    对于PDF文件,我们可以使用Python的PyPDF2库来提取文本。具体实现如下:
import PyPDF2
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

对于Word文档,我们可以使用Python的python-docx库来提取文本。具体实现如下:

from docx import Document
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  1. 文本保存
    我们可以使用Python的os.path.join()函数来保存提取的文本。具体实现如下:
import os
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)
  • 1
  • 2
  • 3
  • 4
'
运行

五、完整代码示例

import argparse
import os
import PyPDF2
from docx import Document
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)
def main():
    parser = argparse.ArgumentParser(description="文本内容提取")
    parser.add_argument("directory", help="指定目录")
    parser.add_argument("output_directory", help="指定输出目录")
    args = parser.parse_args()
    dir_path = args.directory
    output_dir = args.output_directory
    file_list = traverse_dir(dir_path)
    for file_path in file_list:
        if file_path.lower().endswith(('.pdf')):
            extract_text_from_pdf(file_path, output_dir)
        elif file_path.lower().endswith(('.docx', '.doc')):
            extract_text_from_docx(file_path, output_dir)
if __name__ == "__main__":
    main()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/906816
推荐阅读
相关标签
  

闽ICP备14008679号