怎么用Python批量提取PDF中的信息

作者

首页»
云计算»
知识库»
怎么用Python批量提取PDF中的信息

发布时间:2024-07-13 20:51

阅读量:0

要使用Python批量提取PDF中的信息，可以使用Python的一个库叫做PyPDF2。下面是一个简单的例子，可以帮助你开始提取PDF中的文本信息：

首先，你需要安装PyPDF2库。可以使用以下命令在终端或命令提示符中安装该库：

pip install PyPDF2

然后，你可以使用以下代码来提取PDF中的文本信息：

import PyPDF2  def extract_text_from_pdf(pdf_path):     with open(pdf_path, 'rb') as file:         pdf = PyPDF2.PdfFileReader(file)         text = ""         for page_number in range(pdf.getNumPages()):             page = pdf.getPage(page_number)             text += page.extractText()         return text  # 批量提取PDF中的文本信息 pdf_folder = "pdf文件夹路径" output_folder = "输出文件夹路径"  import os  for filename in os.listdir(pdf_folder):     if filename.endswith(".pdf"):         pdf_path = os.path.join(pdf_folder, filename)         text = extract_text_from_pdf(pdf_path)                  output_path = os.path.join(output_folder, f"{filename}.txt")         with open(output_path, 'w', encoding='utf-8') as file:             file.write(text)