怎么用python提取pdf文字

作者

首页»
云计算»
知识库»
怎么用python提取pdf文字

发布时间:2024-07-13 21:42

阅读量:0

要使用Python提取PDF文本，可以使用PyPDF2库。以下是一个示例代码，演示了如何打开PDF文件并提取其文本内容：

import PyPDF2 def extract_text_from_pdf(file_path): with open(file_path, 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) num_pages = pdf_reader.numPages text = '' for page_num in range(num_pages): page = pdf_reader.getPage(page_num) text += page.extractText() return text # 调用函数并传入要提取文本的PDF文件路径 pdf_text = extract_text_from_pdf('example.pdf') print(pdf_text)