基于Python给出的PDF文档转Markdown文档的方法_业界新闻

发布时间:2024-07-19 14:22

阅读量:0

注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在问题，若有错误，欢迎指出。本次笔记记录于24.1.21。（中途运行时，发现代码中存在bug从而对代码进行了更新，比如md文件的相对路径需要进行URL编码，否则可能会因空格等原因导致无法预览图片。）

一、使用需求

Markdown文档与PDF等文档，个人认为有以下优点，所以本人在某些时候更喜欢使用md文件：1.Markdown文档添加书签更加方便快捷。2.在github/gitee上打开仓库即可直接浏览。3.便于编辑。PDF很难继续编辑，想要添加内容非常麻烦，不如Markdown文档来的直接。

二、使用效果

注：图中PDF是本人去网上随便找的。

三、本次Python代码的思路

代码思路： - 导入必要的库，包括os、fitz（PyMuPDF）和Image（Pillow）。 - 定义一个函数convert_pdf_to_images，该函数将PDF文档转换为图像列表。它使用PyMuPDF库获取PDF页面的图像数据，然后使用Pillow库创建图像对象，并将这些图像保存到指定目录。 - 定义另一个函数save_images_to_markdown，该函数将图像列表保存到Markdown文件中。它使用用户提供的相对路径，在Markdown文件中插入图像路径。 - 在__main__部分，替换相应的文件路径，并调用上述两个函数完成PDF到Markdown的转换。

四、本次笔记提供的Python代码

""" 1.代码用途：完成PDF文件到Markdown文件的转换 2.代码思路： - 导入必要的库，包括os、fitz（PyMuPDF）和Image（Pillow）。 - 定义一个函数convert_pdf_to_images，该函数将PDF文档转换为图像列表。它使用PyMuPDF库获取PDF页面的图像数据，然后使用Pillow库创建图像对象，并将这些图像保存到指定目录。 - 定义另一个函数save_images_to_markdown，该函数将图像列表保存到Markdown文件中。它使用用户提供的相对路径，在Markdown文件中插入图像路径。 - 在__main__部分，替换相应的文件路径，并调用上述两个函数完成PDF到Markdown的转换。 3.使用方法：在__main__部分替换相应的文件路径，之后运行程序。 """  import os  # 用于处理文件和目录路径的模块 import fitz  # PyMuPDF，用于处理PDF文件 from PIL import Image  # Pillow库，用于处理图像 from urllib.parse import quote  # 导入urllib库中的parse模块，用于URL编码  def convert_pdf_to_images(pdf_path, image_output_dir):     """     将PDF转换为图像列表。     Parameters:        pdf_path (str): PDF文件路径。        image_output_dir (str): 图像输出目录。     Returns:        list: 包含所有页面图像的列表。    """     images = []  # 存储所有页面的图像     pdf_document = fitz.open(pdf_path)  # 使用PyMuPDF打开PDF文档      # 创建图像输出目录，如果目录不存在则创建     os.makedirs(image_output_dir, exist_ok=True)      # 遍历PDF的每一页     for page_number in range(pdf_document.page_count):         page = pdf_document[page_number]          # 获取页面图像         pixmap = page.get_pixmap()          # 修复参数类型错误，将列表改为元组         image = Image.frombytes("RGB", (pixmap.width, pixmap.height), pixmap.samples)          images.append(image)          # 保存图像到指定目录         image_path = os.path.join(image_output_dir, f"image_{page_number + 1}.png")         image.save(image_path)      return images  def save_images_to_markdown(images, output_md_path, image_relative_path):     """     将图像列表保存到Markdown文件中。     Parameters:        images (list): 包含图像的列表。        output_md_path (str): 输出Markdown文件路径。        image_relative_path (str): 用户自定义的图片相对路径，例如 "images".     Returns:        None    """     with open(output_md_path, "w", encoding="utf-8") as md_file:         # 遍历图像列表         for index, image in enumerate(images):             # 用户自定义的图片相对路径             image_path = os.path.join(image_relative_path, f'image_{index + 1}.png')              # 将图片路径插入Markdown文件             md_file.write(f"![Image {index + 1}]({image_path})\n")  if __name__ == "__main__":     # 替换为你的PDF文件路径     pdf_path = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/1. Python初探.pdf"      # 图像输出目录     image_output_dir = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/图片/1. Python初探"      # 根据”图像输出目录“自定义的图片相对路径  对应于md文档中”“     image_relative_path = "图片/1. Python初探/"      # 使用URL编码将空格替换为"%20"     image_relative_path = quote(image_relative_path)      # 输出Markdown文件路径     output_md_path = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/1. Python初探.md"      # 将PDF转换为图像列表，并保存到指定目录     images = convert_pdf_to_images(pdf_path, image_output_dir)      # 将图像列表保存到Markdown文件中，使用用户自定义的图片相对路径     save_images_to_markdown(images, output_md_path, image_relative_path)