PaddleOCR如何对大量图片进行批量文本识别

作者

首页»
云计算»
知识库»
PaddleOCR如何对大量图片进行批量文本识别

发布时间:2024-07-12 00:23

阅读量:0

PaddleOCR可以通过编写简单的Python脚本来实现对大量图片进行批量文本识别。以下是一个示例代码，演示如何使用PaddleOCR对指定目录下的所有图片进行批量文本识别：

import os from paddleocr import PaddleOCR, draw_ocr  ocr = PaddleOCR()  # 指定需要识别文本的图片目录 img_dir = 'path/to/your/image/directory'  # 获取目录下所有图片文件名 img_files = [f for f in os.listdir(img_dir) if f.endswith('.jpg') or f.endswith('.png')]  for img_file in img_files:     img_path = os.path.join(img_dir, img_file)     result = ocr.ocr(img_path, cls=True)      for line in result:         print('Detected text:', ''.join([word[0] for word in line[1]]))         print('Confidence:', line[1][0][-1])              # 可以根据需要将识别结果保存到文件中     output_file = 'path/to/save/{}.txt'.format(os.path.splitext(img_file)[0])     with open(output_file, 'w', encoding='utf-8') as f:         for line in result:             f.write(''.join([word[0] for word in line[1]]) + 'n')