阅读量:2
目的
下载技能人才评价网 - 职业技能标准查询系统 - PDF 打包下载
使用文件
代码解析
import base64 import requests import json import os import time # 读取JSON文件 with open('a.json', 'r', encoding='utf-8') as f: data = json.load(f) # 从名为 'a.json' 的文件中读取 JSON 数据,并将其存储在 'data' 变量中 # 创建存储文件的文件夹 output_folder = 'pdf_files' if not os.path.exists(output_folder): os.makedirs(output_folder) # 如果不存在名为 'pdf_files' 的文件夹,则创建该文件夹 # 遍历JSON文件中的每一行 for row in data['rows']: code = row['code'] file_name = row['fileName'] attachment_path = row['attachment'] # 从当前 'row' 中提取 'code'、'fileName' 和 'attachment' 的值 # 发送请求获取PDF文件内容 headers = { "Content-Type": "application/x-www-form-urlencoded", } resp = requests.post( "http://biaozhun.osta.org.cn/api/v1/profession/detail", headers=headers, data=f"code={code}", ) # 使用 POST 方法向指定的 URL 发送请求,携带 'code' 作为数据参数,以获取对应的 PDF 文件内容 pdf_data = json.loads(resp.content) # 将响应内容解析为 JSON 格式并存储在 'pdf_data' 变量中 # 检查是否存在 'data' 键 if 'data' in pdf_data: pdf_content = pdf_data['data'] # 如果 'pdf_data' 包含 'data' 键,则提取其对应的值作为 PDF 文件内容 # 处理文件名中的特殊字符 safe_file_name = file_name.encode('utf-8').decode('utf-8') file_path = os.path.join(output_folder, safe_file_name) # 处理文件名以确保其安全,并构建文件的完整路径 # 将PDF文件内容保存到指定文件夹中 with open(file_path, "wb") as f: f.write(base64.b64decode(pdf_content)) # 将 PDF 文件内容解码后写入文件 print(f"Saved {file_name} to {file_path}") else: print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}") # 如果 'data' 键不存在,则打印错误信息 # 每个请求间隔5秒 time.sleep(5) # 在每个请求之间暂停 5 秒
- 读取JSON文件
with open('a.json', 'r', encoding='utf-8') as f: data = json.load(f)
- 作用: 从
a.json
文件中读取 JSON 数据并存储在data
变量中。 - API:
json.load()
将文件对象读取为 JSON 格式。
- 创建存储文件的文件夹
output_folder = 'pdf_files' if not os.path.exists(output_folder): os.makedirs(output_folder)
- 作用: 检查是否存在名为 ‘pdf_files’ 文件夹,如果不存在则创建。
- API:
os.path.exists()
检查文件路径是否存在。os.makedirs()
创建目录。
- 遍历JSON文件中的每一行
for row in data['rows']: code = row['code'] file_name = row['fileName'] attachment_path = row['attachment']
- 作用: 遍历 JSON 数据中的每一行,并提取
code
、fileName
和attachment_path
。
- 发送请求获取PDF文件内容
headers = { "Content-Type": "application/x-www-form-urlencoded", } resp = requests.post( "http://biaozhun.osta.org.cn/api/v1/profession/detail", headers=headers, data=f"code={code}", ) pdf_data = json.loads(resp.content)
- 作用: 发送 POST 请求到指定 URL 以获取 PDF 文件内容。
- API:
requests.post()
发送 HTTP POST 请求。json.loads()
将响应内容解析为 JSON。
- 检查是否存在 ‘data’ 键
if 'data' in pdf_data: pdf_content = pdf_data['data']
- 作用: 检查响应 JSON 中是否存在 ‘data’ 键,如果存在则提取其内容。
- 处理文件名中的特殊字符和构建文件路径
safe_file_name = file_name.encode('utf-8').decode('utf-8') file_path = os.path.join(output_folder, safe_file_name)
- 作用: 处理文件名以确保其安全,并构建完整文件路径。
- API:
str.encode()
编码字符串。str.decode()
解码字符串。os.path.join()
拼接路径。
- 将PDF文件内容保存到指定文件夹中
with open(file_path, "wb") as f: f.write(base64.b64decode(pdf_content))
- 作用: 将解码后的 PDF 内容写入文件。
- API:
base64.b64decode()
进行 Base64 解码。open()
打开文件。file.write()
写入文件。
- 打印成功或错误信息
print(f"Saved {file_name} to {file_path}") else: print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
- 每个请求间隔5秒
time.sleep(5)
- 作用: 在每个请求之间暂停 5 秒。
- API:
time.sleep()
暂停执行。