阅读量:0
要爬取网页图片,首先需要使用Python的requests库来获取网页内容,然后使用BeautifulSoup库来解析网页内容,最后找到图片的URL并下载保存。
以下是一个简单的示例代码:
import requests from bs4 import BeautifulSoup import os # 设置要爬取图片的网址 url = 'https://www.example.com' # 发送请求获取网页内容 response = requests.get(url) html = response.text # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(html, 'html.parser') # 找到所有的图片标签 img_tags = soup.find_all('img') # 创建文件夹保存图片 os.makedirs('images', exist_ok=True) # 下载并保存图片 for img_tag in img_tags: img_url = img_tag['src'] img_name = img_url.split('/')[-1] img_data = requests.get(img_url).content with open(f'images/{img_name}', 'wb') as f: f.write(img_data)
上面的代码中,首先发送请求获取网页内容,然后使用BeautifulSoup解析网页内容,找到所有的图片标签。接着创建一个文件夹来保存图片,遍历所有的图片标签,获取图片的URL并下载保存到指定文件夹中。
请注意,上述代码仅提供了一个简单的示例,具体的实现方式可能因网站结构而异,需要根据具体网站的结构和需要适当调整代码。