Selenium与WebDriver：Errno 8 Exec格式错误的多种解决方案_业界新闻

发布时间:2024-08-03 01:58

阅读量:0

概述

在使用Selenium和WebDriver进行网页自动化时，可能会遇到各种错误。其中一个常见问题是执行格式错误（Errno 8 Exec format error）。这个错误通常在运行ChromeDriver时出现，错误提示涉及路径中的某个文件，如THIRD_PARTY_NOTICES.chromedriver。本文将概述这个问题的背景，并提供多种解决方案，包括如何使用代理IP技术进行数据抓取。

细节

问题描述

执行格式错误通常出现在用户尝试运行ChromeDriver的过程中。例如，用户可能会看到如下错误信息：

Errno 8 Exec format error: /Users/[USER]/.wdm/drivers/chromedriver/mac64/127.0.6533.72/chromedriver-mac-arm64/THIRD_PARTY_NOTICES.chromedriver

这种错误通常与ChromeDriver的兼容性问题或路径配置问题有关。

解决方案

以下是几种解决这个问题的有效方法：

手动更改路径
尝试手动更改d_path路径，将THIRD_PARTY_NOTICES.chromedriver替换为chromedriver，但这种方法不一定能解决所有问题。
更新webdriver-manager
许多用户发现更新webdriver-manager包至最新版本（例如4.0.2）可以解决此问题。可以通过以下命令更新：

pip install --upgrade webdriver-manager

重新安装webdriver-manager
重新安装webdriver-manager并删除drivers.json文件中的最后一条记录：

pip uninstall webdriver-manager pip install webdriver-manager

下载特定版本的ChromeDriver
直接下载所需版本的ChromeDriver可执行文件，并在代码中指定该文件的路径，而不是使用webdriver-manager。
修改driver_cache.py文件
修改webdriver_manager/core/driver_cache.py文件以修复可能的路径问题。

使用爬虫代理IP技术的Selenium示例

在实际使用Selenium进行网页抓取时，代理IP技术可以帮助提高抓取效率。以下是一个使用代理IP的示例代码，参考了亿牛云爬虫代理的配置。

from selenium import webdriver from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.proxy import Proxy, ProxyType  # 代理IP配置 亿牛云爬虫代理加强版 proxy_ip = "代理IP地址" #www.16yun.cn proxy_port = "端口号" proxy_username = "用户名" proxy_password = "密码"  # 配置代理 proxy = Proxy() proxy.proxy_type = ProxyType.MANUAL proxy.http_proxy = f"http://{proxy_username}:{proxy_password}@{proxy_ip}:{proxy_port}" proxy.ssl_proxy = f"http://{proxy_username}:{proxy_password}@{proxy_ip}:{proxy_port}"  capabilities = webdriver.DesiredCapabilities.CHROME proxy.add_to_capabilities(capabilities)  # 设置Chrome选项 options = webdriver.ChromeOptions() options.add_argument("--headless") options.add_argument("--no-sandbox") options.add_argument("--disable-dev-shm-usage")  # 安装并配置ChromeDriver d_path = ChromeDriverManager().install() driver_service = Service(d_path) driver = webdriver.Chrome(service=driver_service, options=options, desired_capabilities=capabilities)  # 测试访问一个网站 driver.get("http://www.example.com") print(driver.page_source)  # 关闭浏览器 driver.quit()

在上面的代码中，配置了代理IP，并将其添加到Selenium的能力设置中。这样可以使用亿牛云爬虫代理进行网页抓取，有效绕过IP频繁的问题。

结论

本文介绍了在使用Selenium和WebDriver时可能遇到的执行格式错误问题，并提供了多种解决方案。通过手动更改路径、更新或重新安装webdriver-manager、下载特定版本的ChromeDriver以及修改相关配置文件，用户可以有效解决此问题。此外，结合代理IP技术，可以提高网页抓取的成功率和效率。希望这些方法能帮助到遇到类似问题的用户。