阅读量:0
Scrapy爬虫的参数可以在settings.py文件中进行设置。以下是一些常见的参数设置:
1. ROBOTSTXT_OBEY:设置为False可以忽略网站的robots.txt文件限制,默认为True。
2. DOWNLOAD_DELAY:设置一个下载延迟,即每个请求之间的等待时间,以防止对网站造成过大负载,默认为0(不延迟)。
3. USER_AGENT:设置用户代理,模拟不同的浏览器请求,默认为Scrapy。
4. COOKIES_ENABLED:设置为False可以禁用Cookie,如果网站需要登录或使用Cookie进行访问,需要设置为True,默认为True。
5. CONCURRENT_REQUESTS:设置同时发送的请求数量,默认为16。
6. DOWNLOAD_TIMEOUT:设置下载超时时间,默认为180秒。
7. CONCURRENT_REQUESTS_PER_DOMAIN:设置对每个域名并发请求的最大数量,默认为8。
8. ITEM_PIPELINES:设置用于处理爬取到的数据的管道,默认为空,需要自定义管道进行数据处理时需进行设置。
9. LOG_LEVEL:设置日志的级别,如:'CRITICAL'、'ERROR'、'WARNING'、'INFO'、'DEBUG'等,默认为'DEBUG'。
10. DEPTH_LIMIT:设置爬取的最大深度,超过该深度的链接将不会被跟进,默认为0(无限制)。
这只是一些常见的参数设置,还有其他许多参数可以根据具体需求进行设置。可以在settings.py文件中找到这些参数,并根据需要进行修改。