怎么用Python写一个爬虫框架

作者

首页»
云计算»
知识库»
怎么用Python写一个爬虫框架

发布时间:2024-07-13 11:22

阅读量:0

要写一个简单的爬虫框架，可以使用Python的requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML页面。以下是一个简单的爬虫框架示例：

import requests from bs4 import BeautifulSoup  def get_html(url):     response = requests.get(url)     return response.text  def parse_html(html):     soup = BeautifulSoup(html, 'html.parser')     # 在这里编写解析HTML的代码     # 例如提取页面中的链接、标题等信息     links = [link.get('href') for link in soup.find_all('a')]     return links  def crawl(url):     html = get_html(url)     links = parse_html(html)     for link in links:         print(link)  if __name__ == '__main__':     url = 'https://www.example.com'     crawl(url)