java怎么爬取动态网页

作者

筋斗云

首页»
云计算»
知识库»
java怎么爬取动态网页

发布时间:2024-10-01 16:13

阅读量:0

要爬取动态网页，你需要使用一个支持JavaScript渲染的库。在Java中，常用的库有HtmlUnit、Selenium和Jsoup。这里以HtmlUnit为例，介绍如何爬取动态网页。

首先，确保你已经安装了Java环境，并使用Maven或Gradle将HtmlUnit添加到项目的依赖中。以下是Maven和Gradle的依赖配置：

Maven:

<dependency>     <groupId>net.sourceforge.htmlunit</groupId>     <artifactId>htmlunit</artifactId>     <version>2.56.0</version> </dependency>

Gradle:

implementation 'net.sourceforge.htmlunit:htmlunit:2.56.0'

编写一个Java程序，使用HtmlUnit加载网页并获取渲染后的HTML内容：

import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage;  import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException;  public class DynamicWebScraper {      public static void main(String[] args) throws IOException {         // 创建WebClient对象         WebClient webClient = new WebClient();          // 启用JavaScript支持         webClient.getOptions().setJavaScriptEnabled(true);          // 设置超时时间（可选）         webClient.getOptions().setJavaScriptTimeout(10000);          // 获取网页         HtmlPage page = webClient.getPage("https://example.com/dynamic-page");          // 等待页面加载完成（可选）         webClient.waitForBackgroundJavaScript(10000);          // 获取渲染后的HTML内容         String htmlContent = page.asXml();          // 关闭WebClient         webClient.close();          // 将HTML内容写入文件         try (BufferedWriter writer = new BufferedWriter(new FileWriter("output.html"))) {             writer.write(htmlContent);         }          System.out.println("动态网页已成功抓取并保存到output.html文件中");     } }