php htmlparser怎样提取内容

作者

首页»
云计算»
知识库»
php htmlparser怎样提取内容

发布时间:2024-10-29 13:33

阅读量:0

在PHP中，可以使用HTML解析器库，如simplehtmldom或phpQuery，来提取HTML文档中的内容。这里以simplehtmldom为例，说明如何提取内容：

首先，通过Composer安装simplehtmldom库：

composer require "simplehtmldom/simple-html-dom"

创建一个PHP文件，如extract_content.php，并引入Composer库：

require_once 'vendor/autoload.php';

使用simplehtmldom解析HTML文档并提取内容：

<?php // 引入Composer库 require_once 'vendor/autoload.php';  // 引入simplehtmldom命名空间 use simplehtmldom\HtmlWeb; use simplehtmldom\HtmlNode;  // 创建一个HtmlWeb对象 $web = new HtmlWeb();  // 获取HTML文档 $html = $web->load('https://example.com'); // 将example.com替换为要提取内容的网站URL  // 获取第一个body标签 $body = $html->find('body', 0);  // 提取所有段落标签（p）的内容 $paragraphs = $body->find('p');  // 遍历所有段落并输出内容 foreach ($paragraphs as $p) {     echo $p->innertext . PHP_EOL; }

运行extract_content.php文件，将提取指定网页上的所有段落（p）标签的内容并输出。根据需要，可以修改代码以提取其他标签或属性。更多关于simplehtmldom库的信息和用法，请参阅官方文档：https://simplehtmldom.sourceforge.io/manual.htm