阅读量:0
在PHP中,可以使用HTML解析器库,如simplehtmldom
或phpQuery
,来提取HTML文档中的内容。这里以simplehtmldom
为例,说明如何提取内容:
- 首先,通过Composer安装
simplehtmldom
库:
composer require "simplehtmldom/simple-html-dom"
- 创建一个PHP文件,如
extract_content.php
,并引入Composer库:
require_once 'vendor/autoload.php';
- 使用
simplehtmldom
解析HTML文档并提取内容:
<?php // 引入Composer库 require_once 'vendor/autoload.php'; // 引入simplehtmldom命名空间 use simplehtmldom\HtmlWeb; use simplehtmldom\HtmlNode; // 创建一个HtmlWeb对象 $web = new HtmlWeb(); // 获取HTML文档 $html = $web->load('https://example.com'); // 将example.com替换为要提取内容的网站URL // 获取第一个body标签 $body = $html->find('body', 0); // 提取所有段落标签(p)的内容 $paragraphs = $body->find('p'); // 遍历所有段落并输出内容 foreach ($paragraphs as $p) { echo $p->innertext . PHP_EOL; }
运行extract_content.php
文件,将提取指定网页上的所有段落(p)标签的内容并输出。根据需要,可以修改代码以提取其他标签或属性。更多关于simplehtmldom
库的信息和用法,请参阅官方文档:https://simplehtmldom.sourceforge.io/manual.htm