lxml怎么解析HTML文档

作者

首页»
云计算»
知识库»
lxml怎么解析HTML文档

发布时间:2024-07-12 03:00

阅读量:0

可以使用lxml库中的html.fromstring()方法来解析HTML文档。首先需要将HTML文档读取为字符串，然后使用html.fromstring()方法将其转换为Element对象，最后可以使用Element对象的方法来获取需要的信息。以下是一个示例代码：

from lxml import html  # 读取HTML文档 with open('example.html', 'r') as file:     html_content = file.read()  # 解析HTML文档 tree = html.fromstring(html_content)  # 获取标题 title = tree.findtext('.//title')  # 获取所有的链接 links = tree.xpath('.//a/@href')  # 打印结果 print(title) print(links)