python爬虫网页解析之lxml模块_Python爬虫

python爬虫网页解析之lxml模块

创始人

2023-05-27 20:49:47

0次

在Python中，lxml是一个非常流行的解析HTML和XML文档的模块。它提供了一种简单而强大的方式来解析HTML和XML文档，并提供了一组方便的API来查找和操作文档中的元素和属性。下面是使用lxml解析HTML文档的示例：

from lxml import etree
import requests

# 发送HTTP请求获取HTML文档
response = requests.get("http://www.example.com")
html = response.text

# 使用lxml解析HTML文档
tree = etree.HTML(html)

# 查找元素
title = tree.xpath("//title")[0].text
print(title)

# 查找属性
links = tree.xpath("//a[@href]")
for link in links:
    print(link.get("href"))

上面的代码中，我们首先使用requests库发送HTTP请求获取HTML文档，然后使用lxml解析HTML文档。在解析HTML文档后，我们可以使用xpath()方法来查找元素和属性。在上面的示例中，我们查找了HTML文档中的

上一篇： 深入requests库params|data|json参数

下一篇： python爬虫网页解析之parsel模块