python爬虫网页解析之lxml模块

在Python中,lxml是一个非常流行的解析HTML和XML文档的模块。它提供了一种简单而强大的方式来解析HTML和XML文档,并提供了一组方便的API来查找和操作文档中的元素和属性。下面是使用lxml解析HTML文档的示例:

from lxml import etree
import requests

# 发送HTTP请求获取HTML文档
response = requests.get("http://www.example.com")
html = response.text

# 使用lxml解析HTML文档
tree = etree.HTML(html)

# 查找元素
title = tree.xpath("//title")[0].text
print(title)

# 查找属性
links = tree.xpath("//a[@href]")
for link in links:
    print(link.get("href"))
上面的代码中,我们首先使用requests库发送HTTP请求获取HTML文档,然后使用lxml解析HTML文档。在解析HTML文档后,我们可以使用xpath()方法来查找元素和属性。在上面的示例中,我们查找了HTML文档中的