BeautifulSoup4(简称BS4)是Python中常用的HTML/XML解析库,可以用于从网页中提取数据。以下是BS4的一些常用用法:
- 导入库:使用BS4需要先导入库。
例如:
from bs4 import BeautifulSoup
- 创建BeautifulSoup对象:使用BeautifulSoup可以将HTML或XML文档转换为一个BeautifulSoup对象,方便后续的操作。
例如:
html_doc = "<html><head><title>Test</title></head><body><p>Hello, world!</p></body></html>"
soup = BeautifulSoup(html_doc, 'html.parser')
- 搜索文档:可以使用BeautifulSoup的搜索方法,查找文档中符合条件的元素。
例如:
soup.find('p') # 查找第一个<p>元素
soup.find_all('p') # 查找所有的<p>元素
soup.find(id='test') # 查找id为test的元素
- 遍历文档树:可以使用BeautifulSoup的遍历方法,遍历文档树中的元素。
例如:
for child in soup.body.children:
print(child)
- 获取元素的属性和文本:可以使用BeautifulSoup的属性和文本方法,获取元素的属性和文本内容。
例如:
element['class'] # 获取元素的class属性
element.get_text() # 获取元素的文本内容
除了以上方法,BS4还提供了一些其他的方法和属性,例如:element.parent
、element.next_sibling
、element.previous_sibling
、element.find_parent()
、element.find_next_sibling()
、element.find_previous_sibling()
等,可以用于更高级的HTML/XML解析。总的来说,BS4是Python中处理HTML/XML文档的重要工具,可以方便地实现网页数据的提取和处理。