- 安装Python和相关库
首先,你需要安装Python和相关的库,例如requests、beautifulsoup4和lxml。你可以使用pip命令来安装这些库,例如:
pip install requests
pip install beautifulsoup4
pip install lxml
- 发送HTTP请求
使用requests库发送HTTP请求,获取网页的HTML代码。例如,以下代码可以获取百度首页的HTML代码:
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
print(html)
- 解析HTML代码
使用beautifulsoup4库解析HTML代码,提取出需要的信息。例如,以下代码可以提取百度首页上的所有链接:
from bs4 import BeautifulSoup
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('a')
for link in links:
print(link.get('href'))
- 保存数据
将提取到的数据保存到本地文件或数据库中。例如,以下代码可以将百度首页上的所有链接保存到本地文件中:
from bs4 import BeautifulSoup
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('a')
with open('links.txt', 'w') as f:
for link in links:
f.write(link.get('href') + '\n')
以上就是一个超级简单的Python爬虫教程,希望对初学者有所帮助。当然,实际的爬虫项目可能会更加复杂,需要更多的技术和经验