
可以使用Python的第三方库requests
和json
来抓取B站数据。以下是一个简单的示例代码,可以抓取B站搜索结果的前10页视频信息:
import requestsimport json
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
url = 'https://api.bilibili.com/x/web-interface/search/type'for i in range(1, 11):
params = { 'search_type': 'video', 'keyword': 'python', 'page': i
}
response = requests.get(url, headers=headers, params=params)
data = json.loads(response.text) for item in data['data']['result']: print(item['title'], item['author'], item['play'])
在上面的代码中,requests
库用于发送HTTP请求,json
库用于解析返回的JSON格式数据。headers
是请求头,模拟浏览器访问。params
是请求参数,包括搜索类型、关键字和页码。response.text
返回的是JSON格式的字符串,用json.loads
将其转换为字典类型,然后遍历获取每个视频的标题、作者和播放量。