以下是一个简单的豆瓣读书爬虫的 Python 代码示例:
import requests
from bs4 import BeautifulSoup
# 输入书籍名称
book_name = input("请输入要爬取的书籍名称:")
# 构造请求 URL
url = f"https://book.douban.com/subject/{book_name}"
# 发送请求并获取响应内容
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(html, "html.parser")
# 获取相关书籍咨询信息
questions = soup.find_all("div", class_="QU")
for question in questions:
title = question.find("h2").text.strip()
content = ""
for item in question.find_all("p"):
content += item.text.strip() + "
"
print(title)
print(content)
这个爬虫会首先让用户输入要爬取的书籍名称,然后构造一个包含该书籍名称的 URL,向该 URL 发送请求并获取响应内容。接着,使用 BeautifulSoup 对响应内容进行解析,找到包含书籍咨询信息的 div 标签,并遍历其中的所有 p 标签,提取出每个标签中的文本信息。最后,将提取到的信息打印出来。