使用 Python 实现简单的爬虫框架
发布人:shili8
发布时间:2023-05-08 22:10
阅读次数:59
Python、爬虫框架
我们可以使用 Python 的 requests 和 BeautifulSoup 库来实现一个简单的爬虫框架。其中,requests 用于发送 HTTP 请求,BeautifulSoup 用于解析网页内容。以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
def crawl(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里可以对网页内容进行处理
# ...
if __name__ == '__main__':
urls = ['https://www.example.com/page1', 'https://www.example.com/page2']
for url in urls:
crawl(url)
```
以上代码中,crawl 函数用于爬取传入的 URL,并使用 BeautifulSoup 将响应内容解析为 BeautifulSoup 对象。在实际应用中,我们可以根据具体需求对解析后的内容进行处理,并将结果存储到数据库或文件中。
在主函数中,我们可以定义需要爬取的 URL 列表,然后遍历列表调用 crawl 函数进行爬取。