当前位置:实例文章 » Python实例» [文章]Python爬虫(二):Requests库

Python爬虫(二):Requests库

发布人:shili8 发布时间:2023-05-17 17:52 阅读次数:36

Python爬虫(二):Requests库

在上一篇文章中,我们介绍了Python爬虫的基本概念和原理,以及使用urllib库进行网页爬取的方法。本篇文章将介绍另一个常用的Python库——Requests库,它是一个更加方便、易用的HTTP库,可以帮助我们更加高效地进行网页爬取。

Requests库的安装

在使用Requests库之前,我们需要先安装它。可以使用pip命令进行安装:

```
pip install requests
```

安装完成后,我们就可以在Python中使用Requests库了。

Requests库的基本用法

Requests库的基本用法非常简单,只需要导入库并使用get()方法即可。下面是一个简单的示例:

```python
import requests

url = ' />response = requests.get(url)
print(response.text)
```

这段代码的作用是爬取百度首页的HTML代码,并将其打印出来。其中,url是我们要爬取的网页地址,response是我们通过get()方法得到的响应对象,response.text则是响应对象中的HTML代码。

Requests库的高级用法

除了基本用法之外,Requests库还提供了许多高级用法,可以帮助我们更加灵活地进行网页爬取。下面是一些常用的高级用法:

1. 添加请求头

有些网站会对爬虫进行限制,如果我们的请求头不符合要求,就会被拒绝。因此,在进行网页爬取时,我们需要添加一些合法的请求头。可以使用headers参数来添加请求头,示例如下:

```python
import requests

url = ' />headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url headers=headers)
print(response.text)
```

在这个示例中,我们添加了一个User-Agent请求头,模拟了一个Chrome浏览器的请求。

2. 添加请求参数

有些网站的网址中会包含一些参数,这些参数可以影响网页的内容。例如,我们可以通过添加参数来实现翻页、筛选等功能。可以使用params参数来添加请求参数,示例如下:

```python
import requests

url = ' />params = {'wd': 'Python'}
response = requests.get(url params=params)
print(response.text)
```

在这个示例中,我们添加了一个wd参数,表示要搜索的关键词是Python。

3. 发送POST请求

有些网站的数据是通过POST请求来获取的,例如登录、提交表单等操作。可以使用post()方法来发送POST请求,示例如下:

```python
import requests

url = ' />data = {'username': 'admin' 'password': '123456'}
response = requests.post(url data=data)
print(response.text)
```

在这个示例中,我们向一个名为login的网址发送了一个POST请求,提交了一个用户名和密码。

4. 处理Cookie

有些网站需要登录才能访问,登录后会返回一个Cookie,我们需要将这个Cookie保存下来,以便后续的访问。可以使用cookies参数来处理Cookie,示例如下:

```python
import requests

url = ' />data = {'username': 'admin' 'password': '123456'}
response = requests.post(url data=data)
cookies = response.cookies
url = ' />response = requests.get(url cookies=cookies)
print(response.text)
```

在这个示例中,我们先向一个名为login的网址发送了一个POST请求,提交了一个用户名和密码,然后将返回的Cookie保存下来。接着,我们向一个名为user的网址发送了一个GET请求,使用了保存下来的Cookie。

总结

本篇文章介绍了Python爬虫中常用的Requests库,包括基本用法和高级用法。使用Requests库可以帮助我们更加高效、灵活地进行网页爬取。在实际应用中,我们需要根据具体的需求选择合适的方法和参数,以达到最佳的爬取效果。

相关标签:爬虫
其他信息

其他资源

Top