使用Python爬取给定网页的所有链接（附完整代码）

发布人：shili8 发布时间：2023-05-23 18:50 阅读次数：124

Python是一种非常强大的编程语言，可以用来完成各种任务，包括网络爬虫。在本文中，我们将使用Python编写一个简单的网络爬虫，用于爬取给定网页的所有链接。

首先，我们需要安装Python的一个第三方库，名为BeautifulSoup。这个库可以帮助我们解析HTML文档，并提取其中的链接。可以使用以下命令来安装这个库：

pip install beautifulsoup4

接下来，我们需要编写Python代码来实现我们的网络爬虫。以下是完整的代码：

import requests
from bs4 import BeautifulSoup

# 定义一个函数，用于获取给定网页的所有链接
def get_links(url):
    # 发送HTTP请求，获取网页内容
    response = requests.get(url)
    # 使用BeautifulSoup解析HTML文档
    soup = BeautifulSoup(response.text 'html.parser')
    # 查找所有的链接标签
    links = soup.find_all('a')
    # 遍历所有的链接标签，提取链接
    for link in links:
        href = link.get('href')
        if href is not None:
            # 如果链接是相对路径，则将其转换为绝对路径
            if href.startswith('/'):
                href = url + href
            # 输出链接
            print(href)

# 调用函数，获取指定网页的所有链接
get_links(' />

让我们逐行分析一下这个代码：

import requests
from bs4 import BeautifulSoup

这两行代码导入了我们需要使用的库，分别是requests和BeautifulSoup。

def get_links(url):

这个函数接受一个参数url，表示要爬取的网页的URL。

response = requests.get(url)

这行代码发送了一个HTTP请求，获取了指定网页的内容。

soup = BeautifulSoup(response.text 'html.parser')

这行代码使用BeautifulSoup解析了HTML文档，并将其存储在一个变量soup中。

links = soup.find_all('a')

这行代码查找了所有的链接标签，并将它们存储在一个变量links中。

for link in links:
    href = link.get('href')
    if href is not None:
        if href.startswith('/'):
            href = url + href
        print(href)

这个循环遍历了所有的链接标签，提取了它们的href属性，并输出了这些链接。如果链接是相对路径，则将其转换为绝对路径。

get_links(' />

这行代码调用了我们定义的函数，获取了百度首页的所有链接。

运行这个代码，你将会看到百度首页的所有链接被输出到了控制台上。这个代码可以很容易地修改，以适应不同的网页。

上一条：【Python自动化测试】详解selenium从入门到实战【一】

下一条：华为OD机试 - 硬件产品销售方案（Python）