nvidia-smi输出的结果代表什么

发布人：shili8 发布时间：2025-03-15 18:45 阅读次数：0

**NVIDIA SMI 输出结果解析**

NVIDIA SMI（System Management Interface）是 NVIDIA 提供的一款管理工具，用于监控和管理 NVIDIA GPU 的运行状态。通过使用 `nvidia-smi` 命令，可以获取有关 GPU 运行状态的详细信息。

**输出结果结构**

当你执行 `nvidia-smi` 命令时，它会输出一个包含多个部分的表格，描述了每块GPU的状态。下面是输出结果的基本结构：

+--------------------------------------+--------+-----------------------+
| Name | GPU | Memory Usage |
+--------------------------------------+--------+-----------------------+
| NVIDIA-SMI470.57 Driver Version |15.7 |0 M |
| CUDA Version |11.4 | |
| Compute Capability |7.5 | |
+--------------------------------------+--------+-----------------------+

|0 Tesla V100-PCIE... Off |00000000:00:1E.0 | N/A |0MiB /16160MiB |0% Y |
+--------------------------------------+--------+-----------------------+

**输出结果解析**

下面是每个部分的详细解释：

* **Name**: GPU 名称，通常为 NVIDIA GPU 的型号和序列号。
* **GPU**: GPU ID，用于区分多块GPU。
* **Memory Usage**: GPU 内存使用情况，包括已使用内存和总内存容量。
* **Driver Version**: 驱动程序版本，描述了当前的驱动程序版本。
* **CUDA Version**: CUDA 版本，描述了当前的 CUDA 版本。
* **Compute Capability**: 计算能力，描述了 GPU 的计算能力。

**输出结果示例**

下面是一个完整的 `nvidia-smi` 输出结果示例：

+--------------------------------------+--------+-----------------------+
| Name | GPU | Memory Usage |
+--------------------------------------+--------+-----------------------+
| NVIDIA-SMI470.57 Driver Version |15.7 |0 M |
| CUDA Version |11.4 | |
| Compute Capability |7.5 | |
+--------------------------------------+--------+-----------------------+

|0 Tesla V100-PCIE... Off |00000000:00:1E.0 | N/A |0MiB /16160MiB |0% Y |
|1 Tesla T4 Off |00000000:00:18.0 | N/A |10MiB /16256MiB |0% Y |
+--------------------------------------+--------+-----------------------+

在这个示例中，我们可以看到有两块GPU：Tesla V100-PCIE和Tesla T4。每块GPU的内存使用情况都被显示出来。

**代码示例**

下面是一个使用 `nvidia-smi` 命令获取 GPU 内存使用情况的 Python代码示例：

import subprocess# 获取 GPU 内存使用情况gpu_memory_usage = subprocess.check_output(['nvidia-smi', '--query-gpu=memory.used,memory.total']).decode('utf-8')

# 解析输出结果gpu_memory_usage_lines = gpu_memory_usage.split('
')
gpu_memory_usage_dict = {}
for line in gpu_memory_usage_lines:
 if 'memory.used' in line and 'memory.total' in line:
 gpu_id, memory_used, memory_total = line.strip().split('|')
 gpu_memory_usage_dict[gpu_id] = {
 'memory_used': int(memory_used.split(' ')[-1]),
 'memory_total': int(memory_total.split(' ')[-1])
 }

# 打印 GPU 内存使用情况for gpu_id, memory_info in gpu_memory_usage_dict.items():
 print(f'GPU {gpu_id}:')
 print(f'Memory Used: {memory_info["memory_used"]} MiB')
 print(f'Memory Total: {memory_info["memory_total"]} MiB')

在这个代码示例中，我们使用 `subprocess` 模块执行 `nvidia-smi` 命令，获取 GPU 内存使用情况，然后解析输出结果并打印出每块GPU的内存使用情况。

上一条：AI学习笔记四：yolov5训练自己的数据集

下一条：编写LED驱动，创建三个设备文件，每个设备文件绑定一个设备