web后端1002web后端(NVIDIA GPU 命令行监控工具对比)

web后端1002web后端(NVIDIA GPU 命令行监控工具对比)
NVIDIA GPU 命令行监控工具对比

以下是 NVIDIA GPU 命令行监控工具的完整汇总,涵盖 功能对比、安装方式、典型使用命令适用场景,便于你根据需求快速选择和上手。


一、主流 NVIDIA GPU 命令行监控工具对比

工具

类型

安装方式

是否需额外依赖

实时刷新

JSON/脚本友好

多卡支持

项目地址 / 文档

nvidia-smi

官方原生

随 NVIDIA 驱动自动安装

❌ 否

✅(-l)

✅(-q -x)

官方文档

nvitop

第三方交互

pip install nvitop

✅ Python

✅(API)

GitHub

nvtop

第三方交互

apt install nvtop 或源码编译

✅ CMake 等

GitHub

gpustat

脚本友好

pip install gpustat

✅ Python

✅(-i)

✅(--json)

GitHub

dcgmi

数据中心级

安装 NVIDIA DCGM

✅ DCGM 软件包

✅(dmon)

✅(CSV/JSON)

DCGM 文档

✅ = 支持;❌ = 不支持或有限支持


️ 二、各工具安装与使用示例

1.nvidia-smi(最基础、最通用)

  • 安装:无需安装,只要装了 NVIDIA 驱动即可。
  • 常用命令
  • nvidia-smi # 单次快照
  • nvidia-smi -l 2 # 每2秒刷新
  • nvidia-smi -q # 查询详细信息(可配合 -d 筛选)
  • nvidia-smi dmon # 轻量滚动监控(列式输出,适合日志)
  • nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

2.nvitop(推荐!开发者首选)

  • 安装
  • pip install nvitop
  • 使用
  • nvitop # 交互式界面(类似 htop)
  • nvitop -m auto # 自适应终端宽度
  • nvitop -d 0.5 # 刷新间隔 0.5 秒
  • 特点:彩色高亮、进程树显示、支持鼠标点击(部分终端)可作为 Python 库调用:from nvitop import Device

3.nvtop(C++ 编写,轻快)

  • 安装(Ubuntu/Debian)
  • sudo apt update && sudo apt install nvtop
  • 其他系统需从源码编译(见 GitHub)
  • 使用
  • nvtop
  • 特点:启动快、资源占用低显示 GPU、显存、编码器/解码器利用率

4.gpustat(简洁脚本化)

  • 安装
  • pip install gpustat
  • 使用
  • gpustat -i 3 # 每3秒刷新
  • gpustat --json # 输出 JSON(便于程序解析)
  • gpustat -cpu # 同时显示 CPU 负载(需 psutil)
  • 适合:写监控脚本、集成到日志系统或 Web 后端

5.dcgmi(企业级监控)

  • 安装(Ubuntu 示例)
  • wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
  • sudo dpkg -i cuda-keyring_1.0-1_all.deb
  • sudo apt update
  • sudo apt install datacenter-gpu-manager
  • sudo systemctl start dcgm
  • 使用
  • dcgmi discovery -l # 列出所有 GPU
  • dcgmi stats -e 1 # 启用统计收集
  • dcgmi dmon -e 1001,1002,1003,1004 # 监控核心指标(GPU 使用率、显存、温度、功耗)
  • 优势:支持健康检查、策略告警、遥测导出可对接 Prometheus(通过 DCGM Exporter)

三、如何选择?

需求场景

推荐工具

快速查看 GPU 状态(日常使用)

nvidia-smi 或 nvitop

终端 UI 体验好、带进程管理

nvitop(首选)或 nvtop

写自动化脚本 / 日志采集

gpustat 或 nvidia-smi --query-gpu

多机集群 / Kubernetes / 生产环境

dcgmi + dcgm-exporter

web后端1002web后端(NVIDIA GPU 命令行监控工具对比)

资源受限环境(低内存/CPU)

nvtop 或 nvidia-smi dmon


补充资源

  • NVIDIA 驱动下载:https://www.nvidia.com/Download/index.aspx
  • DCGM 安装指南:https://docs.nvidia.com/datacenter/dcgm/latest/dcgm-quick-start-guide/index.html
  • nvitop vs nvtop 对比视频/截图:可参考各自 GitHub README

文章版权声明:除非注明,否则均为边学边练网络文章,版权归原作者所有

相关阅读

最新文章

热门文章

本栏目文章