NVIDIA GPU 命令行监控工具对比
以下是 NVIDIA GPU 命令行监控工具的完整汇总,涵盖 功能对比、安装方式、典型使用命令 和 适用场景,便于你根据需求快速选择和上手。
一、主流 NVIDIA GPU 命令行监控工具对比
工具 | 类型 | 安装方式 | 是否需额外依赖 | 实时刷新 | JSON/脚本友好 | 多卡支持 | 项目地址 / 文档 |
nvidia-smi | 官方原生 | 随 NVIDIA 驱动自动安装 | ❌ 否 | ✅(-l) | ✅(-q -x) | ✅ | 官方文档 |
nvitop | 第三方交互 | pip install nvitop | ✅ Python | ✅ | ✅(API) | ✅ | GitHub |
nvtop | 第三方交互 | apt install nvtop 或源码编译 | ✅ CMake 等 | ✅ | ❌ | ✅ | GitHub |
gpustat | 脚本友好 | pip install gpustat | ✅ Python | ✅(-i) | ✅(--json) | ✅ | GitHub |
dcgmi | 数据中心级 | 安装 NVIDIA DCGM | ✅ DCGM 软件包 | ✅(dmon) | ✅(CSV/JSON) | ✅ | DCGM 文档 |
✅ = 支持;❌ = 不支持或有限支持
️ 二、各工具安装与使用示例
1.nvidia-smi(最基础、最通用)
- 安装:无需安装,只要装了 NVIDIA 驱动即可。
- 常用命令:
- nvidia-smi # 单次快照
- nvidia-smi -l 2 # 每2秒刷新
- nvidia-smi -q # 查询详细信息(可配合 -d 筛选)
- nvidia-smi dmon # 轻量滚动监控(列式输出,适合日志)
- nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv
2.nvitop(推荐!开发者首选)
- 安装:
- pip install nvitop
- 使用:
- nvitop # 交互式界面(类似 htop)
- nvitop -m auto # 自适应终端宽度
- nvitop -d 0.5 # 刷新间隔 0.5 秒
- 特点:彩色高亮、进程树显示、支持鼠标点击(部分终端)可作为 Python 库调用:from nvitop import Device
3.nvtop(C++ 编写,轻快)
- 安装(Ubuntu/Debian):
- sudo apt update && sudo apt install nvtop
- 其他系统需从源码编译(见 GitHub)
- 使用:
- nvtop
- 特点:启动快、资源占用低显示 GPU、显存、编码器/解码器利用率
4.gpustat(简洁脚本化)
- 安装:
- pip install gpustat
- 使用:
- gpustat -i 3 # 每3秒刷新
- gpustat --json # 输出 JSON(便于程序解析)
- gpustat -cpu # 同时显示 CPU 负载(需 psutil)
- 适合:写监控脚本、集成到日志系统或 Web 后端
5.dcgmi(企业级监控)
- 安装(Ubuntu 示例):
- wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
- sudo dpkg -i cuda-keyring_1.0-1_all.deb
- sudo apt update
- sudo apt install datacenter-gpu-manager
- sudo systemctl start dcgm
- 使用:
- dcgmi discovery -l # 列出所有 GPU
- dcgmi stats -e 1 # 启用统计收集
- dcgmi dmon -e 1001,1002,1003,1004 # 监控核心指标(GPU 使用率、显存、温度、功耗)
- 优势:支持健康检查、策略告警、遥测导出可对接 Prometheus(通过 DCGM Exporter)
三、如何选择?
需求场景 | 推荐工具 |
快速查看 GPU 状态(日常使用) | nvidia-smi 或 nvitop |
终端 UI 体验好、带进程管理 | nvitop(首选)或 nvtop |
写自动化脚本 / 日志采集 | gpustat 或 nvidia-smi --query-gpu |
多机集群 / Kubernetes / 生产环境 | dcgmi + dcgm-exporter
|
资源受限环境(低内存/CPU) | nvtop 或 nvidia-smi dmon |
补充资源
- NVIDIA 驱动下载:https://www.nvidia.com/Download/index.aspx
- DCGM 安装指南:https://docs.nvidia.com/datacenter/dcgm/latest/dcgm-quick-start-guide/index.html
- nvitop vs nvtop 对比视频/截图:可参考各自 GitHub README
文章版权声明:除非注明,否则均为边学边练网络文章,版权归原作者所有
