1 wxd21020 OP 没人么 |
2 ellipsecheung 2024-07-27 14:48:14 +08:00 多大规模的,什么显卡,要监控哪些数据 |
![]() | 3 gesse 2024-07-27 14:58:12 +08:00 nvidia-smi |
4 wxd21020 OP @ellipsecheung 千卡级 A100 起步 |
![]() | 5 mgrddsj 2024-07-27 22:13:35 +08:00 via Android 用过某高校的 HPC ,也是好多的 GPU 服务器,是用 Grafana 搭的资源占用监控。 |
8 ellipsecheung 2024-07-29 11:41:48 +08:00 @wxd21020 加个 wx 聊一下? |
9 Mi1kTea 2024-07-30 13:56:48 +08:00 https://github.com/utkuozdemir/nvidia_gpu_exporter?tab=readme-ov-file nvidia exporter 获取数据+Prometheus 整合数据+grafana 展示 |