广告位联系
返回顶部
分享到

DeepSeek部署之GPU监控指标接入Prometheus的过程

相关技巧 来源:互联网 作者:佚名 发布时间:2025-02-16 10:16:59 人浏览
摘要

一、背景 上一篇文章介绍了在GPU主机部署DeepSeek大模型。并且DeepSeek使用到了GPU资源来进行推理和计算的过程,加速我们模型的回答速度。 由此,我们必须要关注主机GPU的监控指标情况,例如

一、背景

        上一篇文章介绍了在GPU主机部署DeepSeek大模型。并且DeepSeek使用到了GPU资源来进行推理和计算的过程,加速我们模型的回答速度。

        由此,我们必须要关注主机GPU的监控指标情况,例如总的显卡显存大小、占用的显存大小、显卡的版本信息、驱动信息等等,才能对CPU运行情况、利用率等做到心中有数,便于后期的运维、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介绍

        地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

        我们可以使用nvidia_gpu_exporter本质原理是用过nvidia-smi指令采集GPU的信息,然后转换为prometheus metric。

        所以部署nvidia_gpu_exporter之前,需要正常安装号nvidia-smi,并且安装好了nvidia驱动、CUDA驱动等。

        正常执行nvidia-smi如下:

?

1

nvidia-smi

2、docker部署,测试/metrics是否正常

执行docker命令:

?

1

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通过curl访问主机的32768(端口可以自己做映射), 访问/metrics接口看是否可以正常拿到指标数据:

?

1

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus进行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到数据:

搜索指标是否已经入库:

2、Grafana面板搜索并且导入面板

搜索gpu关键词,查询到面板ID:

3、导入Grafana面板ID,查看效果

        面板可以看到GPU的型号是RTX 4090、显存的使用情况等指标, 此时我正在服务器运行deepseek-r1:1.5b的模型,所以看到GPU的相关使用。如果将模型停止运行,则GPU基本上无占用

四、总结

        AI人工智能、大模型等理论知识我们都能多少了解点,但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch进行了一些基础、简单模型的训练以及部署运行, 发现从零开始去尝试做机器学习的相关开发工作简直是天方夜谈,涉及到的就是各种概率学、统计学、线性代数、算法等等,门槛是相当高。

         既然无法做开发,那么从运维工程师的角度出发,了解PyTorch、tensorflow等深度学习框架的部署、模型的运行等等,继续在运维路上前进,扬长避短,才能发挥自我优势!


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 :
相关文章
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计