当前位置: 首页 > news >正文

docker搭建普罗米修斯监控gpu

ip8的服务器监控ip110和ip111的服务器

被监控的服务器110和111只需要安装node-export和nvidia-container-toolkit

下载镜像包

docker pull prom/node-exporter
docker pull prom/prometheus
docker pull grafana/grafana

新建目录

mkdir /opt/prometheus
cd /opt/prometheus/
vim prometheus.yml
global:scrape_interval:     60sevaluation_interval: 60sscrape_configs:- job_name: prometheusstatic_configs:- targets: ['localhost:9090']labels:instance: prometheus- job_name: linuxstatic_configs:- targets: ['10.20.13.8:9100']labels:instance: master- job_name: nodestatic_configs:- targets: ['10.20.13.111:9100','10.20.13.110:9100']

启动普罗米修斯

docker run  -d \-p 9090:9090 \-v /opt/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml  \prom/prometheus

启动node-export  

docker run -d -p 9100:9100 \-v "/proc:/host/proc:ro" \-v "/sys:/host/sys:ro" \-v "/:/rootfs:ro" \prom/node-exporter

新建目录

mkdir /opt/grafana-storage
chmod 777 -R /opt/grafana-storage

启动grafana

docker run -d \-p 3000:3000 \--name=grafana \-v /opt/grafana-storage:/var/lib/grafana \grafana/grafana

访问grafana  url

10.20.13.8:3000
默认会先跳转到登录页面,默认的用户名和密码都是admin

添加data source时,ip地址要填写本机Ip地址     http://ip:9090

安装显卡监控

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg   && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |     sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |     sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
apt update
apt upgrade 
apt-get install -y nvidia-container-toolkit
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

运行容器

docker run -d     --restart always     --gpus all     -p 9400:9400     --name gpu-exporter     nvcr.io/nvidia/k8s/dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

在配置文件中加入端口

vim /opt/prometheus/prometheus.yml

加入一段

- job_name: gpu_metricsstatic_configs:- targets: ['10.20.13.111:9400','10.20.13.110:9400']

在grafanan导入监控gpu模板  id12239

相关文章:

  • 基于 Three.js 的 3D 模型加载优化
  • Python实现人脸识别
  • 【IEEE出版,会议历史良好、论文录用检索快】第四届计算机科学与区块链国际学术会议 (CCSB 2024,9月6-8)
  • 【项目】星辰博客介绍
  • 【Python】使用库 -- 详解
  • 【Chatgpt大语言模型医学领域中如何应用】
  • pico+unity3d移动和转向
  • 项目架构图的最佳实践:绘制、维护与示例
  • element UI :el-table横向列内容超出宽度,滚动条不显示问题
  • http请求网址或网页的全流程
  • 使用 git 和 GitHub 互动
  • Model Import Settings
  • kafka-client如何打印连接日志
  • 类和对象:赋值函数
  • 实验七:图像的复原处理
  • 深入了解以太坊
  • 自己简单写的 事件订阅机制
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • C++类的相互关联
  • CSS 专业技巧
  • gcc介绍及安装
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • js递归,无限分级树形折叠菜单
  • leetcode388. Longest Absolute File Path
  • Markdown 语法简单说明
  • PhantomJS 安装
  • 从输入URL到页面加载发生了什么
  • 深入浏览器事件循环的本质
  • 小程序button引导用户授权
  • 学习Vue.js的五个小例子
  • 移动端唤起键盘时取消position:fixed定位
  • 看到一个关于网页设计的文章分享过来!大家看看!
  • 阿里云IoT边缘计算助力企业零改造实现远程运维 ...
  • 带你开发类似Pokemon Go的AR游戏
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • ​ssh-keyscan命令--Linux命令应用大词典729个命令解读
  • # 移动硬盘误操作制作为启动盘数据恢复问题
  • ######## golang各章节终篇索引 ########
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • #APPINVENTOR学习记录
  • #Java第九次作业--输入输出流和文件操作
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • ()、[]、{}、(())、[[]]命令替换
  • (LeetCode) T14. Longest Common Prefix
  • (MTK)java文件添加简单接口并配置相应的SELinux avc 权限笔记2
  • (二)基于wpr_simulation 的Ros机器人运动控制,gazebo仿真
  • (十三)Maven插件解析运行机制
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (转)ABI是什么
  • (转)socket Aio demo
  • (转)负载均衡,回话保持,cookie
  • (自用)gtest单元测试
  • .NET Core 成都线下面基会拉开序幕