当前位置: 首页 > news >正文

服务器GPU温度过高挂掉排查记录

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令查看:

nvidia-smi

显示

Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。

感觉很莫名其妙。通过重启大法之后,又能用一段时间。

shutdown -r now

但是过了一个小时左右又会挂掉。不能从根本解决问题。那么到底为什么GPU会自己挂掉呢?

问题排查

通过查看日志定位错误原因:

nvidia-bug-report.sh

在当前目录下生成了nvidia-bug-report.log日志文件。查看到日志文件的内容如下:

在这里插入图片描述
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源问题,要么是温度过高问题。
在这里插入图片描述

重现问题,查看温度日志

如果判断是否是GPU温度过高呢?需要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:

nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log 

代码继续跑,等待问题重现后查看温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,查看温度日志:
在这里插入图片描述
上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目标温度(GPU比较合适的温度)。
找到问题了!就是温度过热导致GPU掉线!

解决问题

温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。猜测可能是那个风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开发现转轴有点杂质,增大了风扇阻力,清理了一下,上了点润滑油。(当然直接换风扇最为方便!!!免得担心风扇被拆坏掉)
在这里插入图片描述

装上后发现能正常工作,温度再也没有超负荷过!问题完美解决!

参考链接

gpu-has-fallen-of-the-bus

相关文章:

  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • 避免重复扣款:分布式支付系统的幂等性原理与实践
  • astadmin安装querylist插件Puppeteer
  • 图像分类任务的可视化脚本,生成类别json字典文件
  • Hotspot源码解析-第十七章-虚拟机万物创建(三)
  • 如何使用PHP开发缓存优化图片加载速度
  • Python pip 常用指令
  • 安达发|APS智能排产软件有哪些条件约束功能
  • 2024年AIGC趋势展望:视频生成的“百模大战”
  • 每日一篇英语文章分享-----主目录-----持续更新
  • 蓝凌EIS智慧协同平台 ShowUserInfo.aspx SQL注入漏洞复现
  • vue中常用的指令修饰符
  • JAVA毕业设计118—基于Java+Springboot的宠物寄养管理系统(源代码+数据库)
  • hadoop自动获取时间
  • 通过 Elastic Stack 充分利用电信领域生成式 AI 的力量
  • C++11: atomic 头文件
  • CSS实用技巧
  • docker-consul
  • Docker容器管理
  • git 常用命令
  • interface和setter,getter
  • TypeScript迭代器
  • TypeScript实现数据结构(一)栈,队列,链表
  • underscore源码剖析之整体架构
  • 从伪并行的 Python 多线程说起
  • 翻译--Thinking in React
  • 简单基于spring的redis配置(单机和集群模式)
  • 理清楚Vue的结构
  • 怎么把视频里的音乐提取出来
  • 正则与JS中的正则
  • ionic异常记录
  • PostgreSQL之连接数修改
  • 数据可视化之下发图实践
  • ​ssh-keyscan命令--Linux命令应用大词典729个命令解读
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • (arch)linux 转换文件编码格式
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (JS基础)String 类型
  • (Matlab)使用竞争神经网络实现数据聚类
  • (solr系列:一)使用tomcat部署solr服务
  • (笔记)Kotlin——Android封装ViewBinding之二 优化
  • (四)【Jmeter】 JMeter的界面布局与组件概述
  • .NET/C# 在 64 位进程中读取 32 位进程重定向后的注册表
  • .NET高级面试指南专题十一【 设计模式介绍,为什么要用设计模式】
  • .NET与 java通用的3DES加密解密方法
  • @angular/cli项目构建--Dynamic.Form
  • [ vulhub漏洞复现篇 ] ThinkPHP 5.0.23-Rce
  • [ 云计算 | AWS ] 对比分析:Amazon SNS 与 SQS 消息服务的异同与选择
  • [].shift.call( arguments ) 和 [].slice.call( arguments )
  • [1127]图形打印 sdutOJ
  • [ASP.NET 控件实作 Day7] 设定工具箱的控件图标
  • [BZOJ4554][TJOI2016HEOI2016]游戏(匈牙利)
  • [EFI]MSI GF63 Thin 9SCXR电脑 Hackintosh 黑苹果efi引导文件
  • [E链表] lc83. 删除排序链表中的重复元素(单链表+模拟)