当前位置: 首页 > news >正文

【深度学习】训练过程中一个OOM的问题,太难查了

现象:
各位大佬又遇到过ubuntu的这个问题么?
现象是在训练过程中,ssh 上不去了,能ping通,没死机,但是ubunutu 的pc侧的显示器,鼠标啥都不好用了。只能重启。
在这里插入图片描述
问题原因:
在这里插入图片描述
OOM了95G,尼玛!!!!

在这里插入图片描述
pytorch爆内存了,然后journald假死了,在journald被watchdog干掉之后,系统就崩溃了。
这种规模的爆内存一般,即使被oom kill了,也要卡半天的,确实会这样,能不能配一点虚拟内存上去啊。
设置swap交换空间:

(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs                                                                  =1M count=327680
dd: failed to open '/swapfile': Text file busy
(base) justin@justin-System-Product-Name:~$ sudo swapoff
swapoff: bad usage
Try 'swapoff --help' for more information.
(base) justin@justin-System-Product-Name:~$ swapoff --helpUsage:swapoff [options] [<spec>]Disable devices and files for paging and swapping.Options:-a, --all              disable all swaps from /proc/swaps-v, --verbose          verbose mode-h, --help             display this help-V, --version          display versionThe <spec> parameter:-L <label>             LABEL of device to be used-U <uuid>              UUID of device to be usedLABEL=<label>          LABEL of device to be usedUUID=<uuid>            UUID of device to be used<device>               name of device to be used<file>                 name of file to be usedFor more details see swapoff(8).
(base) justin@justin-System-Product-Name:~$ sudo swapoff -a
(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs                                                                  =1M count=327680

我的swap交换空间2GB, 可以用 free -m 查看
然后 先关闭:
sudo swapoff -a
然后写入:
sudo dd if=/dev/zero of=/swapfile bs =1M count=327680
写了32G


32768+0 records in
32768+0 records out
34359738368 bytes (34 GB, 32 GiB) copied, 371.924 s, 92.4 MB/s

sudo chmod 600 /swapfile
sudo mkswap /swapfile

(base) justin@justin-System-Product-Name:~$ sudo chmod 600 /swapfile
(base) justin@justin-System-Product-Name:~$ sudo mkswap /swapfile
Setting up swapspace version 1, size = 32 GiB (34359734272 bytes)
no label, UUID=e8a65557-0a65-4820-808b-e8924548ec90
(base) justin@justin-System-Product-Name:~$

启用交换空间:
sudo swapon /swapfile

检查交换空间
sudo swapon --show

在这里插入图片描述

永久设置:
如果希望系统在每次启动时自动启用交换空间,可以将下面的行添加到 /etc/fstab 文件中:

echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

这将确保在系统启动时,交换文件会自动被挂载。
在这里插入图片描述

最后,你可以使用以下命令来检查交换空间的使用情况:

free -h
这将显示系统的内存和交换空间使用情况。确保交换空间处于正常运行状态,以提供额外的内存支持。

ref:https://blog.csdn.net/qq_42244167/article/details/135755665?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-1-135755665-blog-128822763.235v43pc_blog_bottom_relevance_base2&spm=1001.2101.3001.4242.2&utm_relevant_index=4

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 多人开发小程序设置体验版的痛点
  • 视频推拉流/直播点播EasyDSS平台安装失败并报错“install mediaserver error”是什么原因?
  • Centos7.9部署Gitlab-ce-16.9
  • 【人工智能学习笔记】3_2 机器学习基础之机器学习经典算法介绍
  • 程序员如何写笔记并整理资料?
  • react js 路由 Router
  • 跑步戴的耳机哪个品牌的好?全新测评推荐五大爆款骨传导运动耳机
  • 工业一体机帮助MES系统打通工厂数据采集及目视化
  • Python 如何类与对象
  • 同声翻译+AI+呼叫中心的结合
  • 网络通信安全:全面探索与深入分析
  • 如何保证Redis与Mysql双写一致性?
  • 泰语快速学习方法!速成方法学习!
  • 根据NVeloDocx Word模板引擎生成Word(四)
  • 即插即用篇 | YOLOv8 引入并行的分块注意力 | 北京大学 2024 | 微小目标
  • 2017届校招提前批面试回顾
  • 4个实用的微服务测试策略
  • Android 架构优化~MVP 架构改造
  • android 一些 utils
  • const let
  • django开发-定时任务的使用
  • java 多线程基础, 我觉得还是有必要看看的
  • VuePress 静态网站生成
  • zookeeper系列(七)实战分布式命名服务
  • 程序员该如何有效的找工作?
  • 初识 webpack
  • 电商搜索引擎的架构设计和性能优化
  • 详解NodeJs流之一
  • MyCAT水平分库
  • # 职场生活之道:善于团结
  • #设计模式#4.6 Flyweight(享元) 对象结构型模式
  • $con= MySQL有关填空题_2015年计算机二级考试《MySQL》提高练习题(10)
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (Oracle)SQL优化技巧(一):分页查询
  • (附源码)计算机毕业设计ssm基于B_S的汽车售后服务管理系统
  • (三分钟了解debug)SLAM研究方向-Debug总结
  • (算法)前K大的和
  • (算法)硬币问题
  • (原創) 是否该学PetShop将Model和BLL分开? (.NET) (N-Tier) (PetShop) (OO)
  • (转)ABI是什么
  • (转)VC++中ondraw在什么时候调用的
  • .net 8 发布了,试下微软最近强推的MAUI
  • .NET 跨平台图形库 SkiaSharp 基础应用
  • /var/lib/dpkg/lock 锁定问题
  • @CacheInvalidate(name = “xxx“, key = “#results.![a+b]“,multi = true)是什么意思
  • @NoArgsConstructor和@AllArgsConstructor,@Builder
  • @property python知乎_Python3基础之:property
  • [ 隧道技术 ] 反弹shell的集中常见方式(四)python反弹shell
  • [@Controller]4 详解@ModelAttribute
  • [ActionScript][AS3]小小笔记
  • [AIGC] Java List接口详解
  • [Android]使用Git将项目提交到GitHub
  • [BT]小迪安全2023学习笔记(第15天:PHP开发-登录验证)
  • [Bugku] web-CTF靶场系列系列详解⑥!!!
  • [C++] 深入理解面向对象编程特性 : 继承