当前位置: 首页 > news >正文

【SGE】任务显示 T 状态,qstat -j 报错 can not find an unused add_grp_id

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

同事新装的 SGE 在提交任务后,只有一个job可以运行, 多个任务显示在 T 状态, 如下:

# qstat -u '*'
job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID 
-----------------------------------------------------------------------------------------------------------------
     55 0.60500 I_ZC170000 robots       r     02/23/2017 11:27:45 all.q@###                     6        
     56 0.50500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@###                     1        
     57 0.50500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@###                    1        
     58 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@###                     6        
     59 0.50500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@###                    1        
     60 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     6        
     61 0.50500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     1        
     63 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     6        
     65 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     6        
     68 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     6        
     70 0.60500 II_ZC17000 robots       t     02/23/2017 11:29:45 all.q@Analysis                     6 

使用 命令 qstat -j 56 查看任务信息有如下报错:

error reason    1:          can not find an unused add_grp_id
                1:          can not find an unused add_grp_id
                1:          can not find an unused add_grp_id
                1:          can not find an unused add_grp_id

解决办法

导致该问题的原因是因为 SGE 的环境配置中 gid_range 大小不够用造成, 如:

[root@Analysis gridengine]# qconf -sconf | grep gid_range
gid_range                    21000

上述的配置应该是一个区间, 而被同事错误的配置成了一个数字, 所以只有一个job可以正常执行。将该值改为区间即可,再重启下sgemaster 即可。

[root@Analysis gridengine]# qconf -sconf | grep gid_range
gid_range                    20000-21000

man 一下:

[root@Analysis ~]# man sge_conf
.........
gid_range
       The gid_range is a comma separated list of  range  expressions  of  the
       form  n-m (n as well as m are integer numbers greater than 99), where m
       is an abbreviation for m-m. These numbers are used in  sge_execd(8)  to
       identify processes belonging to the same job.

       Each sge_execd(8) may use a separate set up group ids for this purpose.
       All number in the group id range have to be unused supplementary  group
       ids on the system, where the sge_execd(8) is started.

       Changing gid_range will take immediate effect.  There is no default for
       gid_range. The administrator will have to assign a value for  gid_range
       during installation of Sun Grid Engine.

       The global configuration entry for this value may be overwritten by the
       execution host local configuration.

参考资料: http://arc.liv.ac.uk/pipermail/gridengine-users/2005-September/007056.html

转载于:https://my.oschina.net/leopardlinux/blog/844500

相关文章:

  • NTP server
  • nginx访问控制
  • python 继承基础
  • 前端开发中同步和异步的区别
  • Powershell IE自动登录
  • 二维平面内的碰撞检测【一】
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • BZOJ 2244: [SDOI2011]拦截导弹 [CDQ分治 树状数组]
  • Jquery里live事件移除原因
  • Java NIO中的通道Channel(一)通道基础
  • java栈与队列面试题
  • java中正则表达式的使用
  • 拦截器与过滤器的区别
  • RPM方式安装MySQL5.6
  • PHP 小技巧
  • Android单元测试 - 几个重要问题
  • JavaSE小实践1:Java爬取斗图网站的所有表情包
  • Laravel 菜鸟晋级之路
  • PAT A1092
  • Python语法速览与机器学习开发环境搭建
  • swift基础之_对象 实例方法 对象方法。
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • Zsh 开发指南(第十四篇 文件读写)
  • 从输入URL到页面加载发生了什么
  • 码农张的Bug人生 - 初来乍到
  • 判断客户端类型,Android,iOS,PC
  • 前嗅ForeSpider中数据浏览界面介绍
  • 区块链分支循环
  • 深度学习在携程攻略社区的应用
  • 世界上最简单的无等待算法(getAndIncrement)
  • 我是如何设计 Upload 上传组件的
  • 小试R空间处理新库sf
  • 中文输入法与React文本输入框的问题与解决方案
  • (06)Hive——正则表达式
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (4)事件处理——(7)简单事件(Simple events)
  • (arch)linux 转换文件编码格式
  • (C#)if (this == null)?你在逗我,this 怎么可能为 null!用 IL 编译和反编译看穿一切
  • (ibm)Java 语言的 XPath API
  • (附源码)ssm码农论坛 毕业设计 231126
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (转)http协议
  • ./configure,make,make install的作用(转)
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET Core6.0 MVC+layui+SqlSugar 简单增删改查
  • .NET 线程 Thread 进程 Process、线程池 pool、Invoke、begininvoke、异步回调
  • .NET成年了,然后呢?
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .net连接oracle数据库
  • [ 手记 ] 关于tomcat开机启动设置问题
  • [2024] 十大免费电脑数据恢复软件——轻松恢复电脑上已删除文件
  • [Android]使用Retrofit进行网络请求