系统运维管理小记
系统运维,是一个可小可大的岗位。尤其是自动化运维、和系统复杂度都日益增加的今天,学会管理运维工具,衡量什么时候做什么事情显得更加重要。
首先是日常运维。这里包括:
- 将业务操作问题和基础设施(网络 / 访问策略)问题分离。
- 采取不同方法解决。
- 培养系统用户自行判断、自救的本领。
业务操作问题中,也包括可以复现和一过性(不能复现)的。简单总结如下,具体看各单位 / 部门的合规程度来执行:
- 存在可以复现的问题,应该确认影响的账号 / 菜单模块 的范围;如有尚能正常工作的账号,有条件应在后台排查账号间权限和角色的差异。
- 如确认是个别单据操作失误,导致问题复现、需要指引和规范用户的操作步骤。
- 存在不可复现的问题,如网络宕机、接口报错等超出运维权限导致的故障,应该及时向关联方请求支援。
- 如问题较为复杂,且对应功能尚能运作,应该先协助业务完成操作,再另行排查。
然后是基础设施(网络 / 访问策略)的问题排查。这里不详细展开。但是 windows 平台下,排查下是否错误设置了网络代理 / 网关设置丢失 / 用 ping -t 排查某个地址的网络抖动 / 用 netstat -ano 排查进程占用的端口,就可以找到大多数的根源。
最后是培养系统用户自行判断、自救的本领。用户对线上的业务流程较为熟悉,发现哪里不对劲的 “第一描述” 是需要运维人员引起重视的。在用户提供了描述的情况下,需要结合系统平日的表现判断是某些单据的问题、还是系统模块出错等。利于节约运维人员资源的办法是:
- 如不止一个人用户出现过类似的问题,应该先让他们尝试以前成功过的 1 - 3 个方法,并让用户之间分享这些方法。
- 如果仍不奏效,才带上截图或某个环节的报错信息、来找运维人员解决。
(完)