那些难忘的维护之夜
这是学习笔记的第 2177 篇文章
读完需要
5
分钟速读仅需3分钟
今晚是一个维护之夜,出于蓄势待发状态,对于我来说,每到这个时候就会想起自己这些年熬的那些夜,还是蛮难忘的。
举几个自己印象深刻的维护之夜吧。
1)印象最深刻,压力最大的维护是多套Oracle数据库从10g升级到11g,在前期做了多轮测试,在实际操作还是碰到了不少ORA-00600的错误,不过前期的问题都成功化解,而在最后启动服务的关头,服务抛出了一个奇怪的错误,记得当时情况已经很紧急了,是满世界的打电话求救,唤醒了全球的多个技术专家,有的定位是bug,然后打补丁未果,最后一个操作竟然是重新清空一下回收站,具体细节忘记了,但是这个神一样的操作让我们和原厂都感叹不已。
2)有一次大型维护的时候,登录了一套准生产测试环境,做了下业务变更升级,没想到线上和测试环境的模板配置不一样,结果就想当然在线上环境点击了YES开始自动升级,没想到整个线上环境开始了一系列的不可控操作,于是乎整个业务系统全服回退,这个事情对我们造成了很深刻的教训。
3)在国内的一次大型维护,想想都是满满的使命感,差不多有13套环境是在1个多小时内完成,有切换的数据库,有做数据库升级的数据库,有做跨平台迁移的数据库,没想到预估的3个半小时结果在1个小时以内就全部完成了。但是戏剧性的一幕发生了,开服的时候,发现用户充值失败,结果留给我们的时间就很短了。当时记得气氛很紧张,领导拍板,如果10分钟内解决不了,就全服回退。当时看着同事在那里手工敲一些系统命令,带着压力还多次敲错,我赶紧在另一半开始拿出自己准备的脚本开始快速排查,所幸的是在最后的关头,定位到了问题,是一个db link的问题,本质上还是多套环境的关联变更导致,修复之后大家长舒了一口气。
4)最无聊的一次维护,就是在某国内客户现场值班,被抓壮丁安排去值班,主要就是过去充人数,记得自己在椅子上摆了各种姿势睡都不舒服,看着旁边的外国小哥估计还没有倒过来时差,他们在那里看《阿凡达》,后来才知道他们是特派过来的DBA,系统迁移之后,他们负责清理数据。
5)最带感的一次维护,是在一次大型迁移中,出现了性能瓶颈,导致服务回退,后来大家压力都很大,因为是一套全新的技术方案,也是在原来方案无法满足要求的前提下的改进,当然也受到了很多原厂的质疑,在压力中我们开始了地毯式排除测试,记得连续几天都是测试到后半夜,而在最后定位到问题之后,自己心里的疙瘩算是解除了,而在第二次升级的时候,记得客户的大boss也过来了,走进作战室看到一切都很顺畅,在第二天还发了表扬信。
6)这一次可能是很有特点的维护,如何摆脱常规的数据库维护影响,比如数据库需要重启,可能重启的操作需要15秒~1分钟,如何让业务的影响降低到2秒内即可恢复。看起来很普通的需求如何和业务密切配合来改进,对于运维同学来说,这种维护的意义是很特别的。
当然大多数的维护都是默默无闻的,一切正常就是最好的回答。
QQ群号:763628645
QQ群二维码如下, 添加请注明:姓名+地区+职位,否则不予通过
订阅我的微信公众号“杨建荣的学习笔记”,第一时间免费收到文章更新。别忘了加星标,以免错过新推送提示。
1
近期热文
你可能也会对以下话题感兴趣。点击链接就可以查看。
MySQL的主键命名挺任性,就这么定了
华裔教授发现二次方程极简解法,我默默的做了下验算
回答:我不小心把公司的数据库给删了,该不该离职?
迁移到MySQL的业务架构演进实战
数据库修改密码风险高,如何保证业务持续,这几种密码双活方案可以参考
MySQL业务双活的初步设计方案
如何优化MySQL千万级大表,我写了6000字的解读
一道经典的MySQL面试题,答案出现三次反转
业务双活的数据切换思路设计(下)
业务双活的数据切换思路设计(一)
MySQL中的主键和rowid,看似简单,其实有一些使用陷阱需要注意
小白学MySQL要多久?我整理了10多个问题的答案
2
转载热文
你可能也会对以下话题感兴趣,文章来源于转载,点击链接就可以查看。
去IOE or Not?
拉里·佩奇(Larry Page)的伟大归来
《吊打面试官》系列-Redis基础
唯一ID生成算法剖析,看看这篇就够了
关于大数据运维能力的一些思考
DBA菜鸟的进化简史:不忘初心,记工作中踩过的三个坑
美女主持直播,被突发意外打断!湾区网友却高喊: 我懂!超甜